Pomagajte razvoju spletnega mesta, delite članek s prijatelji!

Dober dan.

Verjetno se je vsak izmed nas soočil z nalogo, ko je treba papirni dokument prevedeti v elektronsko obliko. Še posebej je pogosto potrebno, da tisti, ki študirajo, delajo z dokumentacijo, prevajajo besedila z uporabo elektronskih slovarjev itd.

V tem članku želim deliti nekaj osnov tega procesa. Na splošno je skeniranje in prepoznavanje besed precej težko, saj je večina operacij treba opraviti ročno. Poskusili bomo razumeti korake, kako in zakaj.

Nihče takoj ne razume ene stvari. Po skeniranju (skaliranje vseh listov na skenerju) boste imeli slike oblike BMP, JPG, PNG, GIF (morda obstajajo tudi druge oblike). Torej s to sliko potrebujete besedilo - ta postopek se imenuje prepoznavanje. V tem zaporedju in bo izjava spodaj.

Vsebina

  • 1 1. Kaj moram skenirati in prepoznati?
  • 2 2. Možnosti skeniranja za besedilo
  • 3 3. Priznanje besedila dokumenta
    • 3.1 3.1 Besedilo
    • 3.2 3.2 Slike
    • 3.3 3.3 Tabele
    • 3.4 3.4 Nepotrebne postavke
  • 4 4. Priznavanje datotek PDF / DJVU
  • 5 5. Preverjanje napak in shranjevanje rezultatov dela

1. Kaj morate iskati in prepoznati?

1) Skener

Za prevajanje tiskanih dokumentov v besedilno obliko potrebujete skener in s tem "domače" programe in gonilnike, ki ste jih dobili z njim. Z njimi lahko dokument skenirate in ga shranite za nadaljnjo obdelavo.

Lahko uporabite druge analoge, vendar programska oprema, ki je priložena skenerju v kompletu, običajno deluje hitreje in ima več možnosti.

Odvisno od vrste optičnega bralnika - hitrost dela se lahko zelo razlikuje. Obstajajo skenerji, ki lahko dobijo sliko iz lista v 10 sekundah. Obstajajo nekateri, ki bodo prejeti v 30 sekundah. Če skenirate knjigo za 200-300 listov - menim, da ni težko izračunati, kolikokrat bo prišlo do časovne razlike?

2) program za priznanje

V tem članku vam pokažem delo v enem izmed najboljših programov za optično branje in prepoznavanje vseh dokumentov - ABBYY FineReader. Ker program je plačan, potem bom takoj dal povezavo do druge - svojo brezplačno analogno Cunei obrazec. Vendar jih ne bi primerjal, glede na to, da FineReader zmaga v vseh pogledih, priporočam, da ga še vedno poskušam.

ABBYY FineReader 11

Uradna spletna stran: http://www.abbyy.ru/

Eden izmed najboljših programov te vrste. Namenjen je prepoznavanju besedila na sliki. Vgrajene so številne možnosti in funkcije. Lahko razčleni veliko pisav, podpira celo ročno napisane različice (čeprav osebno ni poskusil, mislim, da je malo verjetno, da boste prepoznali ročno verzijo, razen če imate popoln kaligrafski rokopis). Več podrobnosti o delu z njim bo opisano v nadaljevanju. Tukaj opažamo, da vam bo članek povedal o delu v različici programa 11.

Različne različice ABBYY FineReader praviloma ne razlikujejo veliko drug od drugega. Z lahkoto lahko storite enako v drugem. Glavne razlike so v priročnosti, hitrosti programa in njegovih zmožnostih. Na primer, starejše različice zavračajo odpiranje PDF in DJVU …

3) Dokumenti za skeniranje

Da, tako sem se odločil, da bom dokumente v ločenem polju. V večini primerov skenirajte vse učbenike, časopise, članke, revije itd. tiste knjige in tisto literaturo, ki je v povpraševanju. Je to to, za kar vodim? Iz osebnih izkušenj lahko rečem, da veliko, kar želite optično prebrati - morda že obstaja v omrežju! Kolikokrat sem osebno prihranil čas, ko sem našel to ali tisto knjigo, ki je že bila optično prebrana v omrežju. Lahko kopiram besedilo samo v dokument in nadaljujem z njo.

Iz tega preprostega nasveta - preden skenirate nekaj, preverite, ali je nekdo že pregledal in vam ni treba izgubiti časa.

2. Možnosti skeniranja besedila

Tukaj ne bom govoril o vaših gonilnikih za optični bralnik, programe, ki so bili skupaj z njim, ker so vsi modeli skenerja drugačni, programska oprema je tudi povsod drugačna in uganiti, še bolj pa pokazati, kako izvajati operacijo je nerealna.

Toda v vseh skenerjih so enake nastavitve, ki lahko močno vplivajo na hitrost in kakovost vašega dela. To je samo za njih in tukaj bomo govorili. Naredil jih bom po vrstnem redu.

1) Kakovost skeniranja - DPI

Prvič, kakovost skeniranja naj bo nastavljena na najmanj 300 DPI. Priporočljivo je celo, če je mogoče. Višja je DPI, bolj jasno bo vaša slika postala, zato bo nadaljnja obdelava hitrejša. Poleg tega je večja kakovost skeniranja - manj napak boste morali popraviti kasneje.

Optimalna različica zagotavlja običajno 300-400 DPI.

2) Kromatičnost

Ta parameter močno vpliva na čas skeniranja (mimogrede, vpliva tudi DPI, vendar so ti tako močni in le, ko uporabnik postavlja visoke vrednosti).

Običajno obstajajo trije načini:

- črno-bela (kot nalašč za golo besedilo);

- siva (primerna za besedilo s tabelami in slikami);

- barva (za barvne revije, knjige, na splošno, dokumenti, pri katerih je pomembna barvitost).

Običajno je čas skeniranja odvisen od izbire barve. Konec koncev, če imate velik dokument, se bodo tudi dodatni 5-10 sekund na strani kot celota razlit v dober čas …

3) Fotografije

Dokument lahko sprejemate ne le s skeniranjem, ampak tudi s fotografiranjem. Praviloma boste v tem primeru imeli nekatere druge težave: izkrivljanje slike, zamegljeno. Zaradi tega se lahko zahteva nadaljnje urejanje in obdelava prejetega besedila. Osebno ne priporočam uporabe kamer v tem primeru.

Pomembno je opozoriti, da se ne bo priznaval vsak tak dokument; Kakovost skeniranja je lahko izjemno nizka …

3. Pripoznavanje besedila dokumenta

Predvidevamo, da ste prejeli želene skenirane strani. Najpogosteje so oblike: tif, bmb, jpg, png. Na splošno za ABBYY FineReader - to ni zelo pomembno …

Po odprtju slik v ABBYY FineReader, program praviloma na avtomatskem računalniku začne dodeljevati področja in jih prepozna. Včasih pa to ne naredi prav. Za to bomo razmislili o dodeljevanju zahtevanih področij ročno.

Pomembno! Nihče takoj ne razume, da je po odprtju dokumenta v programu izhodni dokument prikazan na levi strani okna, v katerem izberete različna področja. Ko kliknete gumb "prepoznavanje", bo program v oknu na desni prikazal končano besedilo za vas. Po priznanju, mimogrede, je priporočljivo preveriti besedilo napak v istem FineReaderju.

3.1 Besedilo

To območje se uporablja za izbiro besedila. Slike in tabele je treba izključiti iz njega. Roke in nenavadne pisave bo treba vnesti ročno …

Če želite poudariti tekstovno področje, bodite pozorni na ploščo na vrhu FineReader. Obstaja gumb "T" (glej sliko spodaj, kazalec miške je samo na tem gumbu). Kliknite na to, nato na spodnji sliki izberite lepo pravokotno območje, v katerem se nahaja besedilo. Mimogrede, v nekaterih primerih morate ustvariti besedilne bloke 2-3 in včasih 10-12 na stran, ker Oblikovanje besedila je lahko drugačno in en pravokotnik ne razporedi celotnega območja.

Pomembno je vedeti, da besedilo ne sme dobiti slik! V prihodnosti vam bo to prihranilo veliko časa …

3.2 Slike

Uporablja se za označevanje slik in območij, ki jih je zaradi slabe kakovosti ali nenavadne pisave težko prepoznati.

Na sliki spodaj je kazalec miške na gumbu, ki se uporablja za izbiro območja "slike". Mimogrede, na tem področju lahko izberete poljuben del strani, FineReader pa ga bo kasneje vstavil v dokument kot običajno sliko. Torej. samo "neumna" kopija …

Običajno se to območje uporablja za označevanje slabo skeniranih miz, za označevanje nestandardnega besedila in pisave, za slike samega sebe.

3.3 Tabele

Slika spodaj prikazuje gumb za izbiro tabel. Na splošno ga osebno uporabljam zelo redko. Dejstvo je, da boste morali rutinsko pripraviti (v resnici) vsako vrstico na mizi in pokazati, kaj in kako programirati. Če je tabela majhna in v zelo slabi kakovosti, priporočam uporabo območja slike za te namene. To prihrani veliko časa in hitro lahko v Wordu hitro izdelate preglednico na podlagi slike.

3.4 Nepotrebne postavke

Pomembno je omeniti. Včasih so na strani nepotrebni elementi, ki motijo prepoznavanje besedila ali sploh ne omogočajo, da izberete želeno področje. S pomočjo brisalca jih lahko zbrisate.

Če želite to narediti, pojdite na način urejanja slik.

Izberite orodje »eraser« in izberite nepotrebno področje. Izbrišena bo in bo na njej bela list papirja.

Mimogrede, priporočam, da to možnost uporabite čim pogosteje. Poskusite vsa besedilna področja, ki ste jih označili, kjer vam ni treba kos besedila ali pa obstajajo nepotrebne točke, zamegljenost, popačenje - izbrišite radirko. Zahvaljujoč temu priznanju bo hitrejši!

4. Priznavanje datotek PDF / DJVU

Na splošno se ta oblika prepoznavanja ne bo razlikovala od ničesar drugega - npr. Lahko sodelujete z njim in s slikami. Edino, da program ne bi smel biti zastarela, če ne odprete datotek PDF / DJVU - posodobite različico na 11.

Malo nasvetov. Po odprtju dokumenta v FineReader - samodejno začne prepoznati dokument. Pogosto v datotekah PDF / DJVU določen prostor strani ni potreben v celotnem dokumentu! Če želite tako območje izbrisati na vseh straneh, naredite naslednje:

1. Pojdite na razdelek za urejanje slik.

2. Omogočite možnost obrezovanja.

3. Izberite območje, ki ga želite na vseh straneh.

4. Kliknite, da veljajo za vse strani in trim.

5. Preverjanje napak in prihranek rezultatov dela

Zdi se, da morda še vedno obstajajo težave, ko so bila vsa področja dodeljena, nato priznana - vzemite in shranite … Ni bilo tam!

Najprej morate preveriti dokumente!

Če želite omogočiti, po prepoznavi, v oknu v desno, bo gumb "preveri", glejte sliko spodaj. Ko jo kliknete, bo program FineReader samodejno prikazal tista področja, kjer ima program napake in ne more zanesljivo prepoznati določenega simbola. Izbrali boste le, ali se strinjate z mnenjem programa ali vnesete svoj simbol.

Mimogrede, v približno polovici primerov bo program ponujal že pripravljeno pravo besedo - z miško boste morali izbrati pravo možnost.

Drugič, po preverjanju morate izbrati obliko, v kateri boste prihranili rezultat svojega dela.

Tukaj FineReader vam v celoti obrne: lahko preprosto prenesete podatke v Wordu eno proti ena in ga lahko shranite v eni od desetih formatov. Ampak želim poudariti še en pomemben vidik. Katerega formata ne bi izbrali, je bolj pomembno, da izberete vrsto kopije! Razmislite o najbolj zanimivih možnostih …

Natančna kopija

Vsa področja, ki ste jih izbrali na strani v priznanem dokumentu, bodo natančno ustrezala izvirnemu dokumentu. Zelo priročna možnost, ko je pomembno, da ne izgubite oblikovanja besedila. Mimogrede, pisave bodo prav tako zelo podobne prvotnemu. Priporočam uporabo te možnosti za pošiljanje dokumenta Wordu, da nadaljujem nadaljnje delo.

Izbrisana kopija

Ta možnost je dobra, ker dobite že oblikovano različico besedila. Torej. oddaljena od "kilometra", ki je morda bila v izvornem dokumentu - se ne boste srečali. Koristna možnost, ko boste znatno uredili podatke.

Vendar ni treba izbrati, če je za vas pomembno, da obdržite slog dekoracije, pisave, alinee. Včasih, če prepoznavanje ni zelo uspešno - vaš dokument lahko "poševni" zaradi spremenjenega oblikovanja. V tem primeru je priporočljivo izbrati točno kopijo.

Preprosto besedilo

Možnost za tiste, ki samo želijo besedilo s stranjo brez vsega drugega. Primerno za dokumente brez slik in tabel.

Ta članek o skeniranju in prepoznavanju dokumenta se je končal. Upam, da boste s temi preprostimi nasveti rešili vaše težave …

Srečno!

Pomagajte razvoju spletnega mesta, delite članek s prijatelji!

Kategorija: