Pomagajte razvoju spletnega mesta, delite članek s prijatelji!

Prej ali slej se vsakdo, ki pogosto dela s pisarniškimi programi, sooča s tipično nalogo - skeniranje besedila iz knjige, revije, časopisov, le letakov, nato pa jih prevede v besedilo, na primer v dokument Word.

Če želite to narediti, potrebujete optični bralnik in poseben program za prepoznavanje besedila. V tem članku bomo govorili o brezplačnem analognem FineReader - CuneiForm (o prepoznavanju v FineReader - glejte ta članek).

Začnimo …

Vsebina

  • 1. Značilnosti CuneiForm, funkcije
  • 2 2. Primer prepoznavanja besedila
  • 3 3. Pripoznavanje serijskega besedila
  • 4 4. Sklepne ugotovitve

1. Značilnosti CuneiForm, funkcije

CuneiForm

To lahko prenesete s spletnega mesta razvijalca: http://cognitiveforms.com/

Program za prepoznavanje besedila z odprtokodnim programom. Poleg tega deluje v vseh različicah operacijskega sistema Windows: XP, Vista, 7, 8, ki je všeč. Plus, dodajte celoten ruski prevod programa!

Pros:

- prepoznavanje besedila v 20 najbolj priljubljenih jezikih sveta (v to številko je vključeno tudi angleško in rusko);

- velika podpora za različne tiskane pisave;

- preverite slovar prepoznanega besedila;

- možnost shranjevanja rezultatov dela v več variantah;

- ohranitev strukture dokumenta;

- odlična podpora in prepoznavanje tabel.

Škode:

- ne podpira prevelikih dokumentov in datotek (več kot 400 dpi);

- neposredno ne podpira nekaterih vrst skenerjev (no, to ni grozno, gonilnik optičnega bralnika ima poseben program za skeniranje);

- Zasnova ne sije (vendar kdo potrebuje, če program v celoti reši problem).

2. Primer prepoznavanja besedila

Predvidevamo, da ste že prejeli potrebne slike za prepoznavanje (skenirane tam, ali prenesli knjigo v formatu pdf / djvu na internetu in iz njih izvlekli potrebne slike.) Za to si oglejte ta članek.)

1) Odprite želeno sliko v programu CuineForm (datoteka / odprta ali »Cntrl + O«).

2) Za začetek prepoznavanja - najprej morate izbrati različna področja: besedilo, slike, tabele itd. V Cuneiformu je to mogoče storiti ne le ročno, temveč tudi samodejno ! Če želite to narediti, kliknite gumb "označevanje" na zgornji plošči okna.

3) Po 10-15 sekundah. program samodejno označuje vsa področja z različnimi barvami. Na primer, tekstovno območje je označeno modro. Mimogrede je vsa področja pravilno in precej hitro izpostavila. Iskreno, nisem pričakoval tako hitrega in pravilnega odziva njene …

4) Za tiste, ki ne zaupajo samodejnemu označevanju, lahko uporabite priročnik. Če želite to narediti, je orodna vrstica (glejte spodnjo sliko), s katero lahko izberete: besedilo, tabelo, sliko. Premikanje, povečanje / zmanjšanje začetne slike, robov obrezovanja. Na splošno je dober nabor.

5) Ko so vsa področja označena, lahko začnete prepoznavati . Če želite to narediti, preprosto kliknite gumb z enakim imenom, kot je prikazano na spodnji sliki.

6) dobesedno čez 10-20 sekund. preden odprete dokument v programu Microsoft Word s prepoznanim besedilom. Zanimivo je, da so v besedilu tega primera napake seveda bile, vendar jih ni veliko! Še posebno, glede na to, kakšna neprednostna kakovost je bila vir materiala - slika.

S hitrostjo in kakovostjo je primerljiv s FineReader!

3. Pripoznavanje serijskega besedila

Ta funkcija programa je lahko uporabna, če morate prepoznati več kot eno sliko, vendar nekaj naenkrat. Oznaka za zagon prepoznavanja paketov je ponavadi skrita v meniju "start".

1) Po odprtju programa morate ustvariti nov paket ali odpreti prej shranjeno. V našem primeru ustvarite novo.

2) V naslednjem koraku mu damo ime, po možnosti tako, da bomo čez pol leta zapomnili, kaj je v njej shranjeno.

3) Potem izberite jezik dokumenta (rusko-angleški), določite, ali so slike in tabele v vašem skeniranem gradivu.

4) Zdaj morate določiti mapo, v kateri so datoteke za prepoznavanje. Mimogrede, zanimivo je, da program sam poišče vse slike in druge grafične datoteke, ki jih lahko prepozna in jih dodaja v projekt. Boste morali odstraniti dodatne.

5) Naslednji korak ni pomemben, po prepoznavanju izberite, kaj storiti z izvornimi datotekami. Priporočam, da izberete potrditveno polje »ne storite ničesar«.

6) Ostanek izbere le format, v katerem bo shranjen priznan dokument. Obstaja več možnosti:

- rtf - datoteka iz besednega dokumenta, se odpre z vsemi priljubljenimi uradi (vključno s prostimi, povezavo do programov);

- txt - besedilni format, v njem lahko shranite samo besedilo, slike in tabele;

- htm - hypertext stran, je priročno, če skenirate in prepoznate datoteke za spletno mesto. Izbrali bomo v našem primeru.

7) Ko kliknete gumb "pripravljeno", se bo začela obdelava vašega projekta.

8) Program deluje zelo hitro. Po prepoznavnosti se pred tabo prikaže zavihek s htm datotekami. Če kliknete to datoteko, se prične brskalnik, kjer si lahko ogledate rezultate. Mimogrede, paket lahko shranite za nadaljnje delo z njim.

9) Kot vidite, so rezultati dela zelo impresivni. Program je program zlahka prepoznal in pod njim je bilo besedilo prepozno. Z dejstvom, da je program brezplačen - je ponavadi super!

4. Sklepne ugotovitve

Če ne pogosto skenirate in prepoznavate dokumentov, potem ni smiselno kupiti FineReaderja. Pri večini nalog je CuneiForm enostavno ročaj.

Po drugi strani pa ima tudi slabosti.

Prvič, premalo orodij za urejanje in preverjanje rezultata. Drugič, ko morate prepoznati veliko slik, je v FineReaderju bolj priročno takoj videti vse, kar je dodano projektu v stolpcu na desni: hitro odstranite nepotrebne, popravite itd. In tretjič, na dokumentih zelo slabe kakovosti CuneiForm izgubi kot priznanje: Pri tem je treba upoštevati dokument - popraviti napake, vstaviti interpunkcije, obrnjene vejice itd.

To je vse. Ali poznaš kakšne druge vredne brezplačne programe za prepoznavanje besedila?

Pomagajte razvoju spletnega mesta, delite članek s prijatelji!

Kategorija: