Download - OCR - Optical Character Recognition - Kompjuterska grafika i dizajn - Seminarski rad

Transcript

OCR Optical Charactet Recgnonition

SADRAJ

41.UVOD

52.Istorija razvoja OCR-a

52.1.Prvi komercijalni sitemi

62.2.OCR-A, OCR-B

73.TRENUTNO STANJE OCR TEHNOLOGIJE

73.1.Intelligent Character Recognition (ICR)

84.OCR u drugim namjenama

84.1.Music OCR

104.2.Magnetic Ink Character Recognition (MICR)

114.3.Bar Code Reader

124.4.Optical Mark Reader

135.OCR Software

156.Nain rada OCR-a

156.1.Prepoznavanje uzoraka (Pattern Matching)

156.2.Prepoznavanje posebnosti (Feature Extraction)

156.3.Provjera pravopisa (Spelling Check)

166.4.Posebni simboli

177.Zakljuak

188.Literatura

1. UvodOptiko prepoznavanje znakova (eng. OCR Optical Character Recognition), je postupak mehanikog ili elektronskog prebacivanja rukom pisanog ili tampanog teksta koristei skener u obilik koji raunar prepoznaje i moe ga mjenjati.

OCR spada pod grupu istraivanja kao to je preponavanje uzoraka, umjetna intelignecija i mainski vid. Iako se OCR jo uvjek razvija i pronalaze se novi smjeroviu fokus se usmjerio na primjenu dokazanih tehnika. Optiko prepoznavanje znakova i digitalno prepoznavanje znakova su u poetku smatrani razliitim poljima istraivanja. Zbog injenice da je jako malo aplikacija koje su korsitlile istinske optike tehnike preivjelo, termin OCR danas obuhvata i tehnike digitalne obrade slika.

Ranije sisteme je bilo potrebno nauiti kako itati pojedni font. Trenutno su dostupni inteligentni sistemi sa velikim stepenom tanosti za veliku veinu fontova. Neki sistemi su sposobni reproducirati i aproksimirati format ulaznog skeniranog dokumenta koji se moe sastoajti od slika, kolona i drugin netekstualnih dijelova.2. Istorija razvoja OCR-a

1929. godine Gustav Tauschek OCR u Njemakoj, a nakon njega je to isto napravio Handel u SAD-u 1933. godine. Tauscheku je odobren patent za njegovu metodi i u SAD-u.

Tauschekov ureaj je bio mehaniki stroj koji je korsitio ablone. Fotodetektor je bio psotavljen tako da kad su ablon i znak koji se trebalo prepoznati bili u tano odreenom poloaju te ih svjetlost obasjavala nita svjelta ne bi dolazilo do fotodetektora.1950. Frank Rowlettje zamolio kripto analitiara Davida H. Sheparda da u suradnji s dr. Louis Tordella da svoje prijedloge za automatizovanu obradu podataka. To je ukljuivalo i problem pretvaranja isprintanih poruka u mainski jezik za raunrasku obradu. Shepard je zakljuio da mora biti mogue napraviti takavu mainu i uz pomo prijatelja Harveya Cooka tijekom veeri i vikenda na svom tavanu napravio Gismo. To su objavile novine Washington Daily News 27.4.1951. godine i New York Times 26.12.1953. godine nakon to im je odobren patent U.S. Patent Number 2,663,758.

Shepard tada osniva Intelligent Machines Research Corporation (IMR) kompaniju, koja je zasluna za razvoj prvih nekoliko komercijalnih OCR sistema uopteno u svijetu.

Iako su i Gismo i prvi IMR sistemi koristili analizu slike, za razliku od usporeivanja znakova, te su tolerirali varijaciju fontova, Gismo je bio ogranien na usko vertikalno prepoznavanje, dok su kasniji komercijalni modeli IMR skenera analizirali znakove bilo gdje u skeniranom polju to je zapravo nunost za stvarne dokumente.2.1. Prvi komercijalni sitemi

Prvi komercijalni sistem je instaliran u Readers Digest 1955. Isti taj sistem je kasnije doniran Smithsonianu gdje je postavljen kao eksponat. Drugi sistem su prodali Standard Oil Company iz Kalifornije koji se koristio za itanje oznaka na kreditnim karticama. Velik broj sistema je naknadno prodan drugim naftnim kompanijama. Neki od ostalih korisnika IMR sistema kasnih 1950. godina su i Ohio Bell Telephone Company, ZrakoplovstvoSAD-a te IBM.2.2. OCR-A, OCR-B

U poecima kompjuterskog OCR-a razvila se potreba za fontom koji e moi prepoznati tada spore kompjutere , ali koji e biti itljiv i ljudima. Kao rezultat tog kompromisa se pojavio OCR-A font koji se sastojao od jednostavnih, debelih poteza koji su tvorili prepoznatljive znakove. 1968. godine American Type Founders proizvodi OCR-A, jedan od prvih oblika znakova prilagoen za optiko prepoznavanje koji je zadovoljavao kriterije ureda za standarde SAD-a (eng. U.S. Bureau of Standards). Dizajn je tako jednostavan da ga je kompjuter mogao vrlo lako proitati, tj. prepoznati, ali je neto nezgodniji za itanje ljudima. OCR-B je europski pandan tom fontu. Napravio ga je Adrian Frutiger iste godine. OCR-B font je laki ljudima za itanje od OCR-A fonta.

Postoje besplatne, ali i komercijalne inaice ovih fontova koje prodaju razliite kompanije. Iako je OCR tehnologija napredovala toliko da vie nema potrebe za ovim specijaliziranim fontovima oni i dalje ostaju u upotrebi.

Slika 1. Izgled OCR-A i OCR-B fontova3. Trenutno stanje OCR tehnologijeTano prepoznavanje isprintane latinice se smatra uglavnom rijeenim problemom. Tipian postotak tanosti prepoznavanja prekorauje 99% iako za odreene aplikacije koje zahtijevaju jo veu tanost je potrebna ljudska intervencija i pregled greaka. Ostala podruja, poput prepoznavanja rukopisa, kurziva i naina pisanja razliitog od latinice (posebno onih sa vrlo velikim brojem znakova) su i dalje predmet aktivnog istraivanja.Tanost ili preciznost moe biti mjerena na nekoliko naina o kojima jako ovisi krajnji rezultat i postotak tanosti. Npr. bez koritenja rjenika za ispravljanje pogreaka pri itanju 1% pogreka (99% tanost) se moze pretvoriti u 5% pogreku (95% tanost). OCR se ponekad krivo poistovjeuje sa on-line character recognition. OCR je tip off-line prepoznavanja znakova, gdje sistem prepoznaje fiksne i statike oblike znakova, dok on-line prepoznavanje znakova prepoznaje dinamike pokrete tokom pisanja rukom. On-line prepoznavanje znakova se ponekad naziva i dinamiko prepoznavanje znakova (dynamic character recognition), prepoznavanje znakova u realnom vremenu (real-time character recognition) i inteligentno prepoznavanje znakova (Intelligent Character Recognition, ICR).

3.1. Intelligent Character Recognition (ICR)

On-line sistemi za prepoznavanje rukom ispisanog teksta u realnom vremenu (DCR, ICR) su sve ei komercijalni proizvodi posljednjih godina. Primjeri takvih proizvoda su ureaji poput digitalnih osobnih asistenata koji koriste Palm OS. Apple Newton je bio pionir ovakvih ureaja. Algoritmi koji se koriste u ovakvim ureajima iskoritavaju injenicu da su poredak, brzina i smjer pojedinih linija i segmenata poznati. Takoer korisnika se moe nauiti da koristi samo odreene oblike slova. Ove metode se ne mogu koristiti u software-u koji skenira papirnate dokumente tako da je tano prepoznavanje rukom pisanih dokumenata jo uvijek otvoreni problem. Tanost je izmeu 80% i 90% za uredne, isto rukom ispisane znakove, ali takva tanost svejedno znai desetke greaka po stranici to je veliko ogranienje za ovu tehnologiju i ograniava njenu primjenu.Prepoznavanje kurziva je aktivno podruje istraivanja sa postotkom tanosti prepoznavanje jo manjom od onog prepoznavanja rukom pisanog teksta. Vii postotak tanosti prepoznavanja kurziva vjerojatno nee biti mogu bez kontekstualnih ili gramatikih informacija. Na primjer, prepoznavanje cijele rijei iz rjenika je lake nego obraditi individualne znakove iz teksta. Poznavanje gramatike jezika u kojem je pisan tekst koji se skenira takoer moe pomoi pri odreivanju je li rije u pitanju imenica ili glagol to omoguava veu tanost. Oblici individualnih znakovakurziva ne sadravaju dovoljno informacija da bi se tano (vie od 98%) prepoznao cijeli rukom pisani tekst u kurzivu. Potrebno je shvatiti da je OCR osnovna tehnologija koja se koristi u naprednim aplikacijama za skeniranje. Dakle, pojedino napredno tehnoloko rjeenje moe biti temeljeno na osnovnoj OCR tehnologiji.4. OCR u drugim namjenama

Na MIT-u su se sredinom 1970. godina radila prva istraivanja prepoznavanja muzikih oblika na papiru. Ulagan je trud u uklanjanje muzikih linija kako bi ostali samo simboli za prepoznavanje i obradu. Prvi komercijalni program za skeniranje muzikih nota, MIDISCAN, je izdan 1991. godine. Trenutno postoji nekoliko proizvoda tog tipa.Jedino podruje u kojem tanost i brzina raunarskog ulaza znakovnih informacija nadilazi sposobnosti ljudi je u podruju prepoznavanja znakova ispisanih magnetskom tintom gdje je jedna pogreka na svakih 20 do 30 tisua provjera. 1950. Bank of America je bila prva banka koja je koristila OCR kako bi automatizirala obradu ekova koji su u sebi sadravali takav tip znakova.4.1. Music OCR

Za razliku od prepoznavanja teksta, gdje se rijei obrauju jedna za drugom, muzike oznake je potrebno obraivati paralelno, zbog prisutnosti viestrukih glasova i drugih muzikih oznaka. Ovdje bitnu ulogu igra razmak izmeu nota, oznake za tempo i dinamiku te glazbene oznake.

Savremeni glazbeni OCR softwareski paketi imaju preciznost koja prelazi 99% u sluaju istog skena i ako su koritene standardne notacije. Poto muzike notacije koriste take za staccato oznake ili da bi se produilo trajanje note, artifakti kod skeniranja mogu dovesti do problema pri prepoznavanju.

PhotoScore Ultimate 5 je prvi programski paket koji je u mogunosti prepoznavati rukom pisane note i druge glazbene oznake koritenjem 2 razliita enginea za prepoznavanje. Oni koreliraju vlastite rezultate i tako postiu znaajno poboljanje preciznosti.ImeLicencaOperacijski sustaviKomentari

Musitek SmartScore ProKomercijalna399$ / 299$ (akademska licenca)Windows, Mac OS XEvolucija MIDISCAN programa.

PhotoScore Ultimate 5Komercijalna249$Windows, Mac OS XLagan za koritenje, sa jeftinom inaicom za nezahtjevne.

Vivaldi ScanKomercijalna152$Windows, Mac OSLagan za koritenje, brz, 99% preciznost. Dolazi s alatom za provjeru ritma.

AudiverisGNUbesplatan[5]Windows, Mac OS, Linux, SolarisBesplatan program pisan u JAVA-i. Potpuno funkcionalan, ali ogranien na prepoznavanje tiskanih notnih zapisa.

Capella-ScanKomercijalna199.95$WindowsVrlo brz program.

Tabela 1. Lista Music OCR software-a4.2. Magnetic Ink Character Recognition (MICR)

Prepoznavanje znakova pisanih magnetskom tintom (eng. MICR=Magnetic Ink Character Recognition) je tehnologija prepoznavanja znakova koju uglavnom koristi bankovna industrija pri obradi ekova. Proces je prvi put 1956. godine prikazan organizaciji American Bankers Association, a ve je 1963. godine u SAD-u bio u masovnoj upotrebi. MICR je standardiziran kao ISO 1004.

Glavni MICR fontovi koriteni irom svijeta su E-13B i CMC-7. Gotovo svi ekovi koji se koriste u Indiji, SAD-u, Kanadi i Velikoj Britaniji na sebi sadre MICR znakove pisane E-13B fontom. CMC-7 MICR font se uglavnom koristi u Europi, poglavito Francuskoj.

Slika 2. Primjer u MICR E13 fontu

Slika 3. Primjer u CMC-7 fontuMICR fontovi su jedinstvenog izgleda i printaju se magnetskom tintom ili tonerom koji obino sadrava eljezni oksid. Poto tinta kojom su znakovi isprintani u sebi sadri estice eljeza ona se moe magnetizirati te odatle naziv magnetska tinta. Znakovi su najprije magnetizirani u ravnini s papirom, a sjevernim magnetski pol se nalazi s desne strane svakog MICR znaka. Obino se itaju pomou MICR glave za itanje koja je po svojoj prirodi vrlo slina glavi za itanje klasinih audio kaseta. Specifini oblik znakova osigurava da e svaki znak proizvesti jedinstveni zvuni oblik ime sistem za prepoznavanje znakova ima pouzdan rezultat pri prepoznavanju znakova.

Magnetsko tampanje se koristi kako bi se znakovi mogli pouzdano iitati ak ako se preko njih neto ispie. 4.3. Bar Code Reader

Barkod (eng. Bar Code) je sainjen od vertikalnih linija i razmaka izmeu njih. Niz linija i razmaka razliitih irina predstavlja niz brojeva. Barkodovi se obino nalaze na pakiranjima. Barkod daje informacije o zemlji proizvodnje, imenu proizvoaa i samom proizvodu.

ita barkoda koristi lasersku zraku da bi proitao kod. Laserska zraka se pomie preko barkoda gdje ju svijetlije linije reflektiraju, a tamnije upijaju. ita zatim pretvara uzorak odbijenog i upijenog laserskog svijetla u digitalni kod koji je jedinstven za taj proizvod.

Slika 4. Primjer brakodaBarkodovi su brza i pouzdana metoda unoenja podataka. Mogu se itati ak i sa oblih povrina ili ako su naopako. Sadre i nadzor pogreaka u obliku kontrolnog znaka.

Slika 5. Barkod ita4.4. Optical Mark Reader

ita optikih oznaka je slian itau barkoda, ali koristi infracrveno svjetlo da bi skenirao oznake na otprije pripremljenim formularima kao to su testovi sa viestrukim izborom ili listiima lutrije.

Infracrveno svjetlo se ne odbija kad pree preko oznake ija se pozicija zatim daje raunalu. Software zatim povezuje poloaj oznake sa pripadajuim informacijama ili podatcima na formularu

Ovo je vrlo brza i precizna metoda za unos velikih koliina podataka uz pretpostavku da su oznake tono i isto oznaene.

Slika 6. OMR za prepoznavanje oznaenih brojeva na listiima lutrije5. OCR SoftwareImeLicencaOperacijski sustaviKomentari

ExperVision TypeReaderKomercijalna395$Windows,Mac OS X,Unix,Linux,OS/2Prema nekim testovima najbri OCR software.

ABBYY FineReader OCRKomercijalna400$WindowsZa rad sa lokaliziranim verzijama potreban je addon s pripadajuim jezikom.

OmniPageKomercijalna500$Windows, Mac OSProizvod Nuance Communications.

ReadirisKomercijalna520$Windows, Mac OSPostoje edicije za Aziju i Srednji Istok.

Cvision Technologies PDF compressor and Maestro Recognition ServerKomercijalna500$WindowsBrz, precizan, velikih kapaciteta.

Top Image SystemsKomercijalna(N/A)WindowsSpecijaliziraju za pravne dokumente.

CompuThink ViewWiseKomercijalna8000$WindowsSustav za upravljanje dokumentima.

CuneiForm ProBSD129$WindowsProfesionalni sustav za tvrtke, podrava vie jezika, moe prepoznati sloene tekstualne i oblike tablica.

GOCRGPLMnogi (OpenSource)U ranoj fazi razvoja.

Microsoft Office Document ImagingKomercijalna(N/A)Windows, Mac OC

Microsoft Office One Note 2007Komercijalna(N/A)Windows

OcradGPLUnix, OS/2

BrainwareKomercijalna(N/A)WindowsObrada poslovnih i profesionalnih dokumenata

HOCRGPLLinuxHebrejski OCR

InstantOCRFreeWareOnlineViejezini online sustav za prepoznavanje.

OCRopusApacheLinux

ReadSoftKomercijalni(N/A)WindowsSpecijaliziran za poslovne dokumente.

Scantron Cognition ProKomercijalni8550$WindowsZa rad s lokaliziranim sueljima potreban je odgovarajui addon.

SimpleOCRFreeWare/Komercijalna300$-2500$WindowsNudi besplatan program, ali naplauje source code.

OCR TerminalFreeWare

Windows, Mac OS, LinuxWeb OCR usluga.

TesseractApacheWindows, Mac OS, Linux, OS/2Projekt koji razvija Google.

MoreDataFreeWareWindowsMogunost skeniranja jedne ili vie slika te pretrage za rijeima.

NewSoft Presto! OCRKomercijalna100$WindowsProvjera pravopisa, podrka za 52 jezika, jednostavnost.

FreeOCRFreeWareWindowsBesplatan i jednostavan.

Tabela 2. Popis OCR software-a.ABBYY FineReader 9 Professional - FineReader Professional je vrlo precizan i lagan za koritenje OCR program koji u sebi sadrava dodatne mogunosti poput OCR-a za digitalne kamere, inteligentno prepoznavanje izgleda dokumenata, poboljavanje kvalitete slike, prepoznavanje barkoda i naredbeno linijsku integraciju. Njegova glavna funkcija je ouvanje izgleda izvornog dokumenta to znaajno ubrzava konverziju i oblikovanje.

IRIS ReadIRIS Pro 11 - Pristupano rjeenje za poslovne ali i kune korisnike. ReadIRIS Pro nudi vrlo precizno OCR prepoznavanje za nisku cijenu. No bez obzira na nisku cijenu, svejedno nudi pregrt naprednih mogunosti inae rezerviranih za mnogo skuplja profesionalna rjeenja.

Nuance OmniPage Pro 16 - OmniPage je prema mnogima najbra, najpreciznija i najsadrajnija OCR aplikacija. OmniPage 16 Professional sadri jedinstvenu mogunosti pretvaranja bilo kojeg tipa dokumenta u pretraivi PDF ili Word Doc format. OmniPage nema dostupnu demo verziju svoje aplikacije za download. Takoer ne prua besplatnu tehniku podrku nakon prvog poziva. Sve ovo ipak nude konkurentska rjeenja kompanija ABBYY i IRIS.

Presto! OCR Pro 4.0 - Presto! OCR ne samo da precizno prepoznaje dokumente on i ouva njihov izgled i izvorni oblik. Dakle sauva izgled i pozicije kolona, tablica i slika. Mona, ali iznenaujue cjenovno pristupana alternativa nekim poznatijim i skupljim OCR rjeenjima. ita i prepoznaje 52 jezika, oblikuje novi dokument prema izgledu starog, moe skenirati i iz obojanih i tamnih podloga, podrava viestruku obradu dokumenata te profesionalne alate za analizu sloenih izgleda dokumenata.

ExperVision TypeReader - Ovaj ExperVisionov software postoji u raznim inaicama predvienim za osnovnu i profesionalnu upotrebu. Podrava skeniranje crno-bijelih i slika u boji, sadri podrku za vie jezika te podrku za PDF.

Osim ovih aplikacija postoje jo neke poput Top Image Systems, CompuThink ViewWise, Brainware, ReadSoft i drugih koji su specijalizirani za brzu obradu poslovnih dokumenata u vrlo velikim koliinama te svoju namjenu i nalazt u profesionalnim okruenjima poput banaka ili srednjih i velikih tvrtki. Kao takve ove aplikacije nisu zanimljive uobiajenom korisniku.SimpleOCR - SimpleOCR je besplatna OCR aplikacija koja nudi prihvatljivu preciznost za one koji ele pretvoriti samo par stranica i ne mogu si priutiti neki od komercijalnih softwarea. Omoguava pretvorbu skeniranih slika u tekstualne datoteke ili Word dokumente. SimpleOCR nudi mogunosti TWAIN skeniranja, runog odreivanja zona sa slikama ili tekstom, nekoliko rjenika, interaktivno ispravljanje pogreaka sa prijedlozima iz rjenika, izlazne datoteke u obliku obinog teksta ili RTF (MS Word) formatu. SimpleOCR nudi sve obino koritene OCR mogunosti i usporedivu sposobnost prepoznavanja s komercijalnim alatima. SimpleOCR moe biti jednako dobar kao i OmniPage Professional 16 ako si student ili neko kome jako rijetko zatreba pretvoriti tiskani dokument u digitalni oblik.

Softi FreeOCR - FreeOCR je besplatni OCR program za Windows platformu. Ovo je vrlo jednostavan i lak za koritenje program s jednostavnom instalacijskom procedurom. Ima podrku za viestrane tiff slike, fax dokumente i razne druge oblike kompresiranih slika. Jedini nedostatak ovog programa je njegova nemogunost itanja PDF dokumenata. Poto neki PDF dokumenti imaju zakljuanu mogunost copy-paste teksta tada je od koristi OCR program. Free OCR je software otvorenog koda (eng. open source) te time freeware, odnosno besplatna aplikacija. Za razliku od nekih OCR aplikacija koje su besplatne samo za privatnu upotrebu, FreeOCR se moe slobodno koristiti i u komercijalne svrhe. Besplatni OCR engine je distribuiran pod Apache v2.0 licencom to znai da e stalno imati potporu open source razvojne zajednice. 6. Nain rada OCR-aSoftware za optiko prepoznavanje znakova (Optical Character Recognition, OCR) skenira i prepoznaje tekst te ga zatim pretvara u datoteku word procesora za daljnju obradu.

OCR software taj postupak ini na 3 glavna naina: prepoznavanje uzoraka (Pattern Matching), prepoznavanje posebnosti (Feature Extraction) i provjera pravopisa (Spell Checking).Najbolji programi za optiko prepoznavanje znakova koriste vie od jedne ovdje navedenih metoda kako bi odredili o kojem se skeniranom znaku radi. Kombinirajui razliite metode tonosti i preciznost drastino poraste.6.1. Prepoznavanje uzoraka (Pattern Matching)

Veina tekstova je u Times, Courier ili Helvetica tipu fonta, veliine izmeu 10 i 14 taaka. OCR programi koji koriste prepoznavanje uzoraka (Pattern Matching) imaju slike za svaki znak u svakom fontu i veliini. Usporeujui snimljene slike koje dolaze sa OCR programom s onima skeniranih znakova program pokuava prepoznati slova. Oiti nedostatak ove metode je to je korisna samo za otprije poznate tipove i veliine fontova.

6.2. Prepoznavanje posebnosti (Feature Extraction)

Umjesto da usporeuje otprije snimljene slike znakova s onima skeniranima ova metoda pokuava prepoznati slova tako to ih pokuava rastaviti na osnovne posebnosti ili sastavne dijelove koji se zatim usporeuju sa listom posebnosti ili sastavnih dijelova koji se nalaze u programskom kodu.

Na primjer slovo "a" je sainjeno od kruga, linije na desnoj strani i luka na sredini. Taj luk nije obavezan sastavni dio slova. Dakle, ako skenirano slovo ima te "posebnosti" OCR program bi ga tano prepoznao kao slovo "a".6.3. Provjera pravopisa (Spelling Check)

Ni jedan OCR software ne moe prepoznati 100% skeniranih znakova. Neki OCR programi koriste usporedbu uzoraka (Pattern Matching) i/ili prepoznavanje posebnosti (Feature Extraction) kako bi prepoznali to je vie mogue znakova. Nakon to je obavljeno poetno prepoznavanje, neprepoznati znakovi esto mogu biti odreeni gledajui susjedne znakove. Na primjer, ako OCR program nije mogao prepoznati slovo i u rijei nj~hovo provjerom pravopisa program moe utvrditi da je slovo koje nedostaje slovo i.6.4. Posebni simboli

U upotrebi uglavnom u bankarstvu, svaki od sljedeih simbola nakon prepoznavanja nosi tano odreeno znaenje vano za posebne primjene. Za prepoznavanje ovakvih znakova je potrebno koristiti neke od navedenih profesionalnih ili specijalizovanih programa za poslovne dokumente.ImeSlika

OCR Hook

OCR Chair

OCR Fork

OCR Inverted Fork

OCR Belt Buckle

OCR Bow Tie

OCR Branch Bank Identification

OCR Amount of Check

OCR Customer Account Number

OCR Dash

OCR Double Backslash

Tabela 3. Posebni OCR simboli.7. Zakljuak

Tano prepoznavanje isprintane latinice se smatra uglavnom rijeenim problemom. Tipian postotak tanosti, tj. preciznosti prepoznavanja prekorauje 99%.

Postoje jo problemi pri prepoznavanju rukom pisanog teksta u realnom vremenu te pogotovo onog pisanog kurzivom. Sa vremenom i kvalitetnim ulaganjem u razvoj e se vjerojatno i ti problemi savladati.

Ve sada OCR tehnologija nalazi svoju krucijalnu primjenu u raznim velikim korporacijama gdje tedi novac i vrijeme pri obradi velikih koliina specijalizovanih dokumenata, pravnih ili vezanih za bankarske poslove. Takva rjeenja su vrlo skupa i pristupana samo financijski likvidnim korporacijama kojima se takav ulog moe isplatiti.

Za obinog, kunog korisnika koji se povremeno koristi OCR tehnologijom pri sporadinom skeniranju dokumenata postoje razna rjeenja, od besplatnih pa do onih koji kotaju par stotina dolara.

Ako se potreba za OCR-om ne pokazuje vrlo esto ili rijetko nema potrebe za ulaganjem i plaanjem relativno skupih rjeenja kada tu mogu dovoljno dobro zadovoljiti ona besplatna poput FreeOCR ili SimpleOCR programa.

Za male i srednje kompanije koje moraju obraivati neto vee koliine dokumenata se preporuaju neto skuplja, ali i monija rjeenja poput ABBYY FineReader ili OmniPage.Veina ovih komercijalnih rjeenja nudi i podrku za prepoznavanje barkodova ili optikih oznaka to ih ini sveobuhvatnim programima i proiruje raspon njihove mogue primjene.

U budunosti e trend poboljanja preciznosti, kvalitete, to samih programa to prepoznavanja, te integracije raznih dodatnih mogunosti jo vie rasti.

Za oekivati je da e se uskoro i pojaviti vrlo kvalitetni sistemi koji e moi prepoznati rukopis, i kvalitetno automatski rjeavati klasine probleme kod skeniranja i prepoznavanja o kojima je bilo govora.8. Literatura1. http://www.am.unze.ba/pzi/2010/vektorizacija_rasterske_Benisa_Mujezinovic/historijat.html (20.3.2013.)2. http://www.gloria-ferrari.com/o_asistivnim_tehnologijama_-_pomagalima/pojmovi/softver_-_program_za_prepoznavanje_teksta_-_opticko_prepoznavanje_znakova.html (20.3.2013.)3. http://www.am.unze.ba/pzi/2011/Sabanovic_Arminka/historijat.html (20.3.2013.)4. http://www.cvisiontech.com/reference/ocr/ocr-technology.html?lang=hrv (20.3.2013.)5. http://www.cvisiontech.com/reference/document-automation/ocr-imaging-solution.html?lang=hrv (20.3.2013.)6. http://www.am.unze.ba/pzi/2011/Sabanovic_Arminka/OCR%20(Optical%20Character%20Recognition).html (20.3.2013.)PANEVROPSKI UNIVERZITET APEIRON

FAKULTET POSLOVNE INFORMATIKE

Redovne studije

Smjer Poslovna informatika

Predmet

KOMPJUTERSKA GRAFIKA I DESIGN

OCR - Optical character recognition

(seminarski rad)

Predmetni nastavnik

Doc. dr Nedim Smailovi

Student

Vladimir Pavlovi

Index br. 121-11/RPI

Banja Luka, mart 2013.