Fuchs Ocr Impact Workshop MUC

32
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Michael Fuchs Senior Product Marketing Manager ABBYY Europe [email protected] Optische Zeichen Erkennung (OCR) Einführung & Überblick

description

 

Transcript of Fuchs Ocr Impact Workshop MUC

Page 1: Fuchs Ocr Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Michael FuchsSenior Product Marketing ManagerABBYY Europe

[email protected]

Optische Zeichen Erkennung (OCR) Einführung & Überblick

Page 2: Fuchs Ocr Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT + ABBYY - OCR Einführung & Überblick 2

Agenda ABBYY Technology im IMPACT Project

Wer ist ABBYY? Firmenüberblick Produktüberblick Wie findet OCR Verarbeitung in der Praxis statt?

Optical Character Recognition - Grundlagen Was ist OCR? Wie wird OCR heute genutzt? Wie funktioniert OCR? OCR = Only Character Recognition? IMPACT – die Optimierungsansätze

Fragen

Page 3: Fuchs Ocr Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT & ABBYY

IMPACT + ABBYY - OCR Einführung & Überblick 3

Page 4: Fuchs Ocr Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT + ABBYY - OCR Einführung & Überblick 4

Improving Access to Text Mission of IMPACT: It aims to significantly improve access to historical text and

to take away the barriers that stand in the way of the mass digitisation of the European cultural heritage.

Partners: Koninklijke Bibliotheek, The British Library, Österreichische Nationalbibliothek, Universität Innsbruck,

Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitätsbibliothek Göttingen

ABBYY, IBM Israel – Science and Technology Ltd, Instituut voor Nederlandse Lexicologie

National Centre for Scientific Research "Demokritos“,

Centrum für Informations- und Sprachverarbeitung, University of Munich

University of Bath, University of Salford, Bibliothèque Nationale de France

Web: www.impact-project.eu

Page 5: Fuchs Ocr Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT & ABBYY

ABBYY ist der OCR Technologie Lieferant für IMPACT Mitglieder

OCR Technology für IMPACT wird Mitgliedern als SDK gestellt, da Nur Entwicklerwerkzeuge es erlauben, neue/andere Module zu verbinden,

z.B. komplexe externe Wörterbücher ( IMPACT: LMU) Wissenschaftliche Forschung & Tests in eigenen Modulen durchgeführt werden

IMPACT + ABBYY - OCR Einführung & Überblick 5

Page 6: Fuchs Ocr Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

IMPACT & ABBYY

ABBYY verbessert u.a. die OCR Kerntechnologien zur Erkennung alter Dokumente Bild-Vorverarbeitung Zeichenerkennung

Aktuell liegt der IMPACT Schwerpunkt auf Forschung und nicht im Aufbau eines Produktivsystems ;o)

Verbesserungen der ABBYY Technologien aus dem IMPACT Projekt werden in künftige Produkte integriert werden. Wichtig: ABBYY FineReader 8/9/10 Professional (Box) bieten keine Fraktur OCR Fraktur OCR gibt es nur in Recognition Server und FineReader Engine

IMPACT + ABBYY - OCR Einführung & Überblick 6

Page 7: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

ABBYY im Überblick

Page 8: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

ABBYY weltweit

ABBYY JapanFremontABBYY USA ABBYY Ukraine

Kiev

ABBYY Europe UK

ABBYY Europe GmbH

Munich, Germany ABBYY Taiwan

ABBYY Headquarters/ ABBYY Russia

Moscow

Page 9: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Wer ist ABBYY?

Führender Hersteller von Technologie und Software für

Dokumenterkennung OCR (Texterkennung) ICR (Handschrifterkennung) OBR (Barcodeerkennung) OMR (Erkennung von Auswahlfeldern)

Data Capture Formularverarbeitung (Fragebögen, Wahlscheine, etc.) Semi-strukturierte Dokumente (Rechnungen, Lieferscheine Bestellungen, etc.) Unstrukturierte Dokumente (Verträge, Briefe, etc.)

Linguistik / Wörterbücher

Page 10: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

ABBYY in West Europa

ABBYY Europe GmbH

Büro in München

Gegründet 2001 – heute mehr als 50 Beschäftigte

Betreut Partner und Kunden in westeuropäischen Ländern

Vertrieb & Marketing

Vertrieb● Distribution, Entwicklung von Vertriebskanälen, Partner Management

Marketing● Produkt Marketing, Channel Marketing, Outbound Marketing

ABBYY weltweit mehr als 800 Beschäftigte

Page 11: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Produkte im Überblick

Page 12: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

ABBYY Produkte Mainline Distribution

“Box” Produkte:

ABBYY FineReaderOCR Anwendungen für Endanwender

ABBYY FotoReaderTexterkennung aus Dokumenten, die mit einer Digitalkamera aufgenommen wurden

ABBYY PDF TransformerPDF Konvertierung und Erzeugung für Endanwender

ABBYY LingvoElektronische Wörterbücher, Russisch und europäische Sprachen

Page 13: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

ABBYY Produkte Direktvertrieb und VAR Distribution

Technische Produktlinien:

ABBYY Recognition ServerServerbasierte OCR

ABBYY FormReader und ABBYY FlexiCaptureFormularverarbeitung, Datenextrahierung aus semi- und unstrukturierten Dokumenten

ABBYY FineReader Engine SDKSoftware Development Kit um OCR Technologien in andere Systeme und Anwendungen integrieren zu können

ABBYY Mobile OCR EngineOCR für mobile Geräte, PDAs und Web Anwendungen

Page 14: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

ABBYY OCR Produkte – Anwendungssicht

Desktop/Workgroup Server/Backend SDK/Integration

OCR

& D

okum

ent

Konv

ertie

rung

FineReader (Professional, Corporate, Site Licence Edition)

PDF Transformer

FotoReader

ScreenshotReader

Recognition Server (Professional, Extended Edition)

FineReader Engines (Windows, Linux, Mac OS X, Free BSD, Embedded Systems)

Mobile OCR Engine (Android, Symbian, Linux, Windows, Windows Mobile,iPhone )

Endanwender, Firmen

Firmen,Scandienstleister,

Bibliotheken

Anwender gesteuerte Verarbeitung,

Fertige Anwendung

AutomatisierteVerarbeitung,

Fertige Lösung

Automatisierte Verarbeitung,

Entwicklung nötig

Entwickler,Scandienstleister

IMPACT ResearchAnw

ende

rsi

nd:

Page 15: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

OCR Grundlagen

Page 16: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick 16

Nicht OCR-fähig per Design

Page 17: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick 17

Was (ABBYY) OCR lesen kann...

Unterstützte Erkennungssprachen 191 Sprachen insgesamt Alphabete: Latein, Griechisch, Kyrillisch, Armenisch,

Hebräisch, Thai 34 Sprachen mit Wörterbuch und Rechtschreibkorrektur Chinesisch, Japanisch, Koreanisch (CJK) – 4 hieroglyphische Systeme 5 Sprachen in FineReader XIX

(Gotisch und andere Schriften des 17.-20. Jahrhunderts) 6 Programmiersprachen (Basic, C/C++, COBOL, Java, etc.) 4 künstliche Sprachen (Esperanto, Interlingua, etc.) Einfache chemische Formeln

Schriftarten Erkennung unterschiedlicher Schriftarten

(Nadeldrucker, Schreibmaschinen, Fraktur, etc.) OCR-A OCR-B MICR (E13B) CMC-7

Page 18: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung Korrektur von Bildfehlern, Verbesserung des optischen Eindrucks und

Vorbereitung für die eigentliche automatische OCR

Schritt 2. Dokument Analyse Erkennen der verschiedenen Bereiche eines Dokuments, Layoutanalyse,

finden von Spalten, Tabellen, Bildern und Barcodes

Schritt 3. Zeichenerkennung Automatische Erkennung der einzelnen Zeichen, Anwenden der Sprachdefinitionen,

Wörterbücher und anderer Optionen

Schritt 4. Prüfung & Korrektur durch Anwender (optional) Manuelle Validierung/Korrektur unsicher erkannter Zeichen und Wörter

Schritt 5. Dokument Synthese und Export Erzeugung der entsprechenden Ausgabeformate mit den gewählten Optionen

18

OCR Verarbeitungsschritte

Page 19: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

Existierende Bildformate laden oder diese vom Scanner übernehmen

Trennung von Doppelseiten

Skalierung & Anpassung der Auflösung, z.B. bei Bildern mit sehr geringer Auflösung

Rotation (um 90, 180, oder 270 Grad)

Bildtonumkehr

Bildbeschneidung (Cropping)

Erzeugung von Seitenvorschaubildern

Änderung der Text und Hintergrundfarben

19

OCR Verarbeitungsschritte

Page 20: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

Kompensierung von Scanfehlern

Automatisches Geraderücken der Dokumentseiten

Begradigung von Textzeilen Kontrollierte Entfernung von

Staub und RauschenAchtung: Punkte bei: i, ä, ö, ü

20

OCR Verarbeitungsschritte

Page 21: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

Intelligente Hintergrundfilterung

Adaptive Binarisierung

21

OCR Verarbeitungsschritte

Eine einfache Binarisierung auf Basis des gesamten Bildes kann keine guten OCR Ergebnisse liefern. Problem: Mikrofilm Erstellung = Binarisierung

Page 22: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

Erste IMPACT Verbesserungen

22

OCR Verarbeitungsschritte

Original State of the Art Neu

Kein Text der Rückseite

Page 23: Fuchs Ocr Impact Workshop MUC
Page 24: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 3. Zeichenerkennung Nachdem die Zeilen gefunden wurden, werden verschiedene Classifier zur Zeichenerkennung genutzt und die Ergebnisse bewertet

24

OCR Verarbeitungsschritte

Raster Classifier Kontur Classifier

Classifier zur Unterscheidung von Merkmalen Struktur Classifier

Page 25: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 3. Zeichenerkennung – Trainieren neuer SymboleSogenanntes Pattern Training erlaubt es OCR Anwendungen, spezielle Zeichen auf Pixelebene zu lernen

25

OCR Optimierung

Page 26: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-EbeneAnwenden der gewählten Sprach- und Wörterbuch-Einstellungen

Eigene Sprachen und Wörterbücher können hinzugefügt werden IMPACT

26

OCR Optimierung

Page 27: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 4. Prüfung & Korrektur durch Anwender (optional)

Manueller Eingriff möglich: Ergebnisse der Layout Analyse

● Textblöcke● Bildblöcke● Tabellenblöcke

Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch-Unterstützung

Erneute OCR Erkennung mit anderen Spracheinstellungen

Recognition Server / FineReader Engine erlauben den Export der Ergebnisse auch als XML Datei Impact

27

OCR Verarbeitungsschritte

Page 28: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 5. Dokument Synthese und Export

Erzeugung der Ausgabeformate mit verschiedenen Optionen

TXT, Office Formate, PDF, etc.

Beginnend mit Version 9.0 nutzt ABBYY ADRT = Adaptive Document Recognition Technology. Diese hat das Ziel, ein Dokument als Einheit zu verstehen.V9: Erkennung von Kopf- und Fußzeilen V10: Rekonstruktion von Inhaltsverzeichnissen

SDKs und Recognition Server erlauben weitere Exportformate, z.B.:● XML● Internes FineReader Engine Format

28

OCR Verarbeitungsschritte

Page 29: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

OCR Allgemein &

Im Speziellen: IMPACT

Page 30: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Nachbau des Originallayouts im neu erzeugten Dokument Das erzeugte Dokument basiert auf dem Originallayout des gescannten Dokuments Informationen aus der Layoutanalyse werden hier wiederverwendet Wichtig auch für PDF mit Text unter dem Originalbild

Unterstützung verbreiteter Formate ABBYY Produkte unterstützen die gängigsten Dokumentenformate, z.B.:

PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint und DBF

Unterstützung von Bildexportformten BMP, PCX, JPEG, JPEG 2000, TIFF, PNG

Einhaltung von Standards Unterstützung von kennwortgeschützen PDFs, Verschlüsselung von PDFs Support von PDF/A zur Langzeitarchivierung, etc.

30

OCR – Only Character Recognition?

Page 31: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Schritt 1. Bildqualität Problembereiche: Scans von Mikrofilm, Wölbungen, durchscheinende Zeichen Optimierung sansatz : Bildvorverarbeitung, z.B: Binarisierung

Schritt 2. Dokument Analyse Problembereiche: Layout alter Druckwerke, z.B. enger Spaltensatz bei alten Zeitungen, Optimierung sansatz : Verbesserte Layoutanalyse

Schritt 3. Zeichenerkennung & Sprache Problembereiche: Verwendete Schriftarten, alte Sprache (Grammatik und Rechtschreibung) Optimierung sansatz : Verbesserte Erkennungsmuster, Erstellung spezieller Wörterbücher

Schritt 4. Prüfung & Korrektur Problembereiche: Oft Serienfehler bei Frakturerkennung , Skalierung Optimierung sansatz : Neue Ansätze zur Massenkorrektur

Schritt 5. Dokument Synthese, Export & Bewertung Problembereiche: Inhalts-Klassifizierung , Metadaten Generierung, Sichere Formate Optimierung sansatz : XML Analyse, XML, AltoXML, PDF/A, …

31

IMPACT = „Schrittweise“ Optimierung

Page 32: Fuchs Ocr Impact Workshop MUC

IMPACT + ABBYY - OCR Einführung & Überblick

Danke für Ihre Aufmerksamkeit

Fragen?