Fuchs Ocr Impact Workshop MUC
-
Upload
impact-centre-of-competence -
Category
Documents
-
view
1.456 -
download
0
description
Transcript of Fuchs Ocr Impact Workshop MUC
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Michael FuchsSenior Product Marketing ManagerABBYY Europe
Optische Zeichen Erkennung (OCR) Einführung & Überblick
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT + ABBYY - OCR Einführung & Überblick 2
Agenda ABBYY Technology im IMPACT Project
Wer ist ABBYY? Firmenüberblick Produktüberblick Wie findet OCR Verarbeitung in der Praxis statt?
Optical Character Recognition - Grundlagen Was ist OCR? Wie wird OCR heute genutzt? Wie funktioniert OCR? OCR = Only Character Recognition? IMPACT – die Optimierungsansätze
Fragen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
IMPACT + ABBYY - OCR Einführung & Überblick 3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT + ABBYY - OCR Einführung & Überblick 4
Improving Access to Text Mission of IMPACT: It aims to significantly improve access to historical text and
to take away the barriers that stand in the way of the mass digitisation of the European cultural heritage.
Partners: Koninklijke Bibliotheek, The British Library, Österreichische Nationalbibliothek, Universität Innsbruck,
Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitätsbibliothek Göttingen
ABBYY, IBM Israel – Science and Technology Ltd, Instituut voor Nederlandse Lexicologie
National Centre for Scientific Research "Demokritos“,
Centrum für Informations- und Sprachverarbeitung, University of Munich
University of Bath, University of Salford, Bibliothèque Nationale de France
Web: www.impact-project.eu
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
ABBYY ist der OCR Technologie Lieferant für IMPACT Mitglieder
OCR Technology für IMPACT wird Mitgliedern als SDK gestellt, da Nur Entwicklerwerkzeuge es erlauben, neue/andere Module zu verbinden,
z.B. komplexe externe Wörterbücher ( IMPACT: LMU) Wissenschaftliche Forschung & Tests in eigenen Modulen durchgeführt werden
IMPACT + ABBYY - OCR Einführung & Überblick 5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
ABBYY verbessert u.a. die OCR Kerntechnologien zur Erkennung alter Dokumente Bild-Vorverarbeitung Zeichenerkennung
Aktuell liegt der IMPACT Schwerpunkt auf Forschung und nicht im Aufbau eines Produktivsystems ;o)
Verbesserungen der ABBYY Technologien aus dem IMPACT Projekt werden in künftige Produkte integriert werden. Wichtig: ABBYY FineReader 8/9/10 Professional (Box) bieten keine Fraktur OCR Fraktur OCR gibt es nur in Recognition Server und FineReader Engine
IMPACT + ABBYY - OCR Einführung & Überblick 6
IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY im Überblick
IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY weltweit
ABBYY JapanFremontABBYY USA ABBYY Ukraine
Kiev
ABBYY Europe UK
ABBYY Europe GmbH
Munich, Germany ABBYY Taiwan
ABBYY Headquarters/ ABBYY Russia
Moscow
IMPACT + ABBYY - OCR Einführung & Überblick
Wer ist ABBYY?
Führender Hersteller von Technologie und Software für
Dokumenterkennung OCR (Texterkennung) ICR (Handschrifterkennung) OBR (Barcodeerkennung) OMR (Erkennung von Auswahlfeldern)
Data Capture Formularverarbeitung (Fragebögen, Wahlscheine, etc.) Semi-strukturierte Dokumente (Rechnungen, Lieferscheine Bestellungen, etc.) Unstrukturierte Dokumente (Verträge, Briefe, etc.)
Linguistik / Wörterbücher
IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY in West Europa
ABBYY Europe GmbH
Büro in München
Gegründet 2001 – heute mehr als 50 Beschäftigte
Betreut Partner und Kunden in westeuropäischen Ländern
Vertrieb & Marketing
Vertrieb● Distribution, Entwicklung von Vertriebskanälen, Partner Management
Marketing● Produkt Marketing, Channel Marketing, Outbound Marketing
ABBYY weltweit mehr als 800 Beschäftigte
IMPACT + ABBYY - OCR Einführung & Überblick
Produkte im Überblick
IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY Produkte Mainline Distribution
“Box” Produkte:
ABBYY FineReaderOCR Anwendungen für Endanwender
ABBYY FotoReaderTexterkennung aus Dokumenten, die mit einer Digitalkamera aufgenommen wurden
ABBYY PDF TransformerPDF Konvertierung und Erzeugung für Endanwender
ABBYY LingvoElektronische Wörterbücher, Russisch und europäische Sprachen
IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY Produkte Direktvertrieb und VAR Distribution
Technische Produktlinien:
ABBYY Recognition ServerServerbasierte OCR
ABBYY FormReader und ABBYY FlexiCaptureFormularverarbeitung, Datenextrahierung aus semi- und unstrukturierten Dokumenten
ABBYY FineReader Engine SDKSoftware Development Kit um OCR Technologien in andere Systeme und Anwendungen integrieren zu können
ABBYY Mobile OCR EngineOCR für mobile Geräte, PDAs und Web Anwendungen
IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY OCR Produkte – Anwendungssicht
Desktop/Workgroup Server/Backend SDK/Integration
OCR
& D
okum
ent
Konv
ertie
rung
FineReader (Professional, Corporate, Site Licence Edition)
PDF Transformer
FotoReader
ScreenshotReader
Recognition Server (Professional, Extended Edition)
FineReader Engines (Windows, Linux, Mac OS X, Free BSD, Embedded Systems)
Mobile OCR Engine (Android, Symbian, Linux, Windows, Windows Mobile,iPhone )
Endanwender, Firmen
Firmen,Scandienstleister,
Bibliotheken
Anwender gesteuerte Verarbeitung,
Fertige Anwendung
AutomatisierteVerarbeitung,
Fertige Lösung
Automatisierte Verarbeitung,
Entwicklung nötig
Entwickler,Scandienstleister
IMPACT ResearchAnw
ende
rsi
nd:
IMPACT + ABBYY - OCR Einführung & Überblick
OCR Grundlagen
IMPACT + ABBYY - OCR Einführung & Überblick 16
Nicht OCR-fähig per Design
IMPACT + ABBYY - OCR Einführung & Überblick 17
Was (ABBYY) OCR lesen kann...
Unterstützte Erkennungssprachen 191 Sprachen insgesamt Alphabete: Latein, Griechisch, Kyrillisch, Armenisch,
Hebräisch, Thai 34 Sprachen mit Wörterbuch und Rechtschreibkorrektur Chinesisch, Japanisch, Koreanisch (CJK) – 4 hieroglyphische Systeme 5 Sprachen in FineReader XIX
(Gotisch und andere Schriften des 17.-20. Jahrhunderts) 6 Programmiersprachen (Basic, C/C++, COBOL, Java, etc.) 4 künstliche Sprachen (Esperanto, Interlingua, etc.) Einfache chemische Formeln
Schriftarten Erkennung unterschiedlicher Schriftarten
(Nadeldrucker, Schreibmaschinen, Fraktur, etc.) OCR-A OCR-B MICR (E13B) CMC-7
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung Korrektur von Bildfehlern, Verbesserung des optischen Eindrucks und
Vorbereitung für die eigentliche automatische OCR
Schritt 2. Dokument Analyse Erkennen der verschiedenen Bereiche eines Dokuments, Layoutanalyse,
finden von Spalten, Tabellen, Bildern und Barcodes
Schritt 3. Zeichenerkennung Automatische Erkennung der einzelnen Zeichen, Anwenden der Sprachdefinitionen,
Wörterbücher und anderer Optionen
Schritt 4. Prüfung & Korrektur durch Anwender (optional) Manuelle Validierung/Korrektur unsicher erkannter Zeichen und Wörter
Schritt 5. Dokument Synthese und Export Erzeugung der entsprechenden Ausgabeformate mit den gewählten Optionen
18
OCR Verarbeitungsschritte
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Existierende Bildformate laden oder diese vom Scanner übernehmen
Trennung von Doppelseiten
Skalierung & Anpassung der Auflösung, z.B. bei Bildern mit sehr geringer Auflösung
Rotation (um 90, 180, oder 270 Grad)
Bildtonumkehr
Bildbeschneidung (Cropping)
Erzeugung von Seitenvorschaubildern
Änderung der Text und Hintergrundfarben
19
OCR Verarbeitungsschritte
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Kompensierung von Scanfehlern
Automatisches Geraderücken der Dokumentseiten
Begradigung von Textzeilen Kontrollierte Entfernung von
Staub und RauschenAchtung: Punkte bei: i, ä, ö, ü
20
OCR Verarbeitungsschritte
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Intelligente Hintergrundfilterung
Adaptive Binarisierung
21
OCR Verarbeitungsschritte
Eine einfache Binarisierung auf Basis des gesamten Bildes kann keine guten OCR Ergebnisse liefern. Problem: Mikrofilm Erstellung = Binarisierung
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Erste IMPACT Verbesserungen
22
OCR Verarbeitungsschritte
Original State of the Art Neu
Kein Text der Rückseite
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 3. Zeichenerkennung Nachdem die Zeilen gefunden wurden, werden verschiedene Classifier zur Zeichenerkennung genutzt und die Ergebnisse bewertet
24
OCR Verarbeitungsschritte
Raster Classifier Kontur Classifier
Classifier zur Unterscheidung von Merkmalen Struktur Classifier
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 3. Zeichenerkennung – Trainieren neuer SymboleSogenanntes Pattern Training erlaubt es OCR Anwendungen, spezielle Zeichen auf Pixelebene zu lernen
25
OCR Optimierung
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-EbeneAnwenden der gewählten Sprach- und Wörterbuch-Einstellungen
Eigene Sprachen und Wörterbücher können hinzugefügt werden IMPACT
26
OCR Optimierung
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 4. Prüfung & Korrektur durch Anwender (optional)
Manueller Eingriff möglich: Ergebnisse der Layout Analyse
● Textblöcke● Bildblöcke● Tabellenblöcke
Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch-Unterstützung
Erneute OCR Erkennung mit anderen Spracheinstellungen
Recognition Server / FineReader Engine erlauben den Export der Ergebnisse auch als XML Datei Impact
27
OCR Verarbeitungsschritte
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 5. Dokument Synthese und Export
Erzeugung der Ausgabeformate mit verschiedenen Optionen
TXT, Office Formate, PDF, etc.
Beginnend mit Version 9.0 nutzt ABBYY ADRT = Adaptive Document Recognition Technology. Diese hat das Ziel, ein Dokument als Einheit zu verstehen.V9: Erkennung von Kopf- und Fußzeilen V10: Rekonstruktion von Inhaltsverzeichnissen
SDKs und Recognition Server erlauben weitere Exportformate, z.B.:● XML● Internes FineReader Engine Format
28
OCR Verarbeitungsschritte
IMPACT + ABBYY - OCR Einführung & Überblick
OCR Allgemein &
Im Speziellen: IMPACT
IMPACT + ABBYY - OCR Einführung & Überblick
Nachbau des Originallayouts im neu erzeugten Dokument Das erzeugte Dokument basiert auf dem Originallayout des gescannten Dokuments Informationen aus der Layoutanalyse werden hier wiederverwendet Wichtig auch für PDF mit Text unter dem Originalbild
Unterstützung verbreiteter Formate ABBYY Produkte unterstützen die gängigsten Dokumentenformate, z.B.:
PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint und DBF
Unterstützung von Bildexportformten BMP, PCX, JPEG, JPEG 2000, TIFF, PNG
Einhaltung von Standards Unterstützung von kennwortgeschützen PDFs, Verschlüsselung von PDFs Support von PDF/A zur Langzeitarchivierung, etc.
30
OCR – Only Character Recognition?
IMPACT + ABBYY - OCR Einführung & Überblick
Schritt 1. Bildqualität Problembereiche: Scans von Mikrofilm, Wölbungen, durchscheinende Zeichen Optimierung sansatz : Bildvorverarbeitung, z.B: Binarisierung
Schritt 2. Dokument Analyse Problembereiche: Layout alter Druckwerke, z.B. enger Spaltensatz bei alten Zeitungen, Optimierung sansatz : Verbesserte Layoutanalyse
Schritt 3. Zeichenerkennung & Sprache Problembereiche: Verwendete Schriftarten, alte Sprache (Grammatik und Rechtschreibung) Optimierung sansatz : Verbesserte Erkennungsmuster, Erstellung spezieller Wörterbücher
Schritt 4. Prüfung & Korrektur Problembereiche: Oft Serienfehler bei Frakturerkennung , Skalierung Optimierung sansatz : Neue Ansätze zur Massenkorrektur
Schritt 5. Dokument Synthese, Export & Bewertung Problembereiche: Inhalts-Klassifizierung , Metadaten Generierung, Sichere Formate Optimierung sansatz : XML Analyse, XML, AltoXML, PDF/A, …
31
IMPACT = „Schrittweise“ Optimierung
IMPACT + ABBYY - OCR Einführung & Überblick
Danke für Ihre Aufmerksamkeit
Fragen?