BSB Demo Day - Mühlberger - Dokumentstrukturanalyse
-
Upload
impact-centre-of-competence -
Category
Documents
-
view
394 -
download
2
description
Transcript of BSB Demo Day - Mühlberger - Dokumentstrukturanalyse
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Strukturanalyse auf der Basis von OCR Ergebnissen(Functional Extension Parser- FEP)Günter MühlbergerUniversitäts- und Landesbibliothek Tirol (UIBK)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Agenda� Architektur
– Wie arbeitet unsere Strukturerkennung?
� Features– Welche strukturellen Merkmale erkennen wir?
� Nutzen– Wofür kann man strukturelle Analyse einsetzen?
� Resultate– Wie gut ist unser Ansatz?
� Zeitplan– Wann wird die Software verfügbar sein?
� Geschäftsmodell– Welche Angebote können wir für die weitere Nutzung machen?
2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Architektur� Input
– OCR Text, der mind. Wortkoordinaten aufweist– Z.B. ALTO Datei, ABBYY XML oder Google Books (Tesseract) HTML
� Output– Strukturelle Annotationen von erkannten Strukturmerkmalen mit Koordinaten, z.b.
Seitenzahlen, Kolumnentitel, Überschriften, etc. – Format: METS/ALTO, XML, etc.
� Workflow– Images und/oder OCR Dateien werden mittels Webservice nach Innsbruck übermittelt– OCR Dateien werden in internes Format transformiert– Regelset wird angewendet (Rules Engine)– Resultate werden in einer Datenbank hinterlegt– Export der Resultate auf verschiedenen Ebenen
� Optional– Online Korrektur (GUI)– Adaptation des Regelsets manuell oder selbstlernend – Qualitätskontrolle auf Basis von “ground truth”, d.h. erwarteten Resultaten
3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Strukturmerkmale� Fokus auf allgemeine Strukturmerkmale, die für sehr viele Bücher gelten:
– Seitenzahlen– Kolumnentitel– Satzspiegel– Fußnoten– Bogensignaturen– Überschriften– Einträge in Inhaltsverzeichnissen– Front/Body/Back– Absätze
� Weitere Strukturmerkmale sind möglich– Grundsätzlich können wir alle Strukturmerkmale erkennen, die mittels Layoutfeatures
repräsentiert werden. Z.b. Region, Größe, Art der Schrift, Distanz zu anderen Elementen, Zeilenlänge, etc.
– Aber: Wir sind von direkt von der OCR Qualität abhängig, d.h. besonders von der in jeder OCR eingebauten Layoutanalyse
– Derzeit Tests für die Erweiterung der Regelsets für bestimmte Dokumententypen: Moderne Zeitschriften, Dissertationen
5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Satzspiegel� Überschriften� Fußnoten
6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Kolumnentitel� Seitenzahl� Bogensignatur
7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Inhaltsverzeichnis– Zwischenüberschriften
– Einzelne Einträge mit Autor, Titel, Seitenzahl
8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nutzen (1)� Anzeige der Images im Internet
– Der korrekte Seitenspiegel erlaubt die Anzeige der Images, ohne das charakteristische “Springen”
� Suche and Anzeige bei der Volltextsuche– Scoring der Resultute
� Strukturelle Annotation kann miteinbezogen werden (Überschriften vs. Fußnoten)
� Kolumnentitel verzerren Resultate (Wiederholung der Kapitelüberschrift)
– Reduktion von Noise� Kolumentitel und Bogensignatur stellen “Verunreinigungen” des laufenden
Textes dar
– Facettierte Suche� Volltextsuche kann facettiert werden, z.b. nach Fließtext, Fußnoten,
Überschriften, etc.
9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nutzen (2)� Navigation
– Seitenzahlen ermöglichen es das Inhaltsverzeichnis des Buches zu verwenden
– Das Inhaltsverzeichnis kann direkt mit der Seite, bzw. mit der Überschrift im Buch verlinkt werden
� Weiterverarbeitung des Dokuments– Strukturelle Basisannotationen ermöglichen eine Weiterverarbeitung für
komplexere Formate, wie TEI
– Die manuelle Erstellung von Printvorlagen für Print-on-Demand ist wesentlich vereinfacht durch Erkennung des Satzspiegels
– Selektive OCR Korrektur: Z.B. nur Überschriften, oder nur der Fließtext aber ohne Fußnoten könnten korrigiert wrden
� Verknüpfung mit anderen Dokumenten– Fußnoten können mit externen Datenbanken gematcht werden
10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Verbesserte Darstellung im Internet und im PDF
11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Verfeinerung der Volltextsuche
� Facetten für – Fließtext
– Fußnoten
– Überschriften
� Weniger “Verunreinigungen”– Kolumnentitel und
Bogensignaturen können aus der Suche exkludiert oder nach hinten gereiht werden
12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Anklickbares Inhaltsverzeichnis – Google Stil
� Selektive OCR Korrektur– Z.B. nur
Inhaltsverzeichnis, Überschriften, Fließtext
13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Verknüpfung von Dokumenten mit externen Datenquellen– Inhaltsverzeichnisse,
Register mit entsprechenden Einträgen im Buch
– Fußnoten mit Bibliothekskatalogen
14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
� Erleichterte Weiterverarbeitung– Die “richtigen”
Seitenränder für Print on Demand
– Weiterverarbeitung für hochwertige Nutzungen (TEI)
15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Resultate� Basisregelset
– Allgemeine Strukturmerkmale für Bücher von 1700 bis 2000– Datenset: 155 Bücher, 30.673 Seiten (141 Training set, 41 Evaluation set)– Alle Seiten wurden manuell annotiert (ground truth)
� Recall, Precision, F-Measure– 10 Zeilen mit Überschriften in einem Buch. Wir finden 12 Zeilen, 8 davon
sind korrekt, 4 sind falsch.– Recall = 8 von 10 = 0,8– Precision = 8 von 12 = 0,66– F-Measure = 2*0.8*0.66/(0.8+0.66) = 0,72
� Weitere Informationen– Wichtig: Wir zählen hier Zeilen, nicht strukturelle Einheiten!
� Z.B. eine Überschrift hat zwei Zeilen, eine davon kann richtig, die andere falsch erkannt worden sein
– Unterschiede zwischen Training und Evaluation sind gering
16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Resultate am Evaluation Set
17
Recall Precision F-measure
Fließtext 0,99 0,98 0,98
Fußnoten 0,83 0,89 0,86
Seitenzahlen 0,97 1 0,98
Kolumnentitel 0,97 1 0,98
Überschriften 0,85 0,80 0,82
Bogensignaturen 0,68 0,89 0,77
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Kommentar� Forschungssituation
– Kaum Vergleichswerte für die Erkennung von Strukturmerkmalen– Veröffentlichung unseres Datensets im nächsten Jahr– Direkter Vergleich mit den Google Ergebnissen wäre wünschenswert
� Patentanmeldung– Anmeldung unseres Verfahrens beim Europäischen Patentamt im
September erfolgt– Kombination aus manuellen und selbstlernenden Verfahren in
Kombination mit Fuzzy Logik� Inhaltsverzeichniserkennung
– Zwischenzeitlich haben wir ein Regelset für Inhaltsverzeichnisse entwickelt, das sich mit den besten Ergebnissen der INEX (=Wettbewerb für strukturelle Annotation) messen kann
– Ergebnisse werden im Frühjahr nächsten Jahres veröffentlicht
18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Weiterer Zeitplan� IMPACT Schlusskonferenz (24/25. Oktober London)
– Erstmals Demonstration des Graphischen Userinterface auf Basis von Google Web Toolkit (GWT) zur Anzeige und Korrektur der Ergebnisse
– Alpha Version bis Ende 2011
� Ende 2011– Alpha Version mit den wesentlichen Features
� 1. Quartal 2012– Integration in EOD Netzwerk: FEP als laufender Service im
Probebetrieb
– Weitere Tests mit anderen Dokumententypen
– Veröffentlichung der Ergebnisse für Inhaltsverzeichnisse
19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Geschäftsmodelle� Grundsätzliches
– Innovative Projekte werden über die Universität Innsbruck abgewickelt– Kommerzielle Projekte über eine Tochterfirma der Universität (transidee)
� FEP als Service– Derzeit nicht geplant ein Produkt daraus zu machen, sondern die Software
läuft in Innsbruck und wird mittels Webservice oder direkt von unsangestoßen
– EOD Netzwerk als Beispiel: Mitglieder erhalten die Chance den FEP zu verwenden
– Ähnliche Angebote sind auch für andere Bibliotheken oder Netzwerke möglich
� Anpassung der Regelsets – Für spezielle Sammlungen können mehr Features genauer erkannt werden– Z.B. besitzen Buchreihen, kritische Ausgaben, Kommentare, Dissertationen,
Parlamentspapiere, etc. komplexere Strukturen, die man entsprechend abbilden kann
20
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank für die Aufmerksamkeit!
21