BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

21
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Strukturanalyse auf der Basis von OCR Ergebnissen (Functional Extension Parser- FEP) Günter Mühlberger Universitäts- und Landesbibliothek Tirol (UIBK)

description

 

Transcript of BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

Page 1: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Strukturanalyse auf der Basis von OCR Ergebnissen(Functional Extension Parser- FEP)Günter MühlbergerUniversitäts- und Landesbibliothek Tirol (UIBK)

Page 2: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Agenda� Architektur

– Wie arbeitet unsere Strukturerkennung?

� Features– Welche strukturellen Merkmale erkennen wir?

� Nutzen– Wofür kann man strukturelle Analyse einsetzen?

� Resultate– Wie gut ist unser Ansatz?

� Zeitplan– Wann wird die Software verfügbar sein?

� Geschäftsmodell– Welche Angebote können wir für die weitere Nutzung machen?

2

Page 3: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Architektur� Input

– OCR Text, der mind. Wortkoordinaten aufweist– Z.B. ALTO Datei, ABBYY XML oder Google Books (Tesseract) HTML

� Output– Strukturelle Annotationen von erkannten Strukturmerkmalen mit Koordinaten, z.b.

Seitenzahlen, Kolumnentitel, Überschriften, etc. – Format: METS/ALTO, XML, etc.

� Workflow– Images und/oder OCR Dateien werden mittels Webservice nach Innsbruck übermittelt– OCR Dateien werden in internes Format transformiert– Regelset wird angewendet (Rules Engine)– Resultate werden in einer Datenbank hinterlegt– Export der Resultate auf verschiedenen Ebenen

� Optional– Online Korrektur (GUI)– Adaptation des Regelsets manuell oder selbstlernend – Qualitätskontrolle auf Basis von “ground truth”, d.h. erwarteten Resultaten

3

Page 4: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

Page 5: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Strukturmerkmale� Fokus auf allgemeine Strukturmerkmale, die für sehr viele Bücher gelten:

– Seitenzahlen– Kolumnentitel– Satzspiegel– Fußnoten– Bogensignaturen– Überschriften– Einträge in Inhaltsverzeichnissen– Front/Body/Back– Absätze

� Weitere Strukturmerkmale sind möglich– Grundsätzlich können wir alle Strukturmerkmale erkennen, die mittels Layoutfeatures

repräsentiert werden. Z.b. Region, Größe, Art der Schrift, Distanz zu anderen Elementen, Zeilenlänge, etc.

– Aber: Wir sind von direkt von der OCR Qualität abhängig, d.h. besonders von der in jeder OCR eingebauten Layoutanalyse

– Derzeit Tests für die Erweiterung der Regelsets für bestimmte Dokumententypen: Moderne Zeitschriften, Dissertationen

5

Page 6: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Satzspiegel� Überschriften� Fußnoten

6

Page 7: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Kolumnentitel� Seitenzahl� Bogensignatur

7

Page 8: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Inhaltsverzeichnis– Zwischenüberschriften

– Einzelne Einträge mit Autor, Titel, Seitenzahl

8

Page 9: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nutzen (1)� Anzeige der Images im Internet

– Der korrekte Seitenspiegel erlaubt die Anzeige der Images, ohne das charakteristische “Springen”

� Suche and Anzeige bei der Volltextsuche– Scoring der Resultute

� Strukturelle Annotation kann miteinbezogen werden (Überschriften vs. Fußnoten)

� Kolumnentitel verzerren Resultate (Wiederholung der Kapitelüberschrift)

– Reduktion von Noise� Kolumentitel und Bogensignatur stellen “Verunreinigungen” des laufenden

Textes dar

– Facettierte Suche� Volltextsuche kann facettiert werden, z.b. nach Fließtext, Fußnoten,

Überschriften, etc.

9

Page 10: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nutzen (2)� Navigation

– Seitenzahlen ermöglichen es das Inhaltsverzeichnis des Buches zu verwenden

– Das Inhaltsverzeichnis kann direkt mit der Seite, bzw. mit der Überschrift im Buch verlinkt werden

� Weiterverarbeitung des Dokuments– Strukturelle Basisannotationen ermöglichen eine Weiterverarbeitung für

komplexere Formate, wie TEI

– Die manuelle Erstellung von Printvorlagen für Print-on-Demand ist wesentlich vereinfacht durch Erkennung des Satzspiegels

– Selektive OCR Korrektur: Z.B. nur Überschriften, oder nur der Fließtext aber ohne Fußnoten könnten korrigiert wrden

� Verknüpfung mit anderen Dokumenten– Fußnoten können mit externen Datenbanken gematcht werden

10

Page 11: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Verbesserte Darstellung im Internet und im PDF

11

Page 12: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Verfeinerung der Volltextsuche

� Facetten für – Fließtext

– Fußnoten

– Überschriften

� Weniger “Verunreinigungen”– Kolumnentitel und

Bogensignaturen können aus der Suche exkludiert oder nach hinten gereiht werden

12

Page 13: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Anklickbares Inhaltsverzeichnis – Google Stil

� Selektive OCR Korrektur– Z.B. nur

Inhaltsverzeichnis, Überschriften, Fließtext

13

Page 14: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Verknüpfung von Dokumenten mit externen Datenquellen– Inhaltsverzeichnisse,

Register mit entsprechenden Einträgen im Buch

– Fußnoten mit Bibliothekskatalogen

14

Page 15: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Erleichterte Weiterverarbeitung– Die “richtigen”

Seitenränder für Print on Demand

– Weiterverarbeitung für hochwertige Nutzungen (TEI)

15

Page 16: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Resultate� Basisregelset

– Allgemeine Strukturmerkmale für Bücher von 1700 bis 2000– Datenset: 155 Bücher, 30.673 Seiten (141 Training set, 41 Evaluation set)– Alle Seiten wurden manuell annotiert (ground truth)

� Recall, Precision, F-Measure– 10 Zeilen mit Überschriften in einem Buch. Wir finden 12 Zeilen, 8 davon

sind korrekt, 4 sind falsch.– Recall = 8 von 10 = 0,8– Precision = 8 von 12 = 0,66– F-Measure = 2*0.8*0.66/(0.8+0.66) = 0,72

� Weitere Informationen– Wichtig: Wir zählen hier Zeilen, nicht strukturelle Einheiten!

� Z.B. eine Überschrift hat zwei Zeilen, eine davon kann richtig, die andere falsch erkannt worden sein

– Unterschiede zwischen Training und Evaluation sind gering

16

Page 17: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Resultate am Evaluation Set

17

Recall Precision F-measure

Fließtext 0,99 0,98 0,98

Fußnoten 0,83 0,89 0,86

Seitenzahlen 0,97 1 0,98

Kolumnentitel 0,97 1 0,98

Überschriften 0,85 0,80 0,82

Bogensignaturen 0,68 0,89 0,77

Page 18: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Kommentar� Forschungssituation

– Kaum Vergleichswerte für die Erkennung von Strukturmerkmalen– Veröffentlichung unseres Datensets im nächsten Jahr– Direkter Vergleich mit den Google Ergebnissen wäre wünschenswert

� Patentanmeldung– Anmeldung unseres Verfahrens beim Europäischen Patentamt im

September erfolgt– Kombination aus manuellen und selbstlernenden Verfahren in

Kombination mit Fuzzy Logik� Inhaltsverzeichniserkennung

– Zwischenzeitlich haben wir ein Regelset für Inhaltsverzeichnisse entwickelt, das sich mit den besten Ergebnissen der INEX (=Wettbewerb für strukturelle Annotation) messen kann

– Ergebnisse werden im Frühjahr nächsten Jahres veröffentlicht

18

Page 19: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Weiterer Zeitplan� IMPACT Schlusskonferenz (24/25. Oktober London)

– Erstmals Demonstration des Graphischen Userinterface auf Basis von Google Web Toolkit (GWT) zur Anzeige und Korrektur der Ergebnisse

– Alpha Version bis Ende 2011

� Ende 2011– Alpha Version mit den wesentlichen Features

� 1. Quartal 2012– Integration in EOD Netzwerk: FEP als laufender Service im

Probebetrieb

– Weitere Tests mit anderen Dokumententypen

– Veröffentlichung der Ergebnisse für Inhaltsverzeichnisse

19

Page 20: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Geschäftsmodelle� Grundsätzliches

– Innovative Projekte werden über die Universität Innsbruck abgewickelt– Kommerzielle Projekte über eine Tochterfirma der Universität (transidee)

� FEP als Service– Derzeit nicht geplant ein Produkt daraus zu machen, sondern die Software

läuft in Innsbruck und wird mittels Webservice oder direkt von unsangestoßen

– EOD Netzwerk als Beispiel: Mitglieder erhalten die Chance den FEP zu verwenden

– Ähnliche Angebote sind auch für andere Bibliotheken oder Netzwerke möglich

� Anpassung der Regelsets – Für spezielle Sammlungen können mehr Features genauer erkannt werden– Z.B. besitzen Buchreihen, kritische Ausgaben, Kommentare, Dissertationen,

Parlamentspapiere, etc. komplexere Strukturen, die man entsprechend abbilden kann

20

Page 21: BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vielen Dank für die Aufmerksamkeit!

21