BSB Demo Day - Skaric - Kollaborative Korrektur

Post on 05-Dec-2014

576 views 1 download

description

 

Transcript of BSB Demo Day - Skaric - Kollaborative Korrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11.10.2011

Kollaborative Korrektur Doris Škarić, Bayerische Staatsbibliothek, Münchener Digitalisierungszentrum/Digitale Bibliothek

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2

Agenda

� Definition

� State-of-the-Art

� IMPACT-Tool zur Kollaborativen Korrektur

– Demonstration des CONCERT-Tools

– Erfahrungsbericht

– Nutzen für Bibliotheken

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3

Was ist kollaborative Korrektur?

� Kollaborativ: mehrere Personen arbeiten gemeinsam an einem Projekt, hier:

Textkorrekturen

� Crowdsourcing: “kollaborative Leistungserbringung durch Freiwillige”

� Reihenfolge im Digitalisierungsprozess: nach automatischer Texterkennung

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

Wieso Textkorrekturen?

� V.a. bei historischen Material (keine normierte Rechtschreibung…) führt alleinige

Anwendung von OCR-Software zu oft nicht ausreichender Erkennungsrate

� Fehlerhafte Erkennung von Fraktur, z.B. langes s wird als f erkannt, z.B. Bifchof,

Befatzungen…

� einzelne fehlerhafte Buchstaben führen zu schlechter Worterkennung

� Buchstaben, „Signal-“wörter werden nicht erkannt

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5

Andere Systeme zur kollaborativen Korrektur

� Australian Newspaper Digitisation

Program

� ReCaptcha

� Mole Hunt

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6

IMPACT-Beitrag

� CONCERT

– Collaborative eNgine for the CorREction of Texts

– Web-basierte Plattform

– Geeignet für massenhafte Beteiligung von Freiweilligen (Crowdsourcing)

– Ergebnisse der Korrektur werden in den OCR-Prozess eingespeist („Adaptive OCR“)

– Korrektur auf drei Ebenen

– schnelle und effiziente Arbeitsweise

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7

Funktionsweise

� https://bsbimpact2.bsb.lrz.de:8443/impact

/Concert/Concert-Final.html

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8

Pilotphase an der BSB

� 1-wöchiger Test mit ca. 15 Teilnehmern

� Fragestellungen:

– Usability

– Annahme durch Nutzer

– Erkennungsergebnisse

– Einbindung in Digitalisierungsprozess

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9

Nutzereindrücke

� Insgesamt sehr positiv

� Nutzerwünsche:

mehr „Nutzermotivation“ und Rückmeldung

� Fortschrittsanzeige, Vergleich mit anderen Freiwilligen

� manche Wörter werden von der Texterkennung falsch erkannt und dadurch nie zur

manuellen Korrektur vorgelegt bzw. als fragwürdig erkannt

� Gothic und Antiqua in einem Text werden nicht erkannt

� mehr Metadaten für Bücher

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10

Einsatzmöglichkeit für die Bibliotheken

� Verbesserung der Volltexte durch Nutzerbeteiligung

� Ermöglichung zeitintensiver Korrekturen

� schnellere Korrekturen (durch Bibliotheksnutzer oder Dienstleister)

� „Kundenbindung“

� Verknüpfung des Katalogtitels mit der Korrektursoftware, z.B.: helfen Sie uns den

Volltext dieses Buchs zu verbessern

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11

Ausblick :

� Verbesserung des Bedienkomforts

� User Monitoring

� Motivierung der Nutzer

� Einbindung in Texterkennungs- und Bearbeitungsprozess

� Langzeitarchivierung

11.10.2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12

Vielen Dank für Ihre Aufmerksamkeit

Kontakt: doris.skaric@bsb-muenchen.de