Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

23
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677 http://topic-s.de/ Martin Voigt, Michael Aleythe, Peter Wehner

description

information extraction, modelling and storage of semantic data to recognize trending topics for journalism and newspaper offices

Transcript of Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Page 1: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Martin Voigt, Michael Aleythe, Peter Wehner

Page 2: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 1

Page 3: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Motivation

Newsroom

Montag, 23.09.2013 Topic/S @ LSWT Slide 2

Quelle: ringier.com

Page 4: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Problem

Überwältigende Datenmenge für den Redakteur

z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)

Montag, 23.09.2013 Topic/S @ LSWT

DPA

Reuters

KNA

Twitter

Facebook

Blogs

Nachrichtenagenturen Web, Social Media

In-house Produktion

Archive

Online

Slide 3

Page 5: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Vision

Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)

Identifikation von Thementrends

Information-Push statt Pull

Montag, 23.09.2013 Topic/S @ LSWT

MA1

E1

E2

E4

E3

E7

E6

E5MA2

Media Assets

Named Entities

Pre-Processing

MA1

E1

T1E2

E4

E3

E7

E6

T2

T3

E5MA2

Media Assets

Named Entities

Topics

Pre-Processing Post-Processing

Slide 4

Page 6: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 5

Page 7: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Workflow

Montag, 23.09.2013 Topic/S @ LSWT Slide 6

Mehr in [Voigt2013]

Search Post-Processing

Pre-Processing

Data Storage

1

2

34

Page 8: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Slide 7

Source: onelanguageoneposter.com Pre-Processing

Language Detection

Wordlist-based NER

Statistical NER

Categorizer

1

Dis

amb

igu

atio

n

Agentur Genauigkeit

KNA 80,3 %

DPA 94,4 %

EPD 80,3 %

Reuters 90,8 %

OTS 93,5 %

AFP 86 %

Page 9: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Named Entity Recognition Wortlisten- & Statistik-basiert

Disambiguierung interne & externe Datenbasis

Slide 8

Source: onelanguageoneposter.com Pre-Processing

Language Detection

Wordlist-based NER

Statistical NER

Categorizer

1

Dis

amb

igu

atio

n

Page 10: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Semantische Fakten

Keine Wortlisten für NER!

preferred und alternative Namen vorgehalten

ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller

Namen: Rene Muller, Rene Müller, René Muller, René Müller

Triples ohne SemItems: 31,3 Mio.

Montag, 23.09.2013 Topic/S @ LSWT Slide 10

SemItem Anzahl (alternative Namen)

Person 1.504.341 (2.499.962)

Organization 63.332 (98.127)

Place 89.702 (95.178)

Keyword 1351

Page 11: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Speicherung

Oracle 11gR2

Benchmark von Triple Stores [Voigt2012]

Pros

Bereits im Unternehmen für große Datenmengen im Einsatz

Integrierte Anfrage an relationale und semantische Daten

Cons

Inferenz

Unvollständiger SPARQL 1.1 Support

Einsatz von eigenen Regeln kaum möglich

Montag, 23.09.2013 Topic/S @ LSWT Slide 11

Quelle: musingmonika.com

Page 12: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Clustering

hierarchisches, agglomeratives Verfahren

Grundlage: Artikel und deren Entitäten

Eigenimplementierung aufgrund spezieller Herausforderungen

Ausführung und Zusammenfassung im Intervall

Slide 12

Euro

Entschädigung

Bundesgerichtshof

Urteil

LufthansaMilliarde

Auftrag

Alternative für Deutschland

Bundestagswahl

UmfrageDeutschland

Page 13: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Top-Cluster (vom 19.09.2013)

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Artikel 5 wichtigsten SemItems HotTopic

68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein

52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja

44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD

Ja

32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA

Ja

28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja

26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja

22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja

18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja

15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja

Slide 13

Page 14: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 14

Page 15: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Live Demo

Montag, 23.09.2013 Topic/S @ LSWT Slide 15

Page 16: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 16

Page 17: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Sum it up!

Ergebnis

Themenerkennung und Präsentation gegenüber dem Redakteur

Lessons learned

NER: Schlecht für Non-English, Kombination notwendig

Stete Modeloptimierung hinsichtlich der Anfragen

Spezielle UI notwendig

Mögliche, nächste Schritte

„Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen

Montag, 23.09.2013 Topic/S @ LSWT Slide 17

Quelle: ooltapulta.com

http://www.w3.org/community/swisig/

Page 18: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Danke! Fragen?

http://topic-s.de/

Page 19: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Quellen

[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012

[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013

Montag, 23.09.2013 Topic/S @ LSWT Slide 19

Page 20: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Workflow: Preprocessor

Montag, 23.09.2013 Topic/S @ LSWT

Named Entity Recognition

word list

Tool: LingPipe + Extension

Sources: LOD (DBPedia, Geonames, YAGO2, GND)

Advantages: controlled vocabulary, guarantied recognition of entities

statistics

Tool: Stanford NLP

Source: pre-trained model

Advantage: Recognition of unknown entities

Slide 20

Quelle: churchthought.com

Page 21: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Workflow: Preprocessor

Montag, 23.09.2013 Topic/S @ LSWT

Keywords

Lemmatization

Developing a word list

Extraction using the word list

Bonus: frequent terms of an article

Slide 21

Quelle: hugdaily.org

Page 22: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Disambiguation

Montag, 23.09.2013 Topic/S @ LSWT Slide 22

Quelle: fansshare.com Quelle: lounge.espdisk.com

Quelle: de.wikipedia.org

Page 23: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

Disambiguation

Problem: not all SemItems available in the LOD

Montag, 23.09.2013 Topic/S @ LSWT

Michael Jackson

Beer

Michael Jackson

Beer

Whiskey

Michael Jackson

Music

King of Pop

Internal Facts

External Facts (DBpedia, etc.)

Identification of Entity Cluster

Slide 23