Themen- und Trenderkennung in Agenturmeldungen, LSWT2013
-
Upload
fink-partner-media-services-gmbh -
Category
Technology
-
view
347 -
download
1
description
Transcript of Themen- und Trenderkennung in Agenturmeldungen, LSWT2013
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Martin Voigt, Michael Aleythe, Peter Wehner
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 1
Motivation
Newsroom
Montag, 23.09.2013 Topic/S @ LSWT Slide 2
Quelle: ringier.com
Problem
Überwältigende Datenmenge für den Redakteur
z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013 Topic/S @ LSWT
DPA
Reuters
KNA
Blogs
…
Nachrichtenagenturen Web, Social Media
…
In-house Produktion
Archive
Online
Slide 3
Vision
Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)
Identifikation von Thementrends
Information-Push statt Pull
Montag, 23.09.2013 Topic/S @ LSWT
MA1
E1
E2
E4
E3
E7
E6
E5MA2
Media Assets
Named Entities
Pre-Processing
MA1
E1
T1E2
E4
E3
E7
E6
T2
T3
E5MA2
Media Assets
Named Entities
Topics
Pre-Processing Post-Processing
Slide 4
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 5
Workflow
Montag, 23.09.2013 Topic/S @ LSWT Slide 6
Mehr in [Voigt2013]
Search Post-Processing
Pre-Processing
Data Storage
1
2
34
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Slide 7
Source: onelanguageoneposter.com Pre-Processing
Language Detection
Wordlist-based NER
Statistical NER
Categorizer
1
Dis
amb
igu
atio
n
Agentur Genauigkeit
KNA 80,3 %
DPA 94,4 %
EPD 80,3 %
Reuters 90,8 %
OTS 93,5 %
AFP 86 %
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Named Entity Recognition Wortlisten- & Statistik-basiert
Disambiguierung interne & externe Datenbasis
Slide 8
Source: onelanguageoneposter.com Pre-Processing
Language Detection
Wordlist-based NER
Statistical NER
Categorizer
1
Dis
amb
igu
atio
n
Semantische Fakten
Keine Wortlisten für NER!
preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller
Namen: Rene Muller, Rene Müller, René Muller, René Müller
Triples ohne SemItems: 31,3 Mio.
Montag, 23.09.2013 Topic/S @ LSWT Slide 10
SemItem Anzahl (alternative Namen)
Person 1.504.341 (2.499.962)
Organization 63.332 (98.127)
Place 89.702 (95.178)
Keyword 1351
Speicherung
Oracle 11gR2
Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz
Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Montag, 23.09.2013 Topic/S @ LSWT Slide 11
Quelle: musingmonika.com
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Clustering
hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall
Slide 12
Euro
Entschädigung
Bundesgerichtshof
Urteil
LufthansaMilliarde
Auftrag
Alternative für Deutschland
Bundestagswahl
UmfrageDeutschland
Top-Cluster (vom 19.09.2013)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Artikel 5 wichtigsten SemItems HotTopic
68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein
52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja
44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD
Ja
32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA
Ja
28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja
26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja
22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja
18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja
15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja
Slide 13
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 14
Live Demo
Montag, 23.09.2013 Topic/S @ LSWT Slide 15
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 16
Sum it up!
Ergebnis
Themenerkennung und Präsentation gegenüber dem Redakteur
Lessons learned
NER: Schlecht für Non-English, Kombination notwendig
Stete Modeloptimierung hinsichtlich der Anfragen
Spezielle UI notwendig
Mögliche, nächste Schritte
„Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen
Montag, 23.09.2013 Topic/S @ LSWT Slide 17
Quelle: ooltapulta.com
http://www.w3.org/community/swisig/
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Danke! Fragen?
http://topic-s.de/
Quellen
[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013
Montag, 23.09.2013 Topic/S @ LSWT Slide 19
Workflow: Preprocessor
Montag, 23.09.2013 Topic/S @ LSWT
Named Entity Recognition
word list
Tool: LingPipe + Extension
Sources: LOD (DBPedia, Geonames, YAGO2, GND)
Advantages: controlled vocabulary, guarantied recognition of entities
statistics
Tool: Stanford NLP
Source: pre-trained model
Advantage: Recognition of unknown entities
Slide 20
Quelle: churchthought.com
Workflow: Preprocessor
Montag, 23.09.2013 Topic/S @ LSWT
Keywords
Lemmatization
Developing a word list
Extraction using the word list
Bonus: frequent terms of an article
Slide 21
Quelle: hugdaily.org
Disambiguation
Montag, 23.09.2013 Topic/S @ LSWT Slide 22
Quelle: fansshare.com Quelle: lounge.espdisk.com
Quelle: de.wikipedia.org
Disambiguation
Problem: not all SemItems available in the LOD
Montag, 23.09.2013 Topic/S @ LSWT
Michael Jackson
Beer
Michael Jackson
Beer
Whiskey
Michael Jackson
Music
King of Pop
Internal Facts
External Facts (DBpedia, etc.)
Identification of Entity Cluster
Slide 23