Information Finding in Blogosphere file5.Durchführung Domain Recognition 6.Diskussion der Resultate...

27
Präsentation vor dem Kolloquium Korpuslinguistik Präsentation vor dem Kolloquium Korpuslinguistik Information Finding in Blogosphere: Domain Recognition and Genre Analysis

Transcript of Information Finding in Blogosphere file5.Durchführung Domain Recognition 6.Diskussion der Resultate...

Präsentation vor dem Kolloquium KorpuslinguistikPräsentation vor dem Kolloquium Korpuslinguistik

Information Finding in Blogosphere:

Domain Recognition and

Genre Analysis

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #2

AgendaAgenda1.Einleitung

2.Theorie zu Blogs, Data Mining, Information Retrieval und Computational Linguistics

3.Gold Standard aufbauen

4.Inter Annotator Agreement berechnen

5.Durchführung Domain Recognition

6.Diskussion der Resultate

7.Zusammenfassung

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #3

1. Einleitung1. Einleitung

● Es geht darum, Informationen in Blogs besser auffindbar zu machen

● Als Ziele dienen die beiden folgenden Fragen:– Wie und wie gut können Blogs mit Hilfe

verschiedener automatisierter Methoden in Themengebiete (domains) eingeordnet werden?

– Inwieweit bilden Blogs ein neues Genre? (in Zusammenarbeit mit Katja Schorch)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #4

2. Theorie: Blogs2. Theorie: Blogs

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #5

2. Theorie: Blogs2. Theorie: Blogs● Definitionsversuche

– Blogs listen datierte Einträge in chronologisch

umgekehrter Reihenfolge

– oft interaktiv (Möglichkeit für Kommentar), ähnelt oft

einem Tagebuch

● Relevanz

– "neues Genre beziehungsweise Medienformat der

computervermittelten Kommunikation"

(Kommunikation@Gesellschaft)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #6

2. Theorie: Computational Linguistics2. Theorie: Computational Linguistics

● CL is “an interdisciplinary field dealing with the statistical and logical modeling of natural language from a computational perspective.” (Wikipedia)

● Für dieses Thema interessante Forschungen:– Part-of-speech tagging (POS)

– Korpuslinguistik

– Computer Mediated Communication (CMC)

– Word Sense Disambiguation (WSD)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #7

2. Theorie: Information Retrieval2. Theorie: Information Retrieval

● IR assures “easy access to the information in which one is interested” (Baeza-Yates)

● Was wir aus IR benötigen

– Evaluation Measures

– Keyphrase Extraction

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #8

2. Theorie: Data Mining2. Theorie: Data Mining

● DM tries to “make understanding out of ... data by extracting its information”; computers are involved, and predictions for new data should be learned (Witten & Frank)

● Ansätze des DM, die für uns relevant sind:

– Machine Learning: Clustering/Classification

– Text Mining (ähnlich zu IR)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #9

3. Goldstandard: Aufbau3. Goldstandard: Aufbau

● Blogkorpus wurde zusammengestellt (100 Blogs)

● Kategorienbaum wurde gefunden (Dewey)● Blogs wurden annotiert (5 Kommentatoren)● Annotationen wurden zusammengefasst● Inter Annotator Agreement wurde berechnet

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #10

3. Goldstandard: Annotieren3. Goldstandard: Annotieren● Blogeintrag lesen

● e.g. “In brief, it is not business itself that filmmakers do not like, but the capitalists who control it. But this is not the classic view of the struggle between capital and labor...

● Annotieren mit “passenden” Domains (0-3).● hier: Hannah: {cinema, economy}, Alex: {money, cinema}, ...

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #11

3. Goldstandard: Annot. Fusionieren3. Goldstandard: Annot. Fusionieren● Entweder einfache Mathematik ...

● hier: {economy=1,33; tv=0,33; sociology=1; money=0,5; cinema=1,83}

● Reduzieren auf 1● Es bleiben (Threshold 20%): {economy=26,67%; cinema=36,67%}

● ... oder in Vektoren denken

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #12

4. Inter Annotator Agreement4. Inter Annotator Agreement● Kappa κ war nicht hilfreich

● Wenn Vektoren die Annotationen abbilden...

– bestimmt der Zentroid die Übereinstimmung

– berechnet die Densität (Space density) die Übereinstimmung der Annotierung

● Die Densität besteht dann aus der Summe der Abstände zum Zentroiden C*:

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #13

4. Inter Annotator Agreement4. Inter Annotator Agreement● Ergebnis:

– IAA schwankt je nach Blogpost

– Durchschn. Abstand von den Zentroiden: 0,451

Sim(C, Alex)Sim(C, Hannah)Sim(C,Xuanpu)Sim(C,Daniel)Sim(C,Robert)AVG(Sim(C,{A1,A2,A3,A4,A5}))0 0,408 0,816 0,000 0,667 0,816 0,5421 1,000 1,000 0,816 0,816 1,000 0,9272 0,000 0,500 0,000 0,354 0,000 0,1713 0,707 0,408 0,000 0,408 0,707 0,4464 0,816 0,816 0,500 0,816 0,577 0,7055 0,500 0,000 0,000 0,500 0,000 0,2006 0,577 0,000 0,000 0,816 0,577 0,3947 0,000 0,500 0,000 0,500 0,000 0,200

Got back from Brisbane on Thur, 30 June.

Drove through what must have been one of the worst storms in Gold

Coast for the past 30 years, causing

a terrible flood in the area....

I could safely say I've lived a privileged life. I have enough

food to eat, I can buy things I

want, and I've never had to worry about the

though...

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #14

5. Durchführung5. Durchführung● Algorithmus zur Domain-Erkennung

– Analysiert Bestandteile des Blogs (linguistic features): ● Title, User tag, (TF) IDF Keyphrases des Text,

Alle Nomen des Text, Disambiguierte Varianten● Begriffe wäre z.B. filmmaker und capitalist

– Gewichtet die Begriffe: tf, idf, tf*idf, DR

– Sucht Domain(s) dieser Begriffe (WordNet Mapping)● hier: filmmakers#1: {factotum}, capitalist#1: {economy},

capitalist#2: {economy}

– Abstimmung über die repräsentative(n) Domain(s)● hier: {economy=2, factotum=1}

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #15

5. Resultate (Blogposts)5. Resultate (Blogposts)● F-Measure bestimmt die Über-

einstimmung zw. Computerlösung und Goldstandard

● Alle Resultate liegen zwischen der Baseline 1 (User tags, Titles) und der Baseline 2 (Human Recognition)

● Relativ geringe Domain-Erkennung

● „Nimm alle Nomen“ besser als Keyword-Verfahren

● Bestes Resultat: Disambiguierte Terme und #1 Lesart der anderen Nomen (F-Measure: 0.29)

User tags

Titles (each noun)

All nouns

TFIDF IDF Rob. Terms

Rober-tos Full Text

Rober-tos Termi-

0,000

0,100

0,200

0,300

0,400

0,500

0,600

0,700

0,800

0,900

1,000

Approaches and their F-Measures

Baseline 2

Baseline 1

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #16

5. Resultate (RCV1)5. Resultate (RCV1)● Die Erkennung von Domains in

RCV1 ist wesentlich einfacher

● Allerdings können die Ergebnisse schwer verglichen werden, da

– Reuters anders annotiert ist (nicht Domains, sondern Topic Codes)

– Nur News, die einfach zu mappen waren, wurden benutzt

● Trotzdem: News werden thematisch besser erkannt als Blogs

Blog Post Reuters0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Comparison on the Domain Recognition on Blog Posts and Reuters news

(reduced to the second domain level)

RecallPrecisionF-Measure

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #17

6. Diskussion der Resultate6. Diskussion der Resultate● Gründe für die geringe Domainerkennung:

– Grundsätzlich falscher Ansatz?

– Probleme mit dem Lexikon WordNet

– Probleme mit dem WordNet Mapping

– Probleme mit dem Domainbaum

– Genreabhängige Probleme

– Schwierigkeiten in der Implementierung

– Konzeptuelle Stolpersteine

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #18

6. Diskussion der Resultate6. Diskussion der Resultate● Grundsätzlich falscher Ansatz?

– Unser Ausgangspunkt ist: “The meaning of a document is conveyed by the words used” (Grossman)

– Trotzdem: Texte (aus dem Computerumfeld) benötigen Kontextwissen; deshalb nutzen Internet-Suchmaschinenen Linkinformationen)

– Computerinhärente Begrenzungen (Lexikonnutzung, POS tagging, Term extraction)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #19

6. Diskussion der Resultate6. Diskussion der Resultate● Probleme mit dem Lexikon WordNet

– Fehlende Begriffe (z.B. Harry Potter, PodCast, “Netspeak” terms)

– Fehlende Lesarten (z.B. film seasons)

– Begriff anders geschrieben (z.B. web site, 4th of July)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #20

6. Diskussion der Resultate6. Diskussion der Resultate● Probleme mit dem WordNet Mapping

– Annotierte Domain ist nicht speziell genug für den Begriff (z.B. rider->Sport)

– Annotierte Domain scheint falsch ausgewählt zu sein (z.B. filmmaker->Factotum)

– Domains fehlen (z.B. Tour de France->Racing)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #21

6. Diskussion der Resultate6. Diskussion der Resultate● Probleme mit dem Domainbaum

– Zu akademisch

– Nicht granular genug (z.B. Home)

– Fehlende Domains (z.B. Internet)

– Zu ähnliche Domains (z.B. Commerce, Business, Economy)

– (Der online vorgestellte Domainbaum unterschied sich von dem real existierenden)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #22

6. Diskussion der Resultate6. Diskussion der Resultate● Genreabhängige Probleme

– Schwierig für POS tagging: Fehlerhafte Rechtschreibung, Großschreibung, “Textfetzen”

– Schnelle Themenwechsel

– Link-Blogs / Zitierungs-Blogs

– Fehlender Kontext (Kontext ist über Hyperlinks erreichbar)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #23

6. Diskussion der Resultate6. Diskussion der Resultate● Schwierigkeit in der Implementierung

– Fehlerhaftes POS tagging

– Fehlerhafte Keyphrases

– Disambiguierung steckt noch in den Kinderschuhen (27% Disambiguierung ermöglicht aber schon 13% besseres Ergebnis)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #24

6. Diskussion der Resultate6. Diskussion der Resultate● Konzeptuelle Probleme

– Spam-Blogposts im Korpus

– Annotierer waren “naϊv” (Experten wären besser gewesen)

– Kontext hätte Annotierern gegeben werden müssen (nicht reiner Text sondern ganze Internetseite)

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #25

7. Zusammenfassung7. Zusammenfassung

● Relativ geringe Domain-Erkennung, allerdings auch geringe IAA

– Maschinelle Erkennung von Domains in Blogs ist

schwierig

– Bestes Resultat: Disambiguierte Terme und #1 Lesart

der anderen Nomen

“Wie und wie gut können Blogs mit Hilfe verschiedener automatisierter Methoden

in Themengebiete (domains) eingeordnet werden?”

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #26

7. Zusammenfassung7. Zusammenfassung● TOP3 Gründe für die geringe Erkennung von

Domains

– Abhängigkeit vom Lexikon

– Fehler im Annotationskonzept

– Blogtypische Fehlerquellen

● Hoffnung: Disambiguierung verbessert das Ergebnis

5. Juli 2006 Forschungskolloquium Korpuslinguistik Folie #27

7. Zusammenfassung7. Zusammenfassung● Kann mit diesem Resultat die

Informationsfindung in Blogs verbessert werden?

– Blogs sind nicht leicht einordbar – weder für Mensch

noch Maschine

– Anpassungen (Rechtschreibkorrektur, ständig

aktuelle Korpora/Lexika) sind nötig

– Manche Posts werden sich nicht einordnen lassen

(Linkposts)