ALL THE WORLD'S A VECTOR€¦ · Terry Pratchett, I Shall Wear Midnight, Chapter 14, par. 80 100%...

1
Experimente zur Detektion von intertextuellen Shakespeare-Referenzen mithilfe von Word Embeddings 3. Parameter - Gewichtung übereinstimmender POS tags - Penalties für nicht übereinstimmende Tokens - Wahl des Word Embeddings - Ähnlichkeitsmetrik für Vektoren des Embeddings 1. Motivation: Quantitative Detektion von intertextuellen Shakespeare-Referenzen 4. Optimale Alignments Alignment und Scoring von Satzpaaren via Dynamic Programming: 2. Ansatz: Effiziente Suche optimaler Alignments mittels weicher Constraints und parametrisierter Ähnlichkeitsmetriken auf Basis von Word Embeddings Bernhard Liebl 1, Manuel Burghardt 1 1 Computational Humanities, Universität Leipzig Kontakt: Bernhard Liebl ([email protected]) Gedruckt im Universitätsrechenzentrum Leipzig ALL THE WORLD'S A VECTORApache Parquet Embedding 1 2 Token Token- Lexikon sea sea the the under under there there beneath beneath the the green green ocean ocean Korpus Preprocessor fastText wnet2vec C++17 Python Apache Arrow POS DT NN Token 23 1238 1 Satz 1 1 1 Doc Sätze Tokens Attribute Alignment Basis-Metrik POS

Transcript of ALL THE WORLD'S A VECTOR€¦ · Terry Pratchett, I Shall Wear Midnight, Chapter 14, par. 80 100%...

Page 1: ALL THE WORLD'S A VECTOR€¦ · Terry Pratchett, I Shall Wear Midnight, Chapter 14, par. 80 100% fasttext evil ADJ wicked ADJ fasttext she thought as she stared into the night thumbs

POS

Experimente zur Detektion von intertextuellenShakespeare-Referenzen mithilfe von Word Embeddings

3. Parameter

- Gewichtung übereinstimmender POS tags - Penalties für nicht übereinstimmende Tokens - Wahl des Word Embeddings - Ähnlichkeitsmetrik für Vektoren des Embeddings

1. Motivation: Quantitative Detektion von intertextuellen Shakespeare-Referenzen

4. Optimale Alignments

Alignment und Scoring von Satzpaaren via Dynamic Programming:

2. Ansatz: Effiziente Suche optimaler Alignments mittels weicher Constraints und parametrisierter Ähnlichkeitsmetriken auf Basis von Word Embeddings

Bernhard Liebl1, Manuel Burghardt1 1Computational Humanities, Universität Leipzig

Kontakt: Bernhard Liebl ([email protected]) Gedruckt im Universitätsrechenzentrum Leipzig

„ALL THE WORLD'S A VECTOR“

Apache Parquet

Embedding

1

2

Token

Token-Lexikon

seasea

thethe

underunder

ther

eth

ere

bene

ath

bene

ath

the

the

gree

ngr

een

ocea

noc

ean

Korpus

Preprocessor

fast

Text

w

net2

vec

C++17 Python

Apache Arrow

POS

DT

NN

Token

23

1238

1

Satz

1

1

1

Doc

Sätze

Tokens

Attribute

Alignment

Basis-Metrik

POS