all the world's a vector€¦ · terry pratchett, i shall wear midnight, chapter 14, par. 80...

Post on 23-Jul-2020

7 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

POS

Experimente zur Detektion von intertextuellenShakespeare-Referenzen mithilfe von Word Embeddings

3. Parameter

- Gewichtung übereinstimmender POS tags - Penalties für nicht übereinstimmende Tokens - Wahl des Word Embeddings - Ähnlichkeitsmetrik für Vektoren des Embeddings

1. Motivation: Quantitative Detektion von intertextuellen Shakespeare-Referenzen

4. Optimale Alignments

Alignment und Scoring von Satzpaaren via Dynamic Programming:

2. Ansatz: Effiziente Suche optimaler Alignments mittels weicher Constraints und parametrisierter Ähnlichkeitsmetriken auf Basis von Word Embeddings

Bernhard Liebl1, Manuel Burghardt1 1Computational Humanities, Universität Leipzig

Kontakt: Bernhard Liebl (liebl@informatik.uni-leipzig.de) Gedruckt im Universitätsrechenzentrum Leipzig

„ALL THE WORLD'S A VECTOR“

Apache Parquet

Embedding

1

2

Token

Token-Lexikon

seasea

thethe

underunder

ther

eth

ere

bene

ath

bene

ath

the

the

gree

ngr

een

ocea

noc

ean

Korpus

Preprocessor

fast

Text

w

net2

vec

C++17 Python

Apache Arrow

POS

DT

NN

Token

23

1238

1

Satz

1

1

1

Doc

Sätze

Tokens

Attribute

Alignment

Basis-Metrik

POS

top related