college sicco van-sas-2012_10_08

13
Zoeken & Classificeren 05/10/2012 Sicco van Sas

Upload: maartenmarx

Post on 15-Jun-2015

318 views

Category:

Education


0 download

DESCRIPTION

Sicco van Sas legt de basics van zijn methode en zijn resultaten uit.

TRANSCRIPT

Page 1: College sicco van-sas-2012_10_08

Zoeken & Classificeren

05/10/2012

Sicco van Sas

Page 2: College sicco van-sas-2012_10_08

Onderzoek

multi-label documentclassificatie

Page 3: College sicco van-sas-2012_10_08

Duizenden Europese documenten

Handmatig geclassificeerd met 6797 EuroVoc termen

Pagina/document vanhttp://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT

Handmatig geclassificeerd met 6797 EuroVoc termen Handmatig geclassificeerd met 6797 EuroVoc termen

Page 4: College sicco van-sas-2012_10_08

Document representatie

● Bekende methode:– tf-idf

● Methoden gebaseerd op kansen:– Language models (lijkt op tf)

– Parsimonious language models (lijkt op tf-idf)

Page 5: College sicco van-sas-2012_10_08

Modellen (1)

tf-idf: gewichten Language models: kansen

Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html

Tabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.ppt

Page 6: College sicco van-sas-2012_10_08

Modellen (2)

Parsimonious language models (PLM)

● Een PLM van een document geeft grote kansen aan woorden die representatief zijn voor dat document t.o.v. alle andere documenten

● Resultaat:– Onbelangrijke (stop)woorden krijgen lage kansen

– Belangrijke woorden krijgen hoge kansen

Page 7: College sicco van-sas-2012_10_08

Classificatie

● Trainen:

– Maak één groot document met alle teksten gelabeld met hetzelfde trefwoord (de train set)

– Maak PLMs voor de train set → Doc. models● Classificeren:

– Maak PLM van de query (= nieuw ongeclassificeerd document) → Query model

– Vergelijk het Query model met alle Doc. Models en rank de trefwoorden op basis van de uitkomsten → (c)

Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html

Page 8: College sicco van-sas-2012_10_08

Hoe vergelijk je 'document models'?

● tf-idf: cosine similarity (voor vectoren)

● Parsimonious language model: Kullback-Leibler divergence (voor kansverdelingen)

Page 9: College sicco van-sas-2012_10_08

Resultaten (1)

● PLM document model van trefwoord: Gezondheidsinspectie

1 veterinairrechtelijke 0.0255717

2 pluimvee 0.0207526

3 paardachtigen 0.0169556

4 varkens 0.0155939

5 vers 0.0145746

6 gezondheidsvoorschriften 0.0140261

7 aviaire 0.012024

8 tweekleppige 0.0118974

9 influenza 0.011844

10 weekdieren 0.0107946

11 gezondheidscertificaat 0.0106238

12 varkenspest 0.0100314

13 sperma 0.00935072

14 vhs 0.00913481

15 bijproducten 0.00903562

16 inrichtingen 0.00898603

17 tse 0.00814386

18 ihn 0.00758783

19 dierenarts 0.00742968

20 uitbraak 0.00684976

Page 10: College sicco van-sas-2012_10_08

Resultaten (2) 1 onderzoeksorganisme -7.68776547255

2 gezondheid van dieren -7.68776547255

3 voederen van dieren -9.04806562605

4 financiële hulp -9.19973589586

5 ongeslacht dier -9.25318528525

6 dierenziekte -9.33555641504

7 Keuringsdienst van waren -9.37130385138

8 institutionele bevoegdheid -9.47657512926

9 diergeneeskunde -9.52245856492

10 hondsdolheid -9.60911754795

11 vaccin -9.65839296249

12 proef -9.67811120989

13 gezondheidsinspectie -9.71556344516

.. .. ..

18 veterinaire inspectie -9.88886184799

.. .. ..

39 welzijn van dieren -11.0388821786

● Doc. geclassificeerd met 8 trefwoorden

● Mean Average Precision (MAP): 0.6342● R-precision: 0.5000

Page 11: College sicco van-sas-2012_10_08

Resultaten (3)

● 4166 trefwoord-document models getraind op 37.736 documenten

● Evaluatie op 4193 documenten:

Page 12: College sicco van-sas-2012_10_08

Conclusie

● Information retrieval methoden/zoektechnieken zijn bruikbaar voor hulp bij classificatie

Page 13: College sicco van-sas-2012_10_08

Vragen?