college sicco van-sas-2012_10_08
DESCRIPTION
Sicco van Sas legt de basics van zijn methode en zijn resultaten uit.TRANSCRIPT
![Page 1: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/1.jpg)
Zoeken & Classificeren
05/10/2012
Sicco van Sas
![Page 2: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/2.jpg)
Onderzoek
multi-label documentclassificatie
![Page 3: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/3.jpg)
Duizenden Europese documenten
Handmatig geclassificeerd met 6797 EuroVoc termen
Pagina/document vanhttp://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT
Handmatig geclassificeerd met 6797 EuroVoc termen Handmatig geclassificeerd met 6797 EuroVoc termen
![Page 4: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/4.jpg)
Document representatie
● Bekende methode:– tf-idf
● Methoden gebaseerd op kansen:– Language models (lijkt op tf)
– Parsimonious language models (lijkt op tf-idf)
![Page 5: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/5.jpg)
Modellen (1)
tf-idf: gewichten Language models: kansen
Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html
Tabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.ppt
![Page 6: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/6.jpg)
Modellen (2)
Parsimonious language models (PLM)
● Een PLM van een document geeft grote kansen aan woorden die representatief zijn voor dat document t.o.v. alle andere documenten
● Resultaat:– Onbelangrijke (stop)woorden krijgen lage kansen
– Belangrijke woorden krijgen hoge kansen
![Page 7: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/7.jpg)
Classificatie
● Trainen:
– Maak één groot document met alle teksten gelabeld met hetzelfde trefwoord (de train set)
– Maak PLMs voor de train set → Doc. models● Classificeren:
– Maak PLM van de query (= nieuw ongeclassificeerd document) → Query model
– Vergelijk het Query model met alle Doc. Models en rank de trefwoorden op basis van de uitkomsten → (c)
Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html
![Page 8: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/8.jpg)
Hoe vergelijk je 'document models'?
● tf-idf: cosine similarity (voor vectoren)
● Parsimonious language model: Kullback-Leibler divergence (voor kansverdelingen)
![Page 9: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/9.jpg)
Resultaten (1)
● PLM document model van trefwoord: Gezondheidsinspectie
1 veterinairrechtelijke 0.0255717
2 pluimvee 0.0207526
3 paardachtigen 0.0169556
4 varkens 0.0155939
5 vers 0.0145746
6 gezondheidsvoorschriften 0.0140261
7 aviaire 0.012024
8 tweekleppige 0.0118974
9 influenza 0.011844
10 weekdieren 0.0107946
11 gezondheidscertificaat 0.0106238
12 varkenspest 0.0100314
13 sperma 0.00935072
14 vhs 0.00913481
15 bijproducten 0.00903562
16 inrichtingen 0.00898603
17 tse 0.00814386
18 ihn 0.00758783
19 dierenarts 0.00742968
20 uitbraak 0.00684976
![Page 10: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/10.jpg)
Resultaten (2) 1 onderzoeksorganisme -7.68776547255
2 gezondheid van dieren -7.68776547255
3 voederen van dieren -9.04806562605
4 financiële hulp -9.19973589586
5 ongeslacht dier -9.25318528525
6 dierenziekte -9.33555641504
7 Keuringsdienst van waren -9.37130385138
8 institutionele bevoegdheid -9.47657512926
9 diergeneeskunde -9.52245856492
10 hondsdolheid -9.60911754795
11 vaccin -9.65839296249
12 proef -9.67811120989
13 gezondheidsinspectie -9.71556344516
.. .. ..
18 veterinaire inspectie -9.88886184799
.. .. ..
39 welzijn van dieren -11.0388821786
● Doc. geclassificeerd met 8 trefwoorden
● Mean Average Precision (MAP): 0.6342● R-precision: 0.5000
![Page 11: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/11.jpg)
Resultaten (3)
● 4166 trefwoord-document models getraind op 37.736 documenten
● Evaluatie op 4193 documenten:
![Page 12: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/12.jpg)
Conclusie
● Information retrieval methoden/zoektechnieken zijn bruikbaar voor hulp bij classificatie
![Page 13: College sicco van-sas-2012_10_08](https://reader033.vdocuments.us/reader033/viewer/2022052904/557e6299d8b42a1e178b4671/html5/thumbnails/13.jpg)
Vragen?