atranos t1-t6 cnts team: bart decadt erik tjong kim sang walter daelemans
DESCRIPTION
ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans. CNTS taak voor T1+6. WP2: Ontdekken en verwerken van Out-Of-Vocabulary- items (OOV) Specifieke taak = foneem-naar-grafeem omzetting Doeleinden: T1+6: Baseline omzetter T1+6: Rapport. Overzicht. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/1.jpg)
ATRaNoS T1-T6
CNTS Team:
Bart DecadtErik Tjong Kim Sang
Walter Daelemans
![Page 2: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/2.jpg)
CNTS taak voor T1+6
• WP2: Ontdekken en verwerken van Out-Of-Vocabulary-items (OOV)– Specifieke taak = foneem-naar-grafeem omzetting
– Doeleinden:• T1+6: Baseline omzetter
• T1+6: Rapport
![Page 3: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/3.jpg)
Overzicht
• Waarom foneem-naar-grafeem omzetting?
• Haalbaarheidsexperimenten met CELEX– Resultaten + fouten-analyse
• Experimenten met ‘echte’ data– Resultaten + fouten-analyse
• Conclusies + TODO
![Page 4: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/4.jpg)
Spraak Herkenner
spraak tekst
Confidence threshold
Vermoedelijk OOV-item
Foneemherkenner (ESAT)
Foneemstring + context (voorgaande en volgende woorden in spelling)
Omzetter (TiMBL)
SpellingSpelling corrector met
omvangrijk vocabularium
Training Data
WP2: Taak: foneem-naar-grafeem omzetting
![Page 5: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/5.jpg)
(1) Onderzoek naar haalbaarheid
• Wat is de haalbaarheid van foneem-naar-grafeem omzetting?– Experimenten met CELEX– Memory Based Learning (TiMBL) als machine
learning methode
• Hoe groot is de invloed van ruis in de data?– Typische error rate van een foneem-herkenner ~ 25 tot
30%
![Page 6: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/6.jpg)
• Voorbereiden van CELEX– Spelling en uitspraak moeten gealigneerd
worden (met Expectation Maximization (EM) algoritme [ILKAlign])
• “nul” symbool /tAksi/ taxi tax_i
• samengestelde grafemen /slap/ slaap slAp
– Voordeel van EM: geen tuning nodig– Gerandomiseerd op woordniveau
Voorbereiden van de data (1)
![Page 7: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/7.jpg)
Voorbereiden van de data (2)
• Toevoegen van ruis– Gebeurde op woordniveau– Simulatie van substituties: fonemen werden
vervangen door hun nearest phonemes• Confusion matrix a.h.v. MVDM (Modified Value
Difference Metric)
– Van 0 tot 50% ruis
![Page 8: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/8.jpg)
Experimenten met TiMBL• Memory Based Learning experimenten
– Classification-based– Similarity-based– Gebruikte algoritmes:
• IB1 (standaard) met k=1,3,5• IGTree (decision tree based optimization)
– Metriek om similarity te berekenen: Overlap metric met Gain Ratio weighting
– Experimenten met 10-fold cross-validation
• Resultaten (accuraatheid)– Vrij van fouten: 99.1 (grafemen) 91.4 (woorden)
– 25% fouten: 93.1 (grafemen) 53.0 (woorden)
– 30% fouten: 92.0 (grafemen) 47.7 (woorden)
![Page 9: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/9.jpg)
accuracy at grapheme-level
80828486889092949698
100
0 5 10 15 20 25 30 35 40 45 50
percentage of noise
ac
cu
rac
y
IG-Tree, overlap, GR IB-1, overlap, GR, k1 IB-1, overlap, GR, k3 IB-1, overlap, GR, k5
accuracy at word-level
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40 45 50percentage of noise
accu
racy
IG-Tree, overlap, GR IB-1, overlap, GR, k1 IB-1, overlap, GR, k3 IB-1, overlap, GR, k5
Resultaten van experimenten met CELEX
![Page 10: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/10.jpg)
Fouten-analyse
• Analyse van fouten in de output van algoritme IB1, k=1 op dataset zonder ruis
• 2 soorten fouten:– Fouten door ambiguïteit– Fouten door atypische spelling
![Page 11: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/11.jpg)
Fouten door ambiguïteit• Ambiguïteit door spellingsconventies
– /k/ c of k?• /INkledIN/ incleding
• /vudbAlkOm@ptitsi/ voetbalkompetitie
– /i/ i of y?• /fil@/ fyle
• /elEktrolitis/ elektrolitisch
• Ambiguïteit door assimilatie– /n/ wordt /m/ voor /b/
• /embanswEx/ eembaansweg
• Ambiguïteit door zelfde uitspraak, andere spelling– /ledikAnt/ ladikant ladykiller, ladyshave, ladylike
![Page 12: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/12.jpg)
Fouten door atypische spelling
Fonemen TiMBL Correct
/rokAj@/ Rokuille Rocaille
/sikorK/ Sykcurij Cichorei
/fwAje/ Foyee Foyer
/bazuka/ Bazoeka Bazooka
/x@krust/ Gekroest Gecruist
![Page 13: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/13.jpg)
(2) Experimenten met data van foneemherkenner
• Data van ESAT:– 129075 woorden – 605955 grafemen– 8913 OOV-items– Enkele voorbeelden:
• grafeemstring: ze veegde de tranen uit haar ooghoeken
foneemstring: z@ veGe t@r tran@n Lt har ohok@n
• grafeemstring: het was een spel geworden
foneemstring: h@t wAs @ spEl G@wOrt@n t@x
• grafeemstring: cathy had haar uiterste best gedaan
foneemstring: kYdi hAt hAr Ljt@rst@ bEs x@dan
![Page 14: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/14.jpg)
• Aligneren met “nul” symbolen + samengestelde grafemen
• Problemen bij het aligneren van de data:– Door deleties in de foneemstrings werkt het EM
algoritme niet
• Oplossing:– Ander aligneer-algoritme: Dynamic Programming (DP)
(of Dynamic Time Warping)
– Nadeel: tuning nodig!
– Voordeel: kan deleties aligneren
Voorbereiden van de ESAT-data (1)
![Page 15: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/15.jpg)
• Deleties staan niet aangeduid in de input van omzetter deleties werden verwijderd uit dataset
• Heeft spelling voorgaande/volgende woord invloed?
• Vier verschillende datasets:1. Woorden met deleties verwijderd, geen spelling als context2. Woorden met deleties verwijderd, wel spelling als context3. Instanties met deleties verwijderd, geen spelling als context4. Instanties met deleties verwijderd, wel spelling als context
• Experimenten: (1) 10 CV op volledige dataset, en (2) alleen OOV-items als testmateriaal
Voorbereiden van de ESAT-data (2)
![Page 16: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/16.jpg)
Resultaten met hele dataset - grafeemniveau
Dataset IB1, k=1 IB1, k=3 IB1, k=5 IGTREE
-spelling
-woorden73.10 74.53 74.77 73.31
+spelling
-woorden72.16 74.82 75.27 72.46
-spelling
-instanties76.23 77.32 77.43 76.36
+spelling
-instanties74.62 76.91 76.95 74.92
![Page 17: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/17.jpg)
Resultaten met hele dataset - woordniveau
Dataset IB1, k=1 IB1, k=3 IB1, k=5 IGTREE
-spelling
-woorden46.88 47.03 47.00 46.82
+spelling
-woorden43.86 44.83 44.25 43.51
-spelling
-instanties46.38 46.54 46.52 46.30
+spelling
-instanties42.49 43.92 43.40 42.27
![Page 18: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/18.jpg)
Voorbeeld van output• TiMBL’s output:
cafe zag en wild zwaaienhaar vader stak zijn dan omhoogfassaf hij wilde zeggenhet komt we goed joghaar maar klefde bijnae tegen ik aultoeraanpiee aan
• Correcte versie:
cathy zag hen wild zwaaienhaar vader stak zijn duim omhoogalsof hij wilde zeggenhet komt wel goed jochhaar moeder kleefde bijna tegen het autoraampje aan
![Page 19: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/19.jpg)
Foutenanalyse: hoe goed worden OOV-items omgezet?
• Alle OOV-items uit de tien test-bestanden van 10 CV experimenten gehaald (8913 woorden)
• Resultaten berekend op grafeem- en woordniveau• Geteld hoeveel woorden 0, 1, 2, … fouten per
woord hebben
![Page 20: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/20.jpg)
Resultaten op grafeemniveau
Dataset IB1, k=1 IB1, k=3 IB1, k=5 IGTREE
-spelling
-woorden58.88 62.00 62.69 59.66
+spelling
-woorden58.07 62.29 63.06 59.14
-spelling
-instanties59.87 62.82 63.34 60.66
+spelling
-instanties58.93 63.07 63.37 60.06
![Page 21: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/21.jpg)
Resultaten op woordniveau
MAAR verzameling OOV-words bevat 3985 (44.7%) woorden met deleties deze woorden kunnen nooit volledig correct herkend worden
Dataset IB1, k=1 IB1, k=3 IB1, k=5 IGTREE
-spelling
-woorden6.24 6.70 6.89 6.11
+spelling
-woorden5.14 6.29 6.51 5.35
-spelling
-instanties6.17 6.67 6.87 6.05
+spelling
-instanties4.97 6.20 6.41 5.13
![Page 22: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/22.jpg)
Voorbeeld van output• TiMBL’s output:
het komt wel goed jog bijna tegen het aultoeraampiee aanhaar neus werd pladvedrukt cathy zag de belleen langzaam verdwijnencathy staarde hem bevreemd aan
• Correcte versie:
het komt wel goed jochbijna tegen het autoraampje aanhaar neus werd platgedruktcathy zag de bmw langzaam verdwijnencathy staarde hem bevreemd aan
![Page 23: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/23.jpg)
Fouten-analyse OOV-items
De meeste woorden hebben 2 tot 5 fouten per woord(gemiddelde is 3.03)
Number of words for errors per word
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Errors per word
Nu
mb
er
of
wo
rds
![Page 24: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/24.jpg)
(3) Conclusie• Experimenten op volledige ESAT dataset
(max. 47.0) komen in de buurt van de resultaten van de experimenten met artificiële ruis (47.7 – 53.0% op woordniveau)
• Resultaten bij de OOV-items (max. 6.9%) liggen ver beneden de resultaten van de experimenten met artificiële ruis
![Page 25: ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans](https://reader035.vdocuments.us/reader035/viewer/2022070411/56814764550346895db4a0a0/html5/thumbnails/25.jpg)
(4) TODO
• Verdere optimalisering van de leertechniek op deze taak
• Oplossing voor probleem van deleties
• Spelling corrector met omvangrijk vocabularium als post-processing
• Evaluatie van omzetter in combinatie met de confidence measures ontwikkeld door ESAT