introduction au traitement automatique de larabe owen rambow columbia university center for...
TRANSCRIPT
Introduction au traitement automatique de l’arabe
Owen RambowColumbia University
Center for Computational Learning Systems
Remerciements
• CADIM (Columbia Arabic and its Dialects Modeling Group): Mona Diab et Nizar Habash
• Nizar Habash pour des transparents
Plan
• Situation sociolinguistique
• Orthographe
• Morphologie
• Syntaxe
ne-pas acheter Nizar table nouvelle
lam jaʃtari nizār ţawilatan ζadīdatan يشتر نزار طاولة جديدةلم
Nizar n’ a pas acheté la nouvelle table
جديدة ششترامانزار nizār maʃtarāʃ ţarabēza gidīdaطربيزة
جديدة ششرامانزار nizar maʃrāʃ mida ζdīdaميدة
جديدة ششترامانزار nizār maʃtarāʃ ţawile ζdīdeطاولة
Variation phonologique
ā ʔt bʤθx ħδ dz rss ʃt dʕ δ�k ʁq flm
ثت يوهنملكقفغعظطضصشسزرذدخحجبا ى ةئؤإآأء
h nwj ūī
LEV
ōē z• No dialect-specific standard orthography
ASM
ā ʔt bʤθx ħδ dz rss ʃt dʕk ʁq flm
ثت يوهنملكقفغعظطضصشسزرذدخحجبا ى ةئؤإآأء
h nwj ūī δ�
Variation lexicale
• L’orthographe arabe permet de consolider quelques variations
Classification des dialectes
• Dialectes Régionaux– Arabe maghrébin (MAG)– Arabe égyptien (EGY)– Arabe levantin (LEV)– Arabe du Golfe (GLF)– Arabe iraqien, yéménite, sudanais; le maltais?
• Dialectes sociaux– Citadin/paysan/bédouin– Sexe– Religion– …
La diglossie dans le monde arabe
• Qu’est-ce qu’un ‘dialecte’?– Facteurs politiques et religieux
• Arabe Standard Moderne (ASM, MSA en anglais):– Documents écrits– Discours officiels, médias traditionnels (lu)– Pas de production orale spontanée– Appris à l’école (règles)
• Dialectes:– Oral spontanée– Médias électroniques– Appris à la maison
Le mélange des codes(code switching)
بالتمديد طالبوا اللي هم لحود للرئيس تمديد اليوم بيعارضوا عم اللي عملية ألنه بعتقد ما أنا الفي يكون أنه بحترم أنا األرض على مبدئي موضوع منه موضوع وبالتالي الهراوي للرئيسممارسة في يكون وأن الديمقراطية للعبة احترام في يكون وأنه لألمور ديمقراطية نظرة
أو لبنان في الكل إنه وبعتقد الموضوع، ديمقراطية هذا تريد لبنان في ساحقة بس أكثريةلحظة يرجع العهد بدي إنجازات موضوع نحكي على نعم هل يعني لكن العهد إنجازات عن
لبنان النظام ليس النظام رئاسي نظامفي الطائف بعد من لبنان وبالتالي نظام في رئاسيخالل هيالسلطة أثبت لحود والرئيس مجتمعة الحكومة بيد لما األخيرة ممارستهعمليا بأنه
في بممارستي بيكون شخصيا الموضوع هذا عشت وأنا معين منصب في مسؤول شخصاالتصاالت موضوع مواقف في بياخد القسم لما خطاب ومبادئ خطاب ضمن إلى صالحة هو
من إنما جانبه مطلوب رئيس مش يكون هو جمهورية بقى رئيس منه ألنه التنفيذية السلطةالتنفيذية السلطة رئيس الطائف إتفاق بعد ما لبنان المالحظات في إبداء عليه التوجيه عليه
جهود تثمير عليه صح هو وما خطأ هو ما القول مصالحة عليه في يظل كي الشاملة الوطنيةفي يظل كي ما وطنية البلد هذا أبناء يحتضن لبنان في والمسيحي المسلم بين ما توافق
المسار هو يروحيترك طرحت مبادئ موضوع كان القسم خطاب إنما نعم الخطأ باتجاهفيها معه ملتزم مشيوا بالممارسة اللي سنوات األربع خالل أثبت أنا فيها التزموا فيها وآمنوا
هذا في جنبنا إلى لحود الرئيس كان الموضوع بهذا التزمنا ولما فيها التزمت أني الحكوميةالديمقراطي الموضوع أما نقول الموضوع، ممكن ما بس النظر هالوجهة هذا تماما بتفهم أنا
إمكانية أو هو تعديله أو الدستور والتصويت إنه المجلس ضمن ديمقراطي انتخاب إعادة فتحلرئيس هنالك ما هو إلى ثانية بوالية باألقل جمهورية هذا الديمقراطية جوهر في هيئة مسح
الموضوع يعني هذا في قناعتي .
Discours sur Al-Jazeera • phonologie, morphologie et syntaxe
Aljazeera Transcript http://www.aljazeera.net/programs/op_direction/articles/2004/7/7-23-1.htm
ASM
LEV
Les niveaux de Badawi
• Badawi:– Arabe traditionnel– Arabe moderne– Arabe vernaculaire
éduqué– Arabe vernaculaire
moyen
– Arabe vernaculaire analphabète
• PolyglossieArabe
classiqueDialecte Langue
étrangère
Une situation unique?
• Suisse allemande
• Chine
• France?
Pourquoi s’intéresser aux dialectes en TAL?
• Reconnaissance automatique de la parole
• Systèmes de dialogue
• Traduction automatique à partir de la parole, de textes écrits en dialecte
• Aides à l’apprentissages– Pour étrangers (apprentissage des dialectes)– Pour arabes (apprentissage de l’ASM)
La diglossie, la linguistique, et le TAL
• L’ASM n’est pas « une langue naturelle » (?)• Il y a peu de travaux linguistiques sur les dialectes• Il y a peu de textes écrits dans les dialectes• Les domaines dans lesquels sont employés ASM et
dialectes sont complémentaires (il n’y a pas de corpus ASM-dialecte)
• Il y a peu d’intérêt dans le monde arabe à étudier les dialectes
• Pour TAL des dialectes, il faut:– Commencer par l’ASM– Employer des modèles et des connaissances venant de la
linguistique théorique et descriptive– « Scholar-seeded learning »
Plan
• Situation sociolinguistique
• Orthographe
• Morphologie
• Syntaxe
L’arabe écrit
L’arabe s’écrit avec un alphabète avec des variantes allographiques, des diacritiques optionnelles, et des ligatures spéciales
L’alphabète arabe (variations) est aussi utilise pour écrire d’autres langues : le persan, le kurde,l’urdu, le pashto, etc
الخ�ط� �ي ب الع�ر�
L’arabe écrit
Les lettres
• De droite a gauche• Pas de majuscules • 4 variantes par lettre
د
د
ا
ا
ز
ز
ن
ن
ن
ن
final
medial
initial
isolé
بكمشغ
بكمشغ
بكمشغ
بكمشغ
L’arabe écrit
Nunation
ب�/ban/
ب�/bun/
ب�/bin/
Diacritiques optionelles
Sur ou sous les lettres
1. Voyelles courtes
2. Morphème de d’indétermination (« nunation »)
�اب� �ت kitābun/ ‘un/ كlivre’
Voyelle
ب�/ba/
ب�/bu/
ب�/bi/
L’arabe écrit
Double Consonant
ب�/bb/ب� ب� ب�
/bbu/ /bbin/ /bban/
Diacritiques
3. Marqueur d’absence de voyelle (sukun)
�ب �ت ’maktab/ ‘bureau/ م�ك
4. Gémination (double consonne) (shadda)
�ب �ت ’kattab/ ‘dicter/ ك
Combinable
No Vowel
ب�/b/
L’arabe écrit
ع ر ع�ر�ب = عرب�ب
Exemples de combinaison simple
Ligatures
غ ر غ�ر�ب = غرب�ب
Ouest /ʁarb/
Arabe /ʕarab/
/Paix /salāmس ل ا م سالم سالم
Phonologie et orthographe de l’ASM
• Phonologie– 28 consonnes– 3 voyelles courtes, 3 voyelles longues, 2
diphtongues
• L’orthographe arabe suit largement la phonologie
ā ʔt bʤθx ħδ dz rss ʃt dʕk ʁq flm
ثت يوهنملكقفغعظطضصشسزرذدخحجبا ى ةئؤإآأء
h nwj ūī δ�
Ambiguïté de l’orthographe arabe
• Problème: absence de diacritiques
(byn) بين– /bayyana/ ‘il déclara’– /bayyanna/ ‘elles déclarèrent’ – /bayyin/ ‘évident’ – /bayna/ ‘parmi’– /bīn/ Ben (nom propre)
• Application TAL arabe: diacritisation, un système pour désambiguïser l’orthographe selon le contexte en ajoutant des diacritiques
Plan
• Situation sociolinguistique
• Orthographe
• Morphologie– Faits linguistiques
– Analyseur morphologique (TAL)
– Désambiguïsation morphologique (TAL)
• Syntaxe
Morphologie
• Types– Concatenative: préfixe, suffixe, circonfixe -- universel– « Radicale » (templatic): racine+gabarit – sémitique
• Fonctions (universelles)– Dérivationelle
• Création de lexèmes nouveaux (nouveau sens lexical)• Largement morphologie gabaritique
– Inflectionelle• Variation des traits des mots (ne change pas le sens lexical)
– Temps, nombre, personne, aspect, mode
• Largement morphologie concatenative
• « Lexème »: ensemble de mots qui ne varient que dans leur morphologie inflectionelle
Morphologie dérivationelle gabaritique (par gabarits)
وكتمب
b
و1 23م�
kt
تاكب
�ا12
3
maktūbécrit
kātibécrivain
ب تك
maū āi
• Racine
• Patron
• Lexème
Morphologie dérivationelle La signification des radicales
• ’KTB = notion: ‘écriture ك ت ب
كتب/katab/write
كاتب/
kātib/writer
مكتوب/maktūb/
letter
كتاب/kitāb/book
مكتبة/maktaba/
libraryمكتب
/maktab/office
مكتوب/maktūb/written
Morphologie dérivationelle Signification des gabarits
Patron (Forme) Signification du gabarit Exemple Traduction
I 1a2a3 Sens de base ktb katab écrire
II 1a22a3 Intensification, causatif ktb kattab dicter
III 1aA2a3 Interaction avec d’autres ktb kaAtab correspondre avec
IV Aa12a3 Causatif jls Ajlas Asseoir qq
V ta1a22a3 Réflexif du gabarit II Elm taEal~am apprendre
VI ta1aA2a3 Réflexif du gabarit III ktb takaAtab correspondre
VII Ain1a2a3 Passif (de-accusatif) du gabarit I
ktb Ainkatab s’abonner, s’inscrire
VIII Ai1ta2a3 Acquiescence, exagération ktb Aiktatab S’inscrire
IX Ai12a33 Transformation Hmr AiHmarr rougir
X Aista12a3 Besoin ktb Aistaktab Demande d’écrire
• La signification des gabarits est assez floue
Signification des lexèmes
• Signification d’un lexème:– Signification des radicales +– Signification du gabarit +– Idiosyncrasie lexicale
• La morphologie derivationelle n’est pas sémantiquement déterministe!
• Le paradigme n’est pas complet
• Contraste: morphologie inflectionelle
Morphologie inflectionelle• Morphologie inflectionelle
– Définition de « mot »: orthographe– Mot = lexème + traits
• Parties du discours– Grammaires arabes traditionnelles: Nom, Verbe,
Particule– Grammaires modernes computationelles: N, NP, V,
Adj, Adv, P, Pron, Nom, Conj, Det , Aux, Pon, IJ
• Traits– Pour tous les mots
• Conjonctions clitiques• Prépositions clitiques
Morphologie inflectionelle: Traits
• Pour les noms – Nombre: singulier, dual, pluriel, collectif– Genre: masculin, féminin, neutre– État: défini, indéfini, constructif (=tête de construction génitive)– Cas: nominatif, accusatif, génitif– Clitique possessive
• Pour les verbes– Aspect: perfectif, imparfait– Voix: actif, passif– Mode: indicatif, subjonctif, jussif, impératif– Sujet (personne, nombre, genre)– Clitique objet
Morphologie inflectionelle: noms
وللمكتبات/walilmaktabāt/
ات+مكتبة+ال+ل+وwa+li+al+maktaba+āt
and+for+the+library+plural‘et pour les bibliothèques’
conjprepnounposs plural article
وكبيوتنا/wakabiyūtinā/
و +ك + بيوت + ناwa+ka+biyūt+nā
and+like+houses+our‘et comme nos maisons’
• Règles morphologiques (exemple: +ال (لل ل• Pluriel « rompu » (irrégulier): se fait avec des gabarits, non pas avec des suffixes
Morphologie inflectionelle: verbes
فقلناها/faqulnāhā/
ها+ نا+ قال +فfa+qul+na+hā
so+said+we+it‘ainsi nous le dîmes’
conjverbeobjet suj futur
هاقولوسن/wasanaqūluhā/
+ و ها + قول+ نس+ wa+sa+na+qūl+u+hāand+will+we+say+it
‘et nous le dirons’
Morphologie inflectionelle• Conjugaison de l’accord avec le sujet pour le perfectif
Singular Dual Plural
1 ت�كتب katabtu ناكتب katabnā
2 ت�كتب katabta ماتكتب katabtumā متكتب katabtum
3 kataba كتب اكتب katabā واكتب katabtū
• Conjugaison de l’accord avec le sujet pour l’imparfait
Feminine form and other verb moods not shown
Singular Dual Plural
1 كتبا � aktubu كتبن � naktubu
2 كتبت � taktubu انكتبت taktubān ونكتبت taktubūn
3 كتبي � yaktubu انكتبي yaktubān ونتكتبي yaktubūn
Le lexème en arabe
• Lexème = radicales + classe de comportement morphologique
• Classe de comportement morphologique:– Fonction qui associe des morphèmes à des
traits linguistiques
• Ordre de généralisation: Radicales > lexème > mot
Classe de comportement morphologique
• MBC::Verb-I-au ( katab/yaktub )cnj=wa wa+tense=fut sa+per=1, num=sg ‘+per=1, num=pl n+mood=indic +umood=sub +aaspect=imper V12V3aspect=perf 1V2V3voice=act a-uvoice=pass u-aobj=3FS +hAobj=1P +nA…
Hiérarchie des classes de comportement morphologique
Verb-I-aa-Intr
Word
Verb
VerbTr VerbIntr
Noun … Form-I
Form-I-aa Form-I-ii…
Form-II Form-X…
Verb-I-aa-tr … Verb-X-trVerb-X-Intr
Hiérarchie des classes de comportement morphologique
Verb-I-aa-Intr
Word
Verb
VerbTr VerbIntr
Noun … Form-I
Form-I-aa Form-I-ii…
Form-II Form-X…
Verb-I-aa-tr … Verb-X-trVerb-X-Intr
cnj:f CONJ:f
cnj:w CONJ:w
cnj:0 CONJ:nil
prt:0 PART:nil
Hiérarchie des classes de comportement morphologique
Verb-I-aa-Intr
Word
Verb
VerbTr VerbIntr
Noun … Form-I
Form-I-aa Form-I-ii…
Form-II Form-X…
Verb-I-aa-tr … Verb-X-trVerb-X-Intr
cnj:f CONJ:f
cnj:w CONJ:w
cnj:0 CONJ:nil
prt:0 PART:nil
prt:l PART:RESULT
prt:s PART:FUT
asp:P per:1 num:s
SUBJSUF_PV:1S
Hiérarchie des classes de comportement morphologique
Verb-I-aa-Intr
Word
Verb
VerbTr VerbIntr
Noun … Form-I
Form-I-aa Form-I-ii…
Form-II Form-X…
Verb-I-aa-tr … Verb-X-trVerb-X-Intr
cnj:f CONJ:f
cnj:w CONJ:w
cnj:0 CONJ:nil
prt:0 PART:nil
prt:l PART:RESULT
prt:s PART:FUT
asp:P per:1 num:s
SUBJSUF_PV:1S
pro:0 OBJ:nil
pro:1S OBJ:1S
Pro:1P OBJ:1P
Hiérarchie des classes de comportement morphologique
Verb-I-aa-Intr
Word
Verb
VerbTr VerbIntr
Noun … Form-I
Form-I-aa Form-I-ii…
Form-II Form-X…
Verb-I-aa-tr … Verb-X-trVerb-X-Intr
cnj:f CONJ:f
cnj:w CONJ:w
cnj:0 CONJ:nil
prt:0 PART:nil
prt:l PART:RESULT
prt:s PART:FUT
asp:P per:1 num:s
SUBJSUF_PV:1S
pro:0 OBJ:nil
pro:1S OBJ:1S
Pro:1P OBJ:1P
asp:imp V12V3
asp:p 1V2V3
La morphologie des dialectes
• Morphologie gabaritique et concatenative, comme pour l’ASM
• Noms– Perte des cas– Perte de la distinction entre masculin & féminin au pluriel
• Verbes– Perte des formes duales– Perte de la distinction ndicatif/subjonctif/jussif– Perte de la distinction entre masculin & féminin au pluriel (2e et
3e personnes)– Clitiques pour l’objet indirecte– Négation par préfixe, suffixe, ou circonfixe– Formes pour le progressif, l’habituel
La morphologie des dialectes: exemple verbal
conjverbobject subj tense
IOBJ negneg
ASMله تكتبوها ولم
walam taktubūhā lahuwa+lam taktubū+hā la+hu
and+not_past write_you+it for+him
EGYشكتبتوهالوماو
wimakatabtuhalūʃwi+ma+katab+tu+ha+lū+ʃ
and+not+wrote+you+it+for_him+not
‘et tu ne le lui as pas écrit’
Perfectif Imparfait
ASM
كتبkataba
Past
يكتبjaktubu
Present
يكتبسsajaktubu
Future
LEV
كتبkatab
Past
يكتبjiktob
0-Tense
يكتببbjoktob
Presenthabitual
يكتبب عم ʕam bjoktobPresentprogressive
يكتبحħajiktob
Future
La morphologie des dialectes
Plan
• Situation sociolinguistique
• Orthographe
• Morphologie– Faits linguistiques
– Analyseur morphologique (TAL)
– Désambiguïsation morphologique (TAL)
• Syntaxe
Application TAL: Analyseur morphologique
• Système qui:– Prend en entrée un mot écrit, donc une forme fléchie– Génère un lexème (=radicales, classe de
comportement morphologique) et des traits linguistiques (+pluriel, +accusatif, …)
– Donne tous les analyses possible (sans égard au contexte)
• Nous voulons:– Système bidirectionnel– Fonctionne avec les dialectes
Travail précédent
• Problème: morphologie se fait avec automates ou transducteurs à états finis (FST)– Insuffisant pour la morphologie gabaritique
• Beesley, Buckwalter & Newton 1989: two-level morphology with “detouring”
• Beesley & Karttunen 2000: compile-replace• Buckwalter 2002: morphologie concatenative
– Comment adapter aux dialectes?
Notre implémentation: Automates à bandes multiples
• MAGEAD, Habash & Rambow 2006• Suivant le travail de Kiraz (1996,2000)• 5 bandes:
– Patron– Radicales– Vocalisme– Forme de surface phonologique– Forme de surface orthographique
Les étapes de la génération morphologique
Lexeme and Features
Root + Abstract Morphemes
Root + Concrete Morphemes
Phonemic Form
Orthographic Form
Orthographic rules
Morphophonemic rules
Abstract Morpheme Ordering
Morpheme-Feature Mapping
Root + Ordered Abst. Morph.
Abstract-Concrete Mapping
Dialect Independent
Dialect Independent
Dialect Dependent
Dialect Dependent
Orthography Dependent
Exemple
V 1 t V 2 V 3
z h r
i a a
Pattern
Root
Vocalism
Phonology
Orthography
Exemple
Règles générique pour la phonologie
V 1 t V 2 V 3
z h r
i a a
i z t a h a r
Pattern
Root
Vocalism
Phonology
Orthography
Exemple
Règles morpho-phonémiques
V 1 t V 2 V 3
z h r
i a a
i z d a h a r
Pattern
Root
Vocalism
Phonology
Orthography
Exemple
Copier au niveau orthographique
V 1 t V 2 V 3
z h r
i a a
i z d a h a r
i z d a h a r
Pattern
Root
Vocalism
Phonology
Orthography
Example
Règles orthographiques
V 1 t V 2 V 3
z h r
i a a
i z d a h a r
i z d a h a r
Pattern
Root
Vocalism
Phonology
OrthographyA
Un analyseur pour un dialecte
• Créer la relation morphèmes abstraits – morphèmes concrets pour le dialecte
• Créer les règles morpho-phonémiques• Créer les règles orthographiques• Créer le lexique:
– Ajuster la hiérarchie des classes de comportement morphologique
– Donner une liste de lexèmes: <radicales, CCM>– Alternative: postuler des lexèmes, utiliser un modèle
probabiliste base sur des règles de changement de sons (exemple: /q/ /’/)
• Fait pour les verbes levantins
Plan
• Situation sociolinguistique
• Orthographe
• Morphologie– Faits linguistiques
– Analyseur morphologique (TAL)
– Désambiguïsation morphologique (TAL)
• Syntaxe
Ambiguïté de la morphologie arabe• Exemple: analyses possible de بين (byn)
Diac PdD Traits Lexème Significationbayyana V asp:pf g:m n:s bayyana ‘il déclara’bayyanna V asp:pf g:f n:p bayyana ‘elles déclarèrent’bayyinu Adj g:m n:s cas:nom bayyin ‘évident’ bayna P bayna ‘parmi’biyini NP prep:b yin ‘en Yen’biynu NP cas:nom biyn ‘Ben’biyni NP cas:gen biyn ‘Ben’…
• Applications TAL arabe: – Choix de la partie du discours et des traits morphologiques (= étiqueteur
morphologique)– Choix des diacritiques (=diacritisation)– Choix du lexème (=lemmatisation)
Ambiguïté de la morphologie arabe
0%
5%
10%
15%
20%
25%
30%
35%
40%
1 2 3 4 5 6 7 8 ormore
Analyses/Word
Pe
rce
bta
ge
of
Wo
rds
• Average overall ambiguity* is 2.5 analyses/word (sans cas/mode)
• Compare to English ENGTWOL ambiguity (1.7-2.2 analyses/word)
* In Arabic Penn Treebank 1
Étiquetage morphologique
• Jeu d’étiquettes pour l’anglais: 46• Jeu d’étiquettes pour l’arabe: 3000+• On ne peut pas simplement entraîner un
étiqueteur traditionnel, par exemple basé sur machine de Markov cachée (HMM)
• 2 options:– Réduire la taille du jeu d’étiquettes en éliminant des
distinctions (Diab et al 2004)– Utiliser un analyseur morphologique pour réduire les
possibilités (Hajič 2001)
MADA (Habash & Rambow 2005)• Utilise un analyseur morphologique (BAMA) qui produit les
analyses possible du mot d’entrée, par exemple بين (byn)Diac PdD Traits Lexème Significationbayyana V asp:pf g:m n:s bayyana ‘il déclara’bayna P bayna ‘parmi’biyini NP prep:b yin ‘en Yen’biyni NP cas:gen biyn ‘Ben’…
• MADA fait un choix parmi les analyses; en MEME TEMPS:– Étiquetage morphologique– Diacritisation– Lemmatisation
MADA (Habash & Rambow 2005)
Morphological Analyzer
TOKAN
User Applications
Formatted Arabic Text (Buckwalter)Arabic Text
Sets of Ranked Analyses &
Features
Tokenized Buckwalter Text
MADAFeature
Predictions
SVM Classifiers
Formatting Script
Analysis Ranker
Sets of Analyses & Features
Traits utilisés par MADA
Noms• Nombre• Genre• Cas• Défini/indéfini• Clitique possessive• Présence de ‘Al’
Tous les mots• Clitique de conjonction• Préposition/particule clitique• Modèle 4-gram des lexèmes
Verbes• Aspect• Voix• Mode• Accord sujet• Clitique Objet
W-3 W-2 W-1 W0 W1 W2 W3 W4W-4
ANALYSEUR MORPHOLOGIQUE
CLASSIFIEURS MORPHOLOGIQUES
• Créé a la main
• Règles
• Entrainés sur corpus
2nd
3rd
5th4th
1st
RANKER
• Entrainé sur corpus
MADA: Choix de la meilleure analyse
Performance des classificateurs
Classifiers: Art, Aspect, Case, Clitic, Conj, Def, Gen, Idafa, Mood, Num, Part, Per, Pos, Voice
75.0
80.0
85.0
90.0
95.0
100.0
Art
Asp
ect
Ca
se
Clit
ic
Co
nj
De
f
Ge
n
Ida
fa
Mo
od
Nu
m
Pa
rt
Pe
r
Po
s
Vo
ice
MFT Baseline SVM
SVMTools does slightly worse than Yamcha, but is x13 faster
Résultats pour MADA
Métrique
D’évaluation
Correction de MADA (%)
PdD correct 96.4
Lexème correct 96.4
Diacritiques correctes (toutes les diac)
86.2
Choix d’analyse correcte 83.9
Note: si on exclut le cas et le mode, les résultats sont nettement meilleurs
Plan
• Situation sociolinguistique
• Orthographe
• Morphologie
• Syntaxe
Syntaxe de la Phrase
Deux types de phrase en arabe • Phrase verbale
– [Verb Subject Object] (VSO)– االشعار كتب االوالد
Wrote the-boys the-poemsThe boys wrote the poems
• Phrase à copule– [Topic Complement]– شعراء االوالد
the-boys poetsThe boys are poets
Phrases verbale
• Verb agreement with gender only– \ االوالد الولد wrote3MascSing the-boy/the-boys كتب– \تكتب البنات البنت wrote3FemSing the-girl/the-girls
• Pronominal subjects are conjugated– ت�كتب wrote-youMascSing
– تمكتب wrote-youMascPlur
– واكتب wrote-theyMascPlur
• Passive verbs– Same structure: Verbpassive SubjectunderlyingObject
– Agreement with surface subject
Phrases à copule
• [Topic Complement]Definite Topic, Indefinite Complement– شاعر الولد
the-boy poetThe boy is a poet
• [Auxiliary Topic Complement]Auxiliaries (kāna and her sisters)– Tense, Negation, Transformation, Persistence – شاعرا كان الولد was the-boy poet The boy was a poet– شاعرا ليس الولد is-not the-boy poet The boy is not a poet
• Inverted order is expected in certain cases– Indefinite topic
كتاب ʕandi kitābun/ at-me a-book I have a book/ عندي
Phrases à copule:types de compléments
• Nom/Adjectif– ذكيالولد the-boy smart The boy is smart
• Syntagme prepositionnel– المكتبة الولد في the-boy in the-library The boy is in the
library• Phrases à copule
– كبير الولد كتابه [the-boy [book-his big]] The boy, his book is big
• Phrase verbale– االشعار كتبوااالوالد
[the-boys [wrote-they poems]] The boys wrote the poems– Full agreement in this order (SVO)– االوالد كتبهااالشعار (OVS)
[the-poems [wrote-it the boys]] The poems, the boys wrote
Syntaxe du nom
• La modification par adjectif:– N Adj– Accord en nombre, genre, cas, définition
• La construction possessive « Idafa » (اضافة): ‘N1 de N2’– N1-constructif N2-génitif– االردن ملك
roi Jordanie‘le roi de Jordanie’
• N1 hérite la définition de N2 (défini, indéfini)• Chaines d’Idafa
– N1constr N2
constr … Nn-1constr Nn
def ou indef
– الشركة ادارة مجلس رئيس جار عم ابنfils oncle voisin chef comite administation l’entrepriseLe cousin du voisin du PDG de l’entreprise
La syntaxe des dialectes: noms
• Idafa construction – Noun1 of Noun2 encoded structurally– االردن ملك
king Jordanthe king of Jordan / Jordan’s king
• Dialects have an additional common construct– Noun1 <particle> Noun2 – LEV: االردن تبع the-king belonging-to Jordan الملك– <particle> differs widely among dialects
• Pre/post-modifying demonstrative article– MSA: الرجل هذا this the-man this man– EGY: ده الراجل the-man this this man
La syntaxe des dialectes: phrases
• The children wrote poems• MSA
– Verb Subject Object (Partial agreement)االشعار كتب االوالد
wrotemasc the-boys the-poems– Subject Verb Object (Full agreement)
االشعار كتبوااالوالد the-boys wrotemascPlural the-poems
• LEV, EGY– Subject Verb Object
االشعار كتبواالوالد The-boys wrotemascPlural the-poems
– Less present: Verb Subject Object االشعار كتبو االوالد
wrotemascPlural the-boys the-poems– Full agreement in both order
L’analyse des dialectes arabes:le problème pour le TAL
Banque d’arbres
Parser
Gros corpus
- Dialecte - - ASM -
بيحبو الشغل شاالزالمهادا
بيحبو
الشغلشاالزالم
هاداmen
like
work
this
not
?Petit corpus
La transduction de la grammaire (Chiang et al 2006, Chiang & Rambow 2006)
- Dialect - - MSA -
TAG = Tree Adjoining Grammar
Probabilistic
TAG
Tree Transduction
Treebank
Parser
Probabilistic
TAG
ش بيحبو االزالمهادا الشغل
بيحبو
الشغلشاالزالم
هادا
La transduction de la grammaire
• Transformer le modèle d;analyse pour ASM en un modèle d’analyse pour le dialecte
• Plus précisément: en un modèle d’analyse synchrone ASM-dialecte
• Le modèle d’analyse est défini en termes de dérivations en TAG (tree adjoining grammar)
Tree-Adjoining Grammar
La transformation d’une TAG
• Nous spécifions des transformations sur des arbres elementaires
Les probabilités de transformation
• Ajouter des probabilités de correspondance P(TLev|TMSA)
Modèle de probabilité
arg max P(TLev) ≈ arg max P(TLev, TASM)
= arg max P(TLev|TASM) P(TASM)
Appris dans la banque
d’arbres pour l’ASM
Probasde
correspondence
Pour analyser, trouver:
Modèle de probabilité
• La lexicalisation crée un ensemble de correspondences LEV > SMA qui est enorme
• Faire un backoff: modéliser independemment la correspondance de la partie non-lexicalisée et des mots
Transformations
• Transformation VSO à SVO
• Négation:
Transformations
• ‘want’
Resultats
Recall Prec F1Baseline 62.5 63.9 63.2
Petit lexique 67.0 67.0 67.0
VSO→SVO 66.7 66.9 66.8negation 67.0 67.0 67.0
‘want’ 67.0 67.4 67.2
negation+‘want’ 67.1 67.4 67.3
Conclusion
• Pour faire le TAL de l’arabe, il faut:– comprendre les faits linguistiques;– les modéliser de façon adéquate;– et maîtriser des techniques formelles et
computationelles diverses!
• La linguistique est importante!