introduction au traitement automatique de larabe owen rambow columbia university center for...

83
Introduction au traitement automatique de l’arabe Owen Rambow Columbia University Center for Computational Learning Systems

Upload: sylvie-bourgoin

Post on 04-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Introduction au traitement automatique de l’arabe

Owen RambowColumbia University

Center for Computational Learning Systems

Page 2: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Remerciements

• CADIM (Columbia Arabic and its Dialects Modeling Group): Mona Diab et Nizar Habash

• Nizar Habash pour des transparents

Page 3: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Plan

• Situation sociolinguistique

• Orthographe

• Morphologie

• Syntaxe

Page 4: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

ne-pas acheter Nizar table nouvelle

lam jaʃtari nizār ţawilatan ζadīdatan يشتر نزار طاولة جديدةلم

Nizar n’ a pas acheté la nouvelle table

جديدة ششترامانزار nizār maʃtarāʃ ţarabēza gidīdaطربيزة

جديدة ششرامانزار nizar maʃrāʃ mida ζdīdaميدة

جديدة ششترامانزار nizār maʃtarāʃ ţawile ζdīdeطاولة

Page 5: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Variation phonologique

ā ʔt bʤθx ħδ dz rss ʃt dʕ δ�k ʁq flm

ثت يوهنملكقفغعظطضصشسزرذدخحجبا ى ةئؤإآأء

h nwj ūī

LEV

ōē z• No dialect-specific standard orthography

ASM

ā ʔt bʤθx ħδ dz rss ʃt dʕk ʁq flm

ثت يوهنملكقفغعظطضصشسزرذدخحجبا ى ةئؤإآأء

h nwj ūī δ�

Page 6: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Variation lexicale

• L’orthographe arabe permet de consolider quelques variations

Page 7: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Classification des dialectes

• Dialectes Régionaux– Arabe maghrébin (MAG)– Arabe égyptien (EGY)– Arabe levantin (LEV)– Arabe du Golfe (GLF)– Arabe iraqien, yéménite, sudanais; le maltais?

• Dialectes sociaux– Citadin/paysan/bédouin– Sexe– Religion– …

Page 8: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La diglossie dans le monde arabe

• Qu’est-ce qu’un ‘dialecte’?– Facteurs politiques et religieux

• Arabe Standard Moderne (ASM, MSA en anglais):– Documents écrits– Discours officiels, médias traditionnels (lu)– Pas de production orale spontanée– Appris à l’école (règles)

• Dialectes:– Oral spontanée– Médias électroniques– Appris à la maison

Page 9: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Le mélange des codes(code switching)

بالتمديد طالبوا اللي هم لحود للرئيس تمديد اليوم بيعارضوا عم اللي عملية ألنه بعتقد ما أنا الفي يكون أنه بحترم أنا األرض على مبدئي موضوع منه موضوع وبالتالي الهراوي للرئيسممارسة في يكون وأن الديمقراطية للعبة احترام في يكون وأنه لألمور ديمقراطية نظرة

أو لبنان في الكل إنه وبعتقد الموضوع، ديمقراطية هذا تريد لبنان في ساحقة بس أكثريةلحظة يرجع العهد بدي إنجازات موضوع نحكي على نعم هل يعني لكن العهد إنجازات عن

لبنان النظام ليس النظام رئاسي نظامفي الطائف بعد من لبنان وبالتالي نظام في رئاسيخالل هيالسلطة أثبت لحود والرئيس مجتمعة الحكومة بيد لما األخيرة ممارستهعمليا بأنه

في بممارستي بيكون شخصيا الموضوع هذا عشت وأنا معين منصب في مسؤول شخصاالتصاالت موضوع مواقف في بياخد القسم لما خطاب ومبادئ خطاب ضمن إلى صالحة هو

من إنما جانبه مطلوب رئيس مش يكون هو جمهورية بقى رئيس منه ألنه التنفيذية السلطةالتنفيذية السلطة رئيس الطائف إتفاق بعد ما لبنان المالحظات في إبداء عليه التوجيه عليه

جهود تثمير عليه صح هو وما خطأ هو ما القول مصالحة عليه في يظل كي الشاملة الوطنيةفي يظل كي ما وطنية البلد هذا أبناء يحتضن لبنان في والمسيحي المسلم بين ما توافق

المسار هو يروحيترك طرحت مبادئ موضوع كان القسم خطاب إنما نعم الخطأ باتجاهفيها معه ملتزم مشيوا بالممارسة اللي سنوات األربع خالل أثبت أنا فيها التزموا فيها وآمنوا

هذا في جنبنا إلى لحود الرئيس كان الموضوع بهذا التزمنا ولما فيها التزمت أني الحكوميةالديمقراطي الموضوع أما نقول الموضوع، ممكن ما بس النظر هالوجهة هذا تماما بتفهم أنا

إمكانية أو هو تعديله أو الدستور والتصويت إنه المجلس ضمن ديمقراطي انتخاب إعادة فتحلرئيس هنالك ما هو إلى ثانية بوالية باألقل جمهورية هذا الديمقراطية جوهر في هيئة مسح

الموضوع يعني هذا في قناعتي .

Discours sur Al-Jazeera • phonologie, morphologie et syntaxe

Aljazeera Transcript http://www.aljazeera.net/programs/op_direction/articles/2004/7/7-23-1.htm

ASM

LEV

Page 10: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Les niveaux de Badawi

• Badawi:– Arabe traditionnel– Arabe moderne– Arabe vernaculaire

éduqué– Arabe vernaculaire

moyen

– Arabe vernaculaire analphabète

• PolyglossieArabe

classiqueDialecte Langue

étrangère

Page 11: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Une situation unique?

• Suisse allemande

• Chine

• France?

Page 12: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Pourquoi s’intéresser aux dialectes en TAL?

• Reconnaissance automatique de la parole

• Systèmes de dialogue

• Traduction automatique à partir de la parole, de textes écrits en dialecte

• Aides à l’apprentissages– Pour étrangers (apprentissage des dialectes)– Pour arabes (apprentissage de l’ASM)

Page 13: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La diglossie, la linguistique, et le TAL

• L’ASM n’est pas « une langue naturelle » (?)• Il y a peu de travaux linguistiques sur les dialectes• Il y a peu de textes écrits dans les dialectes• Les domaines dans lesquels sont employés ASM et

dialectes sont complémentaires (il n’y a pas de corpus ASM-dialecte)

• Il y a peu d’intérêt dans le monde arabe à étudier les dialectes

• Pour TAL des dialectes, il faut:– Commencer par l’ASM– Employer des modèles et des connaissances venant de la

linguistique théorique et descriptive– « Scholar-seeded learning »

Page 14: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Plan

• Situation sociolinguistique

• Orthographe

• Morphologie

• Syntaxe

Page 15: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

L’arabe écrit

L’arabe s’écrit avec un alphabète avec des variantes allographiques, des diacritiques optionnelles, et des ligatures spéciales

L’alphabète arabe (variations) est aussi utilise pour écrire d’autres langues : le persan, le kurde,l’urdu, le pashto, etc

الخ�ط� �ي ب الع�ر�

Page 16: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

L’arabe écrit

Les lettres

• De droite a gauche• Pas de majuscules • 4 variantes par lettre

د

د

ا

ا

ز

ز

ن

ن

ن

ن

final

medial

initial

isolé

بكمشغ

بكمشغ

بكمشغ

بكمشغ

Page 17: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

L’arabe écrit

Nunation

ب�/ban/

ب�/bun/

ب�/bin/

Diacritiques optionelles

Sur ou sous les lettres

1. Voyelles courtes

2. Morphème de d’indétermination (« nunation »)

�اب� �ت kitābun/ ‘un/ كlivre’

Voyelle

ب�/ba/

ب�/bu/

ب�/bi/

Page 18: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

L’arabe écrit

Double Consonant

ب�/bb/ب� ب� ب�

/bbu/ /bbin/ /bban/

Diacritiques

3. Marqueur d’absence de voyelle (sukun)

�ب �ت ’maktab/ ‘bureau/ م�ك

4. Gémination (double consonne) (shadda)

�ب �ت ’kattab/ ‘dicter/ ك

Combinable

No Vowel

ب�/b/

Page 19: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

L’arabe écrit

ع ر ع�ر�ب = عرب�ب

Exemples de combinaison simple

Ligatures

غ ر غ�ر�ب = غرب�ب

Ouest /ʁarb/

Arabe /ʕarab/

/Paix /salāmس ل ا م سالم سالم

Page 20: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Phonologie et orthographe de l’ASM

• Phonologie– 28 consonnes– 3 voyelles courtes, 3 voyelles longues, 2

diphtongues

• L’orthographe arabe suit largement la phonologie

ā ʔt bʤθx ħδ dz rss ʃt dʕk ʁq flm

ثت يوهنملكقفغعظطضصشسزرذدخحجبا ى ةئؤإآأء

h nwj ūī δ�

Page 21: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Ambiguïté de l’orthographe arabe

• Problème: absence de diacritiques

(byn) بين– /bayyana/ ‘il déclara’– /bayyanna/ ‘elles déclarèrent’ – /bayyin/ ‘évident’ – /bayna/ ‘parmi’– /bīn/ Ben (nom propre)

• Application TAL arabe: diacritisation, un système pour désambiguïser l’orthographe selon le contexte en ajoutant des diacritiques

Page 22: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Plan

• Situation sociolinguistique

• Orthographe

• Morphologie– Faits linguistiques

– Analyseur morphologique (TAL)

– Désambiguïsation morphologique (TAL)

• Syntaxe

Page 23: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie

• Types– Concatenative: préfixe, suffixe, circonfixe -- universel– « Radicale » (templatic): racine+gabarit – sémitique

• Fonctions (universelles)– Dérivationelle

• Création de lexèmes nouveaux (nouveau sens lexical)• Largement morphologie gabaritique

– Inflectionelle• Variation des traits des mots (ne change pas le sens lexical)

– Temps, nombre, personne, aspect, mode

• Largement morphologie concatenative

• « Lexème »: ensemble de mots qui ne varient que dans leur morphologie inflectionelle

Page 24: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie dérivationelle gabaritique (par gabarits)

وكتمب

b

و1 23م�

kt

تاكب

�ا12

3

maktūbécrit

kātibécrivain

ب تك

maū āi

• Racine

• Patron

• Lexème

Page 25: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie dérivationelle La signification des radicales

• ’KTB = notion: ‘écriture ك ت ب

كتب/katab/write

كاتب/

kātib/writer

مكتوب/maktūb/

letter

كتاب/kitāb/book

مكتبة/maktaba/

libraryمكتب

/maktab/office

مكتوب/maktūb/written

Page 26: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie dérivationelle Signification des gabarits

Patron (Forme) Signification du gabarit Exemple Traduction

I 1a2a3 Sens de base ktb katab écrire

II 1a22a3 Intensification, causatif ktb kattab dicter

III 1aA2a3 Interaction avec d’autres ktb kaAtab correspondre avec

IV Aa12a3 Causatif jls Ajlas Asseoir qq

V ta1a22a3 Réflexif du gabarit II Elm taEal~am apprendre

VI ta1aA2a3 Réflexif du gabarit III ktb takaAtab correspondre

VII Ain1a2a3 Passif (de-accusatif) du gabarit I

ktb Ainkatab s’abonner, s’inscrire

VIII Ai1ta2a3 Acquiescence, exagération ktb Aiktatab S’inscrire

IX Ai12a33 Transformation Hmr AiHmarr rougir

X Aista12a3 Besoin ktb Aistaktab Demande d’écrire

• La signification des gabarits est assez floue

Page 27: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Signification des lexèmes

• Signification d’un lexème:– Signification des radicales +– Signification du gabarit +– Idiosyncrasie lexicale

• La morphologie derivationelle n’est pas sémantiquement déterministe!

• Le paradigme n’est pas complet

• Contraste: morphologie inflectionelle

Page 28: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie inflectionelle• Morphologie inflectionelle

– Définition de « mot »: orthographe– Mot = lexème + traits

• Parties du discours– Grammaires arabes traditionnelles: Nom, Verbe,

Particule– Grammaires modernes computationelles: N, NP, V,

Adj, Adv, P, Pron, Nom, Conj, Det , Aux, Pon, IJ

• Traits– Pour tous les mots

• Conjonctions clitiques• Prépositions clitiques

Page 29: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie inflectionelle: Traits

• Pour les noms – Nombre: singulier, dual, pluriel, collectif– Genre: masculin, féminin, neutre– État: défini, indéfini, constructif (=tête de construction génitive)– Cas: nominatif, accusatif, génitif– Clitique possessive

• Pour les verbes– Aspect: perfectif, imparfait– Voix: actif, passif– Mode: indicatif, subjonctif, jussif, impératif– Sujet (personne, nombre, genre)– Clitique objet

Page 30: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie inflectionelle: noms

وللمكتبات/walilmaktabāt/

ات+مكتبة+ال+ل+وwa+li+al+maktaba+āt

and+for+the+library+plural‘et pour les bibliothèques’

conjprepnounposs plural article

وكبيوتنا/wakabiyūtinā/

و +ك + بيوت + ناwa+ka+biyūt+nā

and+like+houses+our‘et comme nos maisons’

• Règles morphologiques (exemple: +ال (لل ل• Pluriel « rompu » (irrégulier): se fait avec des gabarits, non pas avec des suffixes

Page 31: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie inflectionelle: verbes

فقلناها/faqulnāhā/

ها+ نا+ قال +فfa+qul+na+hā

so+said+we+it‘ainsi nous le dîmes’

conjverbeobjet suj futur

هاقولوسن/wasanaqūluhā/

+ و ها + قول+ نس+ wa+sa+na+qūl+u+hāand+will+we+say+it

‘et nous le dirons’

Page 32: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Morphologie inflectionelle• Conjugaison de l’accord avec le sujet pour le perfectif

Singular Dual Plural

1 ت�كتب katabtu ناكتب katabnā

2 ت�كتب katabta ماتكتب katabtumā متكتب katabtum

3 kataba كتب اكتب katabā واكتب katabtū

• Conjugaison de l’accord avec le sujet pour l’imparfait

Feminine form and other verb moods not shown

Singular Dual Plural

1 كتبا � aktubu كتبن � naktubu

2 كتبت � taktubu انكتبت taktubān ونكتبت taktubūn

3 كتبي � yaktubu انكتبي yaktubān ونتكتبي yaktubūn

Page 33: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Le lexème en arabe

• Lexème = radicales + classe de comportement morphologique

• Classe de comportement morphologique:– Fonction qui associe des morphèmes à des

traits linguistiques

• Ordre de généralisation: Radicales > lexème > mot

Page 34: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Classe de comportement morphologique

• MBC::Verb-I-au ( katab/yaktub )cnj=wa wa+tense=fut sa+per=1, num=sg ‘+per=1, num=pl n+mood=indic +umood=sub +aaspect=imper V12V3aspect=perf 1V2V3voice=act a-uvoice=pass u-aobj=3FS +hAobj=1P +nA…

Page 35: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Hiérarchie des classes de comportement morphologique

Verb-I-aa-Intr

Word

Verb

VerbTr VerbIntr

Noun … Form-I

Form-I-aa Form-I-ii…

Form-II Form-X…

Verb-I-aa-tr … Verb-X-trVerb-X-Intr

Page 36: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Hiérarchie des classes de comportement morphologique

Verb-I-aa-Intr

Word

Verb

VerbTr VerbIntr

Noun … Form-I

Form-I-aa Form-I-ii…

Form-II Form-X…

Verb-I-aa-tr … Verb-X-trVerb-X-Intr

cnj:f CONJ:f

cnj:w CONJ:w

cnj:0 CONJ:nil

prt:0 PART:nil

Page 37: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Hiérarchie des classes de comportement morphologique

Verb-I-aa-Intr

Word

Verb

VerbTr VerbIntr

Noun … Form-I

Form-I-aa Form-I-ii…

Form-II Form-X…

Verb-I-aa-tr … Verb-X-trVerb-X-Intr

cnj:f CONJ:f

cnj:w CONJ:w

cnj:0 CONJ:nil

prt:0 PART:nil

prt:l PART:RESULT

prt:s PART:FUT

asp:P per:1 num:s

SUBJSUF_PV:1S

Page 38: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Hiérarchie des classes de comportement morphologique

Verb-I-aa-Intr

Word

Verb

VerbTr VerbIntr

Noun … Form-I

Form-I-aa Form-I-ii…

Form-II Form-X…

Verb-I-aa-tr … Verb-X-trVerb-X-Intr

cnj:f CONJ:f

cnj:w CONJ:w

cnj:0 CONJ:nil

prt:0 PART:nil

prt:l PART:RESULT

prt:s PART:FUT

asp:P per:1 num:s

SUBJSUF_PV:1S

pro:0 OBJ:nil

pro:1S OBJ:1S

Pro:1P OBJ:1P

Page 39: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Hiérarchie des classes de comportement morphologique

Verb-I-aa-Intr

Word

Verb

VerbTr VerbIntr

Noun … Form-I

Form-I-aa Form-I-ii…

Form-II Form-X…

Verb-I-aa-tr … Verb-X-trVerb-X-Intr

cnj:f CONJ:f

cnj:w CONJ:w

cnj:0 CONJ:nil

prt:0 PART:nil

prt:l PART:RESULT

prt:s PART:FUT

asp:P per:1 num:s

SUBJSUF_PV:1S

pro:0 OBJ:nil

pro:1S OBJ:1S

Pro:1P OBJ:1P

asp:imp V12V3

asp:p 1V2V3

Page 40: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La morphologie des dialectes

• Morphologie gabaritique et concatenative, comme pour l’ASM

• Noms– Perte des cas– Perte de la distinction entre masculin & féminin au pluriel

• Verbes– Perte des formes duales– Perte de la distinction ndicatif/subjonctif/jussif– Perte de la distinction entre masculin & féminin au pluriel (2e et

3e personnes)– Clitiques pour l’objet indirecte– Négation par préfixe, suffixe, ou circonfixe– Formes pour le progressif, l’habituel

Page 41: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La morphologie des dialectes: exemple verbal

conjverbobject subj tense

IOBJ negneg

ASMله تكتبوها ولم

walam taktubūhā lahuwa+lam taktubū+hā la+hu

and+not_past write_you+it for+him

EGYشكتبتوهالوماو

wimakatabtuhalūʃwi+ma+katab+tu+ha+lū+ʃ

and+not+wrote+you+it+for_him+not

‘et tu ne le lui as pas écrit’

Page 42: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Perfectif Imparfait

ASM

كتبkataba

Past

يكتبjaktubu

Present

يكتبسsajaktubu

Future

LEV

كتبkatab

Past

يكتبjiktob

0-Tense

يكتببbjoktob

Presenthabitual

يكتبب عم ʕam bjoktobPresentprogressive

يكتبحħajiktob

Future

La morphologie des dialectes

Page 43: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Plan

• Situation sociolinguistique

• Orthographe

• Morphologie– Faits linguistiques

– Analyseur morphologique (TAL)

– Désambiguïsation morphologique (TAL)

• Syntaxe

Page 44: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Application TAL: Analyseur morphologique

• Système qui:– Prend en entrée un mot écrit, donc une forme fléchie– Génère un lexème (=radicales, classe de

comportement morphologique) et des traits linguistiques (+pluriel, +accusatif, …)

– Donne tous les analyses possible (sans égard au contexte)

• Nous voulons:– Système bidirectionnel– Fonctionne avec les dialectes

Page 45: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Travail précédent

• Problème: morphologie se fait avec automates ou transducteurs à états finis (FST)– Insuffisant pour la morphologie gabaritique

• Beesley, Buckwalter & Newton 1989: two-level morphology with “detouring”

• Beesley & Karttunen 2000: compile-replace• Buckwalter 2002: morphologie concatenative

– Comment adapter aux dialectes?

Page 46: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Notre implémentation: Automates à bandes multiples

• MAGEAD, Habash & Rambow 2006• Suivant le travail de Kiraz (1996,2000)• 5 bandes:

– Patron– Radicales– Vocalisme– Forme de surface phonologique– Forme de surface orthographique

Page 47: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Les étapes de la génération morphologique

Lexeme and Features

Root + Abstract Morphemes

Root + Concrete Morphemes

Phonemic Form

Orthographic Form

Orthographic rules

Morphophonemic rules

Abstract Morpheme Ordering

Morpheme-Feature Mapping

Root + Ordered Abst. Morph.

Abstract-Concrete Mapping

Dialect Independent

Dialect Independent

Dialect Dependent

Dialect Dependent

Orthography Dependent

Page 48: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Exemple

V 1 t V 2 V 3

z h r

i a a

Pattern

Root

Vocalism

Phonology

Orthography

Page 49: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Exemple

Règles générique pour la phonologie

V 1 t V 2 V 3

z h r

i a a

i z t a h a r

Pattern

Root

Vocalism

Phonology

Orthography

Page 50: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Exemple

Règles morpho-phonémiques

V 1 t V 2 V 3

z h r

i a a

i z d a h a r

Pattern

Root

Vocalism

Phonology

Orthography

Page 51: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Exemple

Copier au niveau orthographique

V 1 t V 2 V 3

z h r

i a a

i z d a h a r

i z d a h a r

Pattern

Root

Vocalism

Phonology

Orthography

Page 52: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Example

Règles orthographiques

V 1 t V 2 V 3

z h r

i a a

i z d a h a r

i z d a h a r

Pattern

Root

Vocalism

Phonology

OrthographyA

Page 53: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Un analyseur pour un dialecte

• Créer la relation morphèmes abstraits – morphèmes concrets pour le dialecte

• Créer les règles morpho-phonémiques• Créer les règles orthographiques• Créer le lexique:

– Ajuster la hiérarchie des classes de comportement morphologique

– Donner une liste de lexèmes: <radicales, CCM>– Alternative: postuler des lexèmes, utiliser un modèle

probabiliste base sur des règles de changement de sons (exemple: /q/ /’/)

• Fait pour les verbes levantins

Page 54: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Plan

• Situation sociolinguistique

• Orthographe

• Morphologie– Faits linguistiques

– Analyseur morphologique (TAL)

– Désambiguïsation morphologique (TAL)

• Syntaxe

Page 55: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Ambiguïté de la morphologie arabe• Exemple: analyses possible de بين (byn)

Diac PdD Traits Lexème Significationbayyana V asp:pf g:m n:s bayyana ‘il déclara’bayyanna V asp:pf g:f n:p bayyana ‘elles déclarèrent’bayyinu Adj g:m n:s cas:nom bayyin ‘évident’ bayna P bayna ‘parmi’biyini NP prep:b yin ‘en Yen’biynu NP cas:nom biyn ‘Ben’biyni NP cas:gen biyn ‘Ben’…

• Applications TAL arabe: – Choix de la partie du discours et des traits morphologiques (= étiqueteur

morphologique)– Choix des diacritiques (=diacritisation)– Choix du lexème (=lemmatisation)

Page 56: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Ambiguïté de la morphologie arabe

0%

5%

10%

15%

20%

25%

30%

35%

40%

1 2 3 4 5 6 7 8 ormore

Analyses/Word

Pe

rce

bta

ge

of

Wo

rds

• Average overall ambiguity* is 2.5 analyses/word (sans cas/mode)

• Compare to English ENGTWOL ambiguity (1.7-2.2 analyses/word)

* In Arabic Penn Treebank 1

Page 57: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Étiquetage morphologique

• Jeu d’étiquettes pour l’anglais: 46• Jeu d’étiquettes pour l’arabe: 3000+• On ne peut pas simplement entraîner un

étiqueteur traditionnel, par exemple basé sur machine de Markov cachée (HMM)

• 2 options:– Réduire la taille du jeu d’étiquettes en éliminant des

distinctions (Diab et al 2004)– Utiliser un analyseur morphologique pour réduire les

possibilités (Hajič 2001)

Page 58: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

MADA (Habash & Rambow 2005)• Utilise un analyseur morphologique (BAMA) qui produit les

analyses possible du mot d’entrée, par exemple بين (byn)Diac PdD Traits Lexème Significationbayyana V asp:pf g:m n:s bayyana ‘il déclara’bayna P bayna ‘parmi’biyini NP prep:b yin ‘en Yen’biyni NP cas:gen biyn ‘Ben’…

• MADA fait un choix parmi les analyses; en MEME TEMPS:– Étiquetage morphologique– Diacritisation– Lemmatisation

Page 59: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

MADA (Habash & Rambow 2005)

Morphological Analyzer

TOKAN

User Applications

Formatted Arabic Text (Buckwalter)Arabic Text

Sets of Ranked Analyses &

Features

Tokenized Buckwalter Text

MADAFeature

Predictions

SVM Classifiers

Formatting Script

Analysis Ranker

Sets of Analyses & Features

Page 60: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Traits utilisés par MADA

Noms• Nombre• Genre• Cas• Défini/indéfini• Clitique possessive• Présence de ‘Al’

Tous les mots• Clitique de conjonction• Préposition/particule clitique• Modèle 4-gram des lexèmes

Verbes• Aspect• Voix• Mode• Accord sujet• Clitique Objet

Page 61: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

W-3 W-2 W-1 W0 W1 W2 W3 W4W-4

ANALYSEUR MORPHOLOGIQUE

CLASSIFIEURS MORPHOLOGIQUES

• Créé a la main

• Règles

• Entrainés sur corpus

2nd

3rd

5th4th

1st

RANKER

• Entrainé sur corpus

MADA: Choix de la meilleure analyse

Page 62: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Performance des classificateurs

Classifiers: Art, Aspect, Case, Clitic, Conj, Def, Gen, Idafa, Mood, Num, Part, Per, Pos, Voice

75.0

80.0

85.0

90.0

95.0

100.0

Art

Asp

ect

Ca

se

Clit

ic

Co

nj

De

f

Ge

n

Ida

fa

Mo

od

Nu

m

Pa

rt

Pe

r

Po

s

Vo

ice

MFT Baseline SVM

SVMTools does slightly worse than Yamcha, but is x13 faster

Page 63: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Résultats pour MADA

Métrique

D’évaluation

Correction de MADA (%)

PdD correct 96.4

Lexème correct 96.4

Diacritiques correctes (toutes les diac)

86.2

Choix d’analyse correcte 83.9

Note: si on exclut le cas et le mode, les résultats sont nettement meilleurs

Page 64: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Plan

• Situation sociolinguistique

• Orthographe

• Morphologie

• Syntaxe

Page 65: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Syntaxe de la Phrase

Deux types de phrase en arabe • Phrase verbale

– [Verb Subject Object] (VSO)– االشعار كتب االوالد

Wrote the-boys the-poemsThe boys wrote the poems

• Phrase à copule– [Topic Complement]– شعراء االوالد

the-boys poetsThe boys are poets

Page 66: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Phrases verbale

• Verb agreement with gender only– \ االوالد الولد wrote3MascSing the-boy/the-boys كتب– \تكتب البنات البنت wrote3FemSing the-girl/the-girls

• Pronominal subjects are conjugated– ت�كتب wrote-youMascSing

– تمكتب wrote-youMascPlur

– واكتب wrote-theyMascPlur

• Passive verbs– Same structure: Verbpassive SubjectunderlyingObject

– Agreement with surface subject

Page 67: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Phrases à copule

• [Topic Complement]Definite Topic, Indefinite Complement– شاعر الولد

the-boy poetThe boy is a poet

• [Auxiliary Topic Complement]Auxiliaries (kāna and her sisters)– Tense, Negation, Transformation, Persistence – شاعرا كان الولد was the-boy poet The boy was a poet– شاعرا ليس الولد is-not the-boy poet The boy is not a poet

• Inverted order is expected in certain cases– Indefinite topic

كتاب ʕandi kitābun/ at-me a-book I have a book/ عندي

Page 68: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Phrases à copule:types de compléments

• Nom/Adjectif– ذكيالولد the-boy smart The boy is smart

• Syntagme prepositionnel– المكتبة الولد في the-boy in the-library The boy is in the

library• Phrases à copule

– كبير الولد كتابه [the-boy [book-his big]] The boy, his book is big

• Phrase verbale– االشعار كتبوااالوالد

[the-boys [wrote-they poems]] The boys wrote the poems– Full agreement in this order (SVO)– االوالد كتبهااالشعار (OVS)

[the-poems [wrote-it the boys]] The poems, the boys wrote

Page 69: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Syntaxe du nom

• La modification par adjectif:– N Adj– Accord en nombre, genre, cas, définition

• La construction possessive « Idafa » (اضافة): ‘N1 de N2’– N1-constructif N2-génitif– االردن ملك

roi Jordanie‘le roi de Jordanie’

• N1 hérite la définition de N2 (défini, indéfini)• Chaines d’Idafa

– N1constr N2

constr … Nn-1constr Nn

def ou indef

– الشركة ادارة مجلس رئيس جار عم ابنfils oncle voisin chef comite administation l’entrepriseLe cousin du voisin du PDG de l’entreprise

Page 70: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La syntaxe des dialectes: noms

• Idafa construction – Noun1 of Noun2 encoded structurally– االردن ملك

king Jordanthe king of Jordan / Jordan’s king

• Dialects have an additional common construct– Noun1 <particle> Noun2 – LEV: االردن تبع the-king belonging-to Jordan الملك– <particle> differs widely among dialects

• Pre/post-modifying demonstrative article– MSA: الرجل هذا this the-man this man– EGY: ده الراجل the-man this this man

Page 71: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La syntaxe des dialectes: phrases

• The children wrote poems• MSA

– Verb Subject Object (Partial agreement)االشعار كتب االوالد

wrotemasc the-boys the-poems– Subject Verb Object (Full agreement)

االشعار كتبوااالوالد the-boys wrotemascPlural the-poems

• LEV, EGY– Subject Verb Object

االشعار كتبواالوالد The-boys wrotemascPlural the-poems

– Less present: Verb Subject Object االشعار كتبو االوالد

wrotemascPlural the-boys the-poems– Full agreement in both order

Page 72: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

L’analyse des dialectes arabes:le problème pour le TAL

Banque d’arbres

Parser

Gros corpus

- Dialecte - - ASM -

بيحبو الشغل شاالزالمهادا

بيحبو

الشغلشاالزالم

هاداmen

like

work

this

not

?Petit corpus

Page 73: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La transduction de la grammaire (Chiang et al 2006, Chiang & Rambow 2006)

- Dialect - - MSA -

TAG = Tree Adjoining Grammar

Probabilistic

TAG

Tree Transduction

Treebank

Parser

Probabilistic

TAG

ش بيحبو االزالمهادا الشغل

بيحبو

الشغلشاالزالم

هادا

Page 74: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La transduction de la grammaire

• Transformer le modèle d;analyse pour ASM en un modèle d’analyse pour le dialecte

• Plus précisément: en un modèle d’analyse synchrone ASM-dialecte

• Le modèle d’analyse est défini en termes de dérivations en TAG (tree adjoining grammar)

Page 75: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Tree-Adjoining Grammar

Page 76: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

La transformation d’une TAG

• Nous spécifions des transformations sur des arbres elementaires

Page 77: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Les probabilités de transformation

• Ajouter des probabilités de correspondance P(TLev|TMSA)

Page 78: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Modèle de probabilité

arg max P(TLev) ≈ arg max P(TLev, TASM)

= arg max P(TLev|TASM) P(TASM)

Appris dans la banque

d’arbres pour l’ASM

Probasde

correspondence

Pour analyser, trouver:

Page 79: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Modèle de probabilité

• La lexicalisation crée un ensemble de correspondences LEV > SMA qui est enorme

• Faire un backoff: modéliser independemment la correspondance de la partie non-lexicalisée et des mots

Page 80: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Transformations

• Transformation VSO à SVO

• Négation:

Page 81: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Transformations

• ‘want’

Page 82: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Resultats

Recall Prec F1Baseline 62.5 63.9 63.2

Petit lexique 67.0 67.0 67.0

VSO→SVO 66.7 66.9 66.8negation 67.0 67.0 67.0

‘want’ 67.0 67.4 67.2

negation+‘want’ 67.1 67.4 67.3

Page 83: Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

Conclusion

• Pour faire le TAL de l’arabe, il faut:– comprendre les faits linguistiques;– les modéliser de façon adéquate;– et maîtriser des techniques formelles et

computationelles diverses!

• La linguistique est importante!