languages lse

23
2012 LSE MI Conference on Text-Mining Methods A corpus-based approach to the categorization of minority languages Giancarlo Luxardo EEE (Europe, Européanité, Européanisation) – CNRS Université Michel de Montaigne Bordeaux 3 Maison des Sciences de l'Homme d'Aquitaine

Upload: giancarlo-luxardo

Post on 05-Jul-2015

844 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Languages lse

2012 LSE MI Conference on Text-Mining Methods

A corpus-based approach to the categorization of minority languages

Giancarlo Luxardo

EEE (Europe, Européanité, Européanisation) – CNRSUniversité Michel de Montaigne Bordeaux 3

Maison des Sciences de l'Homme d'Aquitaine

Page 2: Languages lse

2012 LSE MI Conference on Text-Mining Methods

1 - A text corpus about categorization of minority languages in Europe

2 - Classification in “lexical worlds”

3 - Corpus partition and authors specificities

4 - Correspondence analysis

Page 3: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Page 4: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Page 5: Languages lse

2012 LSE MI Conference on Text-Mining Methods

“regional or minority languages” means languages that are:

i) traditionally used within a given territory of a State by nationals of that State who form a group numerically smaller than the rest of the State's population; and

ii) different from the official language(s) of that State; it does not include either dialects of the official language(s) of the State or the languages of migrants;

European Charter for Regional or Minority Languages, 1992

Page 6: Languages lse

2012 LSE MI Conference on Text-Mining Methods

1 - A text corpus about categorization of minority languages in Europe

➔ A corpus assembled with linguistic or legal texts➔ Information Retrieval: keywords-based navigation➔ Intertextuality: recognize the associations➔ Different disciplinary approaches: linguistic, geographic,

legal...➔ Different languages: French, English, Russian...➔ Objective: identify a typology of notions about languages

based on their interrelationships (not: a classification scheme for the languages)

Page 7: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Excerpt example

« Un linguiste russe, Aleksandr Kibrik, a (…) établi une liste des langues "en voie de disparition" en ex-URSS : selon lui, prés de cent trente langues étaient alors parlées sur ce territoire, dont certaines comme le iough ou le kerek par deux ou trois personnes seulement. En même temps, elles ne servent pas exactement aux mêmes choses, ne véhiculent pas les mêmes contenus, ne régulent pas les mêmes rapports sociaux. Comment évaluer l’importance relative de ces langues ? Certains adjectifs mal définis servent parfois à en donner une idée : langues minoritaires, régionales, petites langues, langues moins parlées pour les unes, langues véhiculaires, grandes langues, langues internationales pour les autres... Mais ces classifications sont loin d’être univoques et relèvent plus de l’idéologie ou des rapports de force que de la science ».

Calvet, Louis-Jean. – « La guerre des langues et les chances d’un véritable plurilinguisme » in : Langues : une guerre à mort, Panoramiques, n°48, 2000, pp.10-16 [p.12].

Page 8: Languages lse

2012 LSE MI Conference on Text-Mining Methods

… another example

Once again, the stress must be on the speech network and the speech community. We need to learn to keep our eyes on the ball and to more often study minority and other threatened languages in situ, where language behaviour actually and unselfconsciously lives. Of course, we need to study authority structures, reward systems and organisations too, as most of us have long been doing, but the balance is now too far in that direction and some redirection of emphasis would seem to be very much in order.

Fishman, Joshua A.. -“Endangered Minority Languages: Prospects for Sociolinguistic Research”, In: Protecting Endangered Minority Languages: Sociolinguistic Perspectives, International Journal on Multicultural Societies (IJMS), Vol. 4, No. 2, 2002, UNESCO, 2002, pp. 275 [p. 274].

Page 9: Languages lse

2012 LSE MI Conference on Text-Mining Methods

A sub-corpus in French: CLME(Catégories de Langues Minoritaires en Europe)

● Types of sources: single author monographs, collective publication, journal report,experts report (EU)

● Dimension:207 excerpts25 authorsOccurrences: 23 000Words: 4 200Lemmas: 3 100

Page 10: Languages lse

104 notions identified

1 créole 2 dialecte 3 dialecte régional 4 idiome 5 langue ancestrale 6 langue autochtone 7 langue commune 8 langue de communication 9 langue de communication interethnique 10 langue de diaspora 11 langue de la communauté 12 langue de la diaspora 13 langue de la dispersion 14 langue de l’émigration et de la diaspora15 langue de migrants 16 langue de minorité nationale 17 langue dépourvue de territoire 18 langue des colonisés 19 langue des immigrants 20 langue des migrants21 langue des pays colonisés 22 langue d’Etat23 langue d’immigration24 langue d’isolat

25 langue dominante minoritaire26 langue dominée27 langue dominée écrite28 langue dominée non-écrite29 langue d’origine30 langue du peuple31 langue en diaspora32 langue en voie de disparition 33 langue et culture locales 34 langue grégaire 35 langue historique 36 langue historique de l’Europe 37 langue identitaire 38 langue identitaire ou grégaire 39 langue locale 40 langue maternelle 41 langue menacée 42 langue migrante 43 langue minorée 44 langue minoritaire 45 langue mixte 46 langue moins parlée 47 langue moins répandue

Page 11: Languages lse

48 langue nationale 49 langue native 50 langue naturelle 51 langue non-écrite 52 langue non-nationale 53 langue officielle 54 langue périphérique 55 langue première 56 langue propre 57 langue propre à un territoire 58 langue régionale 59 langue régionale minoritaire 60 langue régionale et minoritaire 61 langue régionale ou minoritaire 62 langue régionale ou minoritaire historique 63 langue sans assise territoriale 64 langue sans Etat 65 langue seconde 66 langue spécifique 67 langue allogène68 langue et culture régionale69 langue immigrée 70 langue territoriale 71 langue créole 72 langue des minorités 73 langue de famille 74 langue frontalière 75 langue pidgin 76 langue secondaire

77 langue véhiculaire 78 langue de l’immigration 79 langue de population migrante 80 langue de population nomade ou semi-nomade 81 langue locale historique 82 langue traditionnelle 83 modalité insulaire 84 parler 85 parler dialectal 86 parler périphérique 87 parler vernaculaire 88 parler local 89 parler régional 90 patois 91 patois local 92 petite langue 93 première langue 94 sabir 95 variante dialectale 96 variante locale 97 variété 98 variété îlienne 99 variété insulaire 100 variété linguistique 101 variété linguistique propre 102 variété régionale 103 variété dialectale 104 vernaculaire

Page 12: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Author variable S. AIROLDIS. AKINP. BIDARTP. BLAIRH. BOYERM. BRUNEAUL.-J. CALVETJ.-F. COUROUAUG. DRETTASO. DUCROT – T. TODOROVB. GIBLINH. GUILLORELA. HERDAMG. JETCHEVN. KOULAYANJ.-L. LEONARDY. LESPOUXJ.-B. MARCELLESIF. ROLLANF. SCHANENS. SINTASA. VIAUTJ.M.WOEHRLINGCommission Européenne (Euromosaic)

Page 13: Languages lse

2012 LSE MI Conference on Text-Mining Methods

2 - Classification in “lexical worlds”

● The CLME corpus is submitted to Alceste● Hierarchical Descendant Classification ● 5 classes are identified● 77 % of Elementary Context Units are classified

Page 14: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Page 15: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Five emergent topics

(1) catalan, enseignement, variété, propre, loi, castillan, insulaire → aménagement linguistique, Espagne (Sintas)

(2) territoire, traditionnel, charte, dépourvu, pratiquer, aire, article, historique, lien, minoritaire, migrant, déclaration, géographie → Charte européenne des langues régionales et minoritaires

(3) dominer, peuple, exclusif, conflit, analyse, diglossie, social, colonial, idéologie, contact, situation → colonisation (Boyer)

(4) défense, francophone, anglais, périphérique, petit, mondial, supercentrale, hypercentrale, europe → défense de la francophonie (Calvet)

(5) dialecte, français, parlers, nation, patois, état, culture → dialectes (français, allemand)

Page 16: Languages lse

2012 LSE MI Conference on Text-Mining Methods

CLME corpus imported with TXM

Page 17: Languages lse

2012 LSE MI Conference on Text-Mining Methods

3 - Corpus partition and authors specificities

● AKIN : territoire, dépourvu, immigration, kurde● BOYER : sociolinguistique, diglossique, conflit, représentation,

résistance, dominer, occitan, résistance, faveur, partager, inscrire

● CALVET (articles) : droit, défense, France, francophonie, périphérique, défendre, PLC [politico-linguistiquement correct], central, réclamer, galicien, ratification, peur

● CALVET (ouvrages) : droit, exclusif, local, dialecte, colonial, pays, coloniser, choisir, superstructure, libération, endogène, oppression, exogène

● KOULAYAN : diaspora, maternel, origine, diasporique, natif● MARCELLESI : régional, référer, classe, corse, hégémonique,

étendue, ressort, oïl

Page 18: Languages lse

2012 LSE MI Conference on Text-Mining Methods

4 - Correspondence Analysis (1)

Page 19: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Identify “notion items” in the lexical tables

dialecte 64 langue dominante 26 langue dépourvue de territoire 7

langue régionale 35 langue régionale ou minoritaire 25 langue commune 6

patois 35 langue nationale 23 langue d'origine 6

langue minoritaire 34 langue locale 15 langue de communication 5

langue officielle 32 langue d'Etat 13 langue de diaspora 5

parler 28 langue propre 12 langue en diaspora 5

langue dominée 26 langue de migrants 7 langue identitaire 5

langue maternelle 26 petite langue 5

Page 20: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Correspondence Analysis (2)

Page 21: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Categorisation attempt

● les « territorialistes » : SINTAS, COMMISSION, VIAUT (langue propre, langue d'Etat) ● les « identitaires » : DRETTAS, KOULAYAN, HERDAM, AKIN (langue d'origine, langue maternelle, langue dépourvue de territoire) ● les « politistes » : CALVET-ouvrage, BOYER, DUCROT (langue nationale, langue dominante, langue dominée, langue locale) ● les « historiques » : BLAIR, MARCELLESI, WOEHRLING, GUILLOREL (langue traditionnelle, langue commune, langue régionale, langue de migrants)

Page 22: Languages lse

2012 LSE MI Conference on Text-Mining Methods

notion items in English� �

dialect 37 variety 8 national language 4

minority language 22 mixed language 8 fusion language 4

regional language 16 IM language 7 RM language 3

vernacular 14 creole 5 Jewish language 3

state language 11 patois 4 community language 3

official language 11 stateless language 4 endangered language 3

IM: immigration minorityRM: regional minority

Page 23: Languages lse

2012 LSE MI Conference on Text-Mining Methods

Thanks for listening!