Introduction à la Introduction à la linguistique de corpuslinguistique de corpus
De la définition, élaboration et De la définition, élaboration et application des corpus dans application des corpus dans
l ’étude des langues l ’étude des langues naturellesnaturelles
ConcordancesConcordances
LDP terms don't allow modification ( other than translation), modified ver sions can
I said that there had to be something better than xmag, well this is it. See section
way of this. If you are using a Kernel newer than 1.3.75, just type linux no-scroll at
included it, so if you get a version later than 740, you probably won't have to do
patch. This does not apply to kernels earlier than 1.3.75. *** console.c~ Fri Mar 15
Braille Lite This is more a portable computer than a terminal. It could, however, be used
DéfinitionDéfinition 1981: Sinclair,1981: Sinclair,Corpus, Corpus,
Concordance,CollocationConcordance,Collocation = Ouvrage = Ouvrage définitoire de la linguistique de corpus: définitoire de la linguistique de corpus: env. 15 ans après l’apparition des env. 15 ans après l’apparition des premiers corpus informatisés tels que le premiers corpus informatisés tels que le Survey of English UsageSurvey of English Usage ou le ou le Brown Brown CorpusCorpus
Collecte, annotation et utilisation de Collecte, annotation et utilisation de corpus de langue parlée ou écrite pour corpus de langue parlée ou écrite pour étudier les phénomènes de la langue à étudier les phénomènes de la langue à l'aide de logiciels d'interrogation ne l'aide de logiciels d'interrogation ne nécessitant pas de connaissances nécessitant pas de connaissances informatiques approfondies.informatiques approfondies.
Domaines connexesDomaines connexes
En anglais: distinction entre Corpus En anglais: distinction entre Corpus linguistics, computational philology, linguistics, computational philology, computational linguistics, language computational linguistics, language engineering.engineering.
En français: on parle surtout de En français: on parle surtout de traitement automatique du langage traitement automatique du langage (TAL). (TAL). Il y a parfois confusion entre TAL et Il y a parfois confusion entre TAL et linguistique de corpus.linguistique de corpus.
Définition des trois autres Définition des trois autres disciplinesdisciplines
"Philologie computationnelle": L'utilisation "Philologie computationnelle": L'utilisation de matériau textuel sur support électronique de matériau textuel sur support électronique afin d'étudier les phénomènes linguistiques afin d'étudier les phénomènes linguistiques et l'enseignement des langues.et l'enseignement des langues.
Traitement automatique du langage: Traitement automatique du langage: l'analyse et la modélisation automatiques du l'analyse et la modélisation automatiques du langage en utilisant des langages de langage en utilisant des langages de programmation.programmation.
Ingénierie linguistique: la création et Ingénierie linguistique: la création et l'application de corpus dans des logiciels de l'application de corpus dans des logiciels de traitement du langage, tels que la traitement du langage, tels que la traduction automatique, etc.traduction automatique, etc.
La linguistique de corpus La linguistique de corpus et la linguistiqueet la linguistique
Approche IA vs Approche Approche IA vs Approche probabilisteprobabiliste
Deux facteurs: l’œuf et la Deux facteurs: l’œuf et la poulepoule
Position théorique: décrire la Position théorique: décrire la langue au niveau de la langue au niveau de la performanceperformance
Disponibilité croissante de Disponibilité croissante de documents sur support documents sur support électronique, ainsi que d’outils de électronique, ainsi que d’outils de manipulation des donnéesmanipulation des données
Deux « camps »Deux « camps »
Linguistique de corpus / approche Linguistique de corpus / approche probabilisteprobabiliste
Grammaire générative / approche IAGrammaire générative / approche IA
Approche probabilisteApproche probabiliste
Basée sur des propriétés Basée sur des propriétés statistiques du langagestatistiques du langage
S ’appuie sur des données S ’appuie sur des données authentiquesauthentiques extraites de tous extraites de tous les domaines du discoursles domaines du discours
Le courant générativisteLe courant générativiste
N. Chomsky: N. Chomsky: Syntactic Structures Syntactic Structures l ’intuition du locuteur natifl ’intuition du locuteur natif rejet des corpusrejet des corpus
TALTAL Intelligence ArtificielleIntelligence Artificielle psychologie cognitivepsychologie cognitive
Noam ChomskyNoam Chomsky
1957: 1957: SyntacticSyntactic StructuresStructures, The , The Hague: Mouton, p. 159Hague: Mouton, p. 159
Any natural corpus will be skewed. Any natural corpus will be skewed. Some sentences won’t occur Some sentences won’t occur because they are obvious […], because they are obvious […], false, […] impolite. […]the false, […] impolite. […]the description […] would be no more description […] would be no more than a mere list.than a mere list.
Systèmes « jouets »Systèmes « jouets »
Whatever is linguistic is interestingWhatever is linguistic is interesting A ticket was bought by every manA ticket was bought by every man The man with the telescope and The man with the telescope and
the umbrella kicked the ballthe umbrella kicked the ball Hans bekommt von dieser Frau ein Hans bekommt von dieser Frau ein
BuchBuch Maria è andata a Roma con AnnaMaria è andata a Roma con Anna
Fillmore: Fillmore: The corpus The corpus linguistlinguist
He has all the primary facts that he He has all the primary facts that he needs, in the form of a corpus of needs, in the form of a corpus of approximately one zillion running approximately one zillion running words, and he sees his job as that of words, and he sees his job as that of deriving secondary facts from his deriving secondary facts from his primary facts. At the moment, he is primary facts. At the moment, he is busy determining the relative busy determining the relative frequencies of the eleven parts of frequencies of the eleven parts of speech for the first word of a sentence speech for the first word of a sentence versus the second word of a sentenceversus the second word of a sentence
Fillmore: Fillmore: The armchair The armchair linguistlinguist
He sits in a deep soft armchair, with He sits in a deep soft armchair, with his eyes closed and his hands his eyes closed and his hands clasped behind his head. Once in a clasped behind his head. Once in a while he opens his eyes, sits while he opens his eyes, sits abruptly shouting, ‘Wow, what a abruptly shouting, ‘Wow, what a neat fact!’, grabs his pencil, and neat fact!’, grabs his pencil, and writes something down… having writes something down… having come close to knowing what come close to knowing what language is really like.language is really like.
Guerre de territoireGuerre de territoire
Plus personne ne nie la nécessité des corpus Plus personne ne nie la nécessité des corpus en lexicologie et terminologie…en lexicologie et terminologie…
… … en syntaxe et sémantique, les deux en syntaxe et sémantique, les deux écoles survivent:écoles survivent:
Les jugements portés par les locuteurs natifs Les jugements portés par les locuteurs natifs sur la grammaticalité d’une phrase vs sur la grammaticalité d’une phrase vs toute description doit se fonder sur des toute description doit se fonder sur des faits observablesfaits observables
=> Incidences sur la position par rapport => Incidences sur la position par rapport aux stuctures figées vs libres dans la aux stuctures figées vs libres dans la languelangue
Tournant en TALTournant en TAL
Besoins très vastes en données Besoins très vastes en données lexicales et syntaxiqueslexicales et syntaxiques
Description syntaxique très préciseDescription syntaxique très précise Extraire les informations Extraire les informations
directement des données directement des données authentiquesauthentiques
Analyses quantitativesAnalyses quantitatives
I. DéfinitionI. Définition
Qu’est-ce qu ’un corpus?Qu’est-ce qu ’un corpus?
CorpusCorpus
Ensemble de textes dans une base de Ensemble de textes dans une base de données sur support données sur support électroniqueélectronique......
Ensemble structuré de textes Ensemble structuré de textes assemblés assemblés spécifiquementspécifiquement pour pour l l ’analyse’analyse linguistiquelinguistique......
VasteVaste ensemble de textes... ensemble de textes... Ensemble de textes Ensemble de textes représentatifsreprésentatifs
du langage en général...du langage en général...
Mais...Mais...
Historiquement, les premiers corpus Historiquement, les premiers corpus n’existaient même n’existaient même pas sous pas sous forme électroniqueforme électronique..
Un corpus pouvant servir à l’étude Un corpus pouvant servir à l’étude linguistique n’a pas linguistique n’a pas forcémentforcément été rassemblé dans ce but.été rassemblé dans ce but.
De plus...De plus...
Un corpus Un corpus n’a pas forcément n’a pas forcément besoin d ’être gigantesquebesoin d ’être gigantesque, ni , ni de constituer un échantillon de constituer un échantillon représentatif de toute la langue.représentatif de toute la langue.
Sa taille et son contenu dépendent Sa taille et son contenu dépendent de l de l ’usage’usage que l’on veut en faire. que l’on veut en faire.
Un corpus peut être Un corpus peut être composé de:composé de:
Texte completTexte complet Ensemble de textes completsEnsemble de textes complets Echantillons extraits de textes Echantillons extraits de textes
completscomplets Ensembles de citationsEnsembles de citations DictionnaireDictionnaire Gigantesque archive non structurée Gigantesque archive non structurée
de textesde textes
Archives et Bases de Archives et Bases de donnéesdonnées
Corpus : compilation Corpus : compilation systématiquesystématique et et structuréestructurée
archive: assemblage archive: assemblage gigantesquegigantesque, , nonnon structuréstructuré de textes de textes généralement récoltés un peu généralement récoltés un peu au au hasardhasard
Une archive est composée Une archive est composée dede
Les oeuvres complètes d’un ou de Les oeuvres complètes d’un ou de plusieurs auteursplusieurs auteurs
Tous les numéros d ’un journal sur Tous les numéros d ’un journal sur une ou plusieurs annéesune ou plusieurs années
Tous les textes connus d’une Tous les textes connus d’une période historique particulièrepériode historique particulière
Peut être utilisée dans les mêmes Peut être utilisée dans les mêmes buts qu’un corpusbuts qu’un corpus
Définitions par les expertsDéfinitions par les experts
Sinclair 1994:Sinclair 1994:
A collection of pieces of language A collection of pieces of language that are selected and ordered that are selected and ordered according to explicit linguistic according to explicit linguistic criteria in order to be used as a criteria in order to be used as a sample of the languagesample of the language
Experts IIExperts II
Francis 1992:Francis 1992:
a collection of texts assumed to be a collection of texts assumed to be representative of a given representative of a given language, dialect, or other subset language, dialect, or other subset of language, to be used for of language, to be used for linguistic analysislinguistic analysis
Experts IIIExperts III
Mc Ennery and Wilson 1996:Mc Ennery and Wilson 1996:
(1) (loosely) any body of text; (2) (1) (loosely) any body of text; (2) (most commonly) a body of (most commonly) a body of machine-readable text; (3) (more machine-readable text; (3) (more strictly) a finite collection of strictly) a finite collection of machine readable text, sampled to machine readable text, sampled to be maximally representative of a be maximally representative of a language or varietylanguage or variety
Donc...Donc...
Un corpus est sélectionné et assemblé Un corpus est sélectionné et assemblé à l’aide de critères explicites. à l’aide de critères explicites.
Il est stocké sous forme électronique. Il est stocké sous forme électronique.
L’usage pour lequel le corpus est L’usage pour lequel le corpus est prévu, peut parfois, plutôt que sa prévu, peut parfois, plutôt que sa conception, servir à définir ce qu’est conception, servir à définir ce qu’est un corpus.un corpus.
Corpus pré-électroniquesCorpus pré-électroniques
Un peu d’histoire…Un peu d’histoire…
Tradition d’études de Tradition d’études de corpuscorpus
Biblique ou littéraireBiblique ou littéraire LexicologieLexicologie DialectologieDialectologie Enseignement des languesEnseignement des langues Grammaire descriptiveGrammaire descriptive
La BibleLa Bible
1736 Alexander Cruden publie la 1736 Alexander Cruden publie la première édition de concordancespremière édition de concordances– mots à contenu sémantique pleinmots à contenu sémantique plein– mots grammaticauxmots grammaticaux– mots composé (mots composé (how long, how how long, how many) many)
et expressions figées ? et expressions figées ? (all the (all the nationsnations)) (collocations(collocations))
Sur le même modèle: Oeuvres Sur le même modèle: Oeuvres littéraires (Shakespeare)littéraires (Shakespeare)
LexicographieLexicographie
Début du 17e en Grande-Bretagne:Début du 17e en Grande-Bretagne:Dictionary of the English LanguageDictionary of the English Language: 40 : 40
000 entrées, 150 000 citations sur 000 entrées, 150 000 citations sur fichesfiches
Oxford English DictionaryOxford English Dictionary: environ 70 : environ 70 ans, dernier volume en 1928ans, dernier volume en 1928Oeuvres littéraires remontant jusqu ’à Oeuvres littéraires remontant jusqu ’à
l’an mille:l’an mille:
414 825 entrées, 5 millions de citations414 825 entrées, 5 millions de citations
DialectologieDialectologie
Récolte systématique de données du Récolte systématique de données du langage parlé langage parlé
Textes écrits dans les variantes ou Textes écrits dans les variantes ou patoispatois
1921-1926: 1921-1926: Dictionnaire historique du Dictionnaire historique du parler neuchâtelois et suisse romandparler neuchâtelois et suisse romand
= premier dictionnaire différentiel = premier dictionnaire différentiel scientifique de la francophoniescientifique de la francophonie
L’enseignement des L’enseignement des langueslangues
Käding (1890): 11 millions de mots : Käding (1890): 11 millions de mots : informations statistiques sur la informations statistiques sur la fréquence d’apparition de lettres et fréquence d’apparition de lettres et de séquences de lettres => de séquences de lettres => améliorer les performances des améliorer les performances des sténographessténographes
Thorndike 1921 et 1944 (avec Lorge): Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de de 4,5 à 18 millions de mots: listes de fréquences => enseignement de fréquences => enseignement de l ’anglais aux natifs et non natifsl ’anglais aux natifs et non natifs
Grammaire descriptiveGrammaire descriptive
Jespersen: journaux et romansJespersen: journaux et romans Fries: précurseur en linguistique Fries: précurseur en linguistique
descriptive et sociolinguistiquedescriptive et sociolinguistique– 1940: 1940: American English GrammarAmerican English Grammar
(lettres envoyées au gouvernement (lettres envoyées au gouvernement des E.-U., toutes origines socio-des E.-U., toutes origines socio-culrturelles)culrturelles)
– 1952: 1952: The Structure of EnglishThe Structure of English retranscriptions de conversations retranscriptions de conversations téléphoniques enregistréestéléphoniques enregistrées
ObjectifsObjectifs
Corpus généraux ou à objectifs Corpus généraux ou à objectifs générauxgénéraux
corpus équilibréscorpus équilibrés corpus spécialiséscorpus spécialisés
– corpus d ’entrainementcorpus d ’entrainement– corpus de testcorpus de test– corpus régionaux, de dialectes, non corpus régionaux, de dialectes, non
standardstandard– corpus d ’apprenantscorpus d ’apprenants
corpus écrits vs de langue parléecorpus écrits vs de langue parlée
.. Corpus écritCorpus écrit Corpus de langue parléeCorpus de langue parlée Corpus échantillonnéCorpus échantillonné Corpus annoté vs non annoté Corpus annoté vs non annoté
(données brutes)(données brutes) corpus statique vs dynamique corpus statique vs dynamique
(moniteur)(moniteur) corpus saturécorpus saturé