traitement de corpus : outils et méthodes

44
Livret du colloque de linguistique des 4 et 5 octobre 2012 à l'amphithéâtre Durkheim de la Sorbonne Traitement de corpus : outils et méthodes COLDOC 2012 Laboratoire MoDyCo (CNRS – UMR 7114) Université Paris Ouest Nanterre la Défense Université Paris Descartes

Upload: others

Post on 22-Nov-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Livret du colloque de linguistique des 4 et 5 octobre 2012 à l'amphithéâtre Durkheim de la Sorbonne

Traitement de corpus :

outils et méthodes

COLDOC 2012

Laboratoire MoDyCo (CNRS – UMR 7114) Université Paris Ouest Nanterre la Défense

Université Paris Descartes

COLLOQUE DES DOCTORANTS ET JEUNES CHERCHEURS

DU LABORATOIRE MODYCO

Traitement de corpus linguistiques :

outils et méthodes

COLDOC 2012

Sommaire

A propos du colloque .................................................................................................................................................................... 5

Comité scientifique ........................................................................................................................................................................ 7

Résumés des communications .................................................................................................................................................. 9

Posters présentés durant le colloque .................................................................................................................................. 27

Annuaire des participants ....................................................................................................................................................... 38

Remerciements ............................................................................................................................................................................ 43

5

A propos du colloque Le « COLDOC » est le colloque annuel organisé par les doctorants et jeunes chercheurs du laboratoire MoDyCo, selon une tradition qui a fait siennes les questions méthodologiques larges, et les problématiques ouvertes à l'ensemble des sciences du langage.

Cette année notre objectif est de nous interroger sur les méthodes qui émergent du travail de chacun d’entre nous sur les corpus linguistiques, et sur les outils que nous leurs associons. Il est banal de remarquer que durant les dernières décennies, notre discipline a traversé une évolution de l’objet d'étude de ses recherches : c'est dorénavant moins souvent la langue (objet a priori illimité et introspectif) et plus souvent le corpus (en tant qu'échantillon attesté de réalisations de cette langue) qui devient l'objet immédiat et central à étudier. Par ailleurs, l'essor d'internet et des ordinateurs a enrichi les perspectives sur les données linguistiques en entraînant une diversification des traitements possibles. Aujourd'hui, cette position centrale du traitement de corpus dans la recherche concerne sans doute la majeure partie de la communauté des chercheurs et doctorants en sciences du langage.

Concrètement, cette évolution semble liée à un développement des outils informatiques (navigation, collecte, outils d'aide à la transcription, outils d'analyse) qui ont transformé l'accès aux sources et affecté la démarche d'étude linguistique. Les autres communautés de recherche en sciences humaines et sociales ont apparemment, elles aussi, vu leur facette « expérimentale » s'intensifier durant la période récente.

Dans notre discipline, une partie des linguistes a continué à se pencher sur la description des structures de la langue, mais en utilisant les possibilités d’un traitement toujours plus fin des données. D’autres linguistes travaillent à l'amélioration des outils de traitement et à leur application à des « tâches » concrètes. La question de la mutualisation des données et des travaux se pose ici comme là. Cela s'accompagne d'une grande diversité d'approches selon les thèmes et les écoles, et d'une tendance des instances à accompagner ce mouvement (projets de constitutions de « grands » corpus, groupes de travail d'annotation).

Cet essor des problématiques liées aux corpus alimente un débat latent. De façon informelle, le changement est souvent présenté sous deux aspects opposés : soit sous un angle exagérément négatif (comme une « mode » réductrice, qui convient mal à la nature de la langue et inhibe le débat théorique), soit sous un angle exagérément positif (comme une révolution qui doit rendre les sciences du langage plus scientifiques parce que plus proches du « réel »).

Pour emmener la reflexion méthodologique au-delà de ces clivages, nous avons proposé aux doctorants et jeunes chercheurs qui le souhaitaient de prendre le temps d'examiner l'éventail des outils et des méthodes qui ont émergé dans cette « nouvelle vague » d'études de corpus. Nous nous inscrivons pleinement dans l'esprit de la complémentarité de l'empirique et du théorique, exprimée jadis par Francis Bacon :

L'empirique, semblable à la fourmi, se contente d'amasser et de consommer ensuite ses provisions. Le dogmatique, telle l'araignée, ourdit des toiles dont la matière est extraite de sa propre substance. L'abeille garde le milieu ; elle tire la matière première des fleurs des champs, puis, par un art qui lui est propre, elle la travaille et la digère.

Novum Organum (1620), Livre I, 95

Le cœur de notre sujet est donc cet « art de l'abeille », ce travail face au corpus linguistique qui, du moment de la collecte des énoncés/textes jusqu'à l'interprétation théorique finale et aux éventuelles

6

applications concrètes, apparaît bien comme une étape de « digestion » théorique des données empiriques du corpus.

Le comité scientifique a sélectionné 15 communications et 10 posters représentant la diversité des sciences du langage aujourd’hui et de ce qu’ont à dire les doctorants et jeunes chercheurs sur le thème du traitement de corpus linguistique, de sa conception à ses résultats. Deux éminents chercheurs ouvriront les journées par une réflexion plus large :

- Anne Condamines parlera des méthodes de linguistique outillée pour l'analyse de corpus spécialisés le jeudi 4 octobre

- Bernard Combettes parlera des apports et des limites des grands corpus informatisés pour la recherche en linguistique historique le vendredi 5 octobre

Les communications et posters sont présentés brièvement dans le présent livret. Nous espérons que ce colloque sera l’occasion pour tous les participants de remettre en perspective ce que sont les traitements de corpus, c’est-à-dire la nature de cette sorte de médiation, apparement inévitable, qui s’impose entre les linguistes et la langue.

le comité d’organisation,

Marine Damiani, Kaja Dolar, Carmen Lucia Florez-Pulido,

Romain Loth, Julien Magnier et Anne Pegaz-Paquet

7

Comité scientifique Jean-Michel ADAM (Université de Lausanne)

Delphine BATTISTELLI (STIH, MoDyCo/CNRS, Université Paris Sorbonne)

Annie BERTIN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Caroline BOGLIOTTI (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Bernard COMBETTES (ATILF/CNRS, Université de Lorraine)

Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail)

Marcel CORI (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Flore COULOUMA (CREA, Université Paris Ouest Nanterre)

Guillaume DESAGULIER (MoDyCo/CNRS, Université Paris Ouest Nanterre, Université Paris 8)

Brigitte JUANALS (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Maria KIHLSTEDT (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Simon KREK (Institut Jozef Stefan, Ljubljana)

Anne LACHERET (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Bernard LAKS (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Denis LE PESANT (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Danielle LEEMAN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sabine LEHMANN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sarah LEROY (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sylvain LOISEAU (LDI/CNRS, Université Paris 13 Nord)

Dominique MAINGUENEAU (CEDITEC, Université Paris Est Créteil, IUF)

Philippe MARTIN (CLILLAC- ARP, Université Paris Diderot)

Sylvie MELLET (BCL/CNRS, Université Nice Sophia Antipolis)

Jean-Luc MINEL (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Colette NOYAU (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Christophe PARISSE (MoDyCo/CNRS, INSERM, Université Paris Ouest Nanterre)

Christiane PRENERON (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sandrine REBOUL-TOURE (SYLED, Université Paris III Sorbonne Nouvelle)

Fanny RINCK (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Clara ROMERO (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Frédérique SITRI (SYLED, Université Paris III Sorbonne Nouvelle)

Ana ZWITTER VITEZ (Institut de Linguistique Slovène Appliquée Trojina, Ljubljana)

8

9

Résumés des communications

CONFERENCE : Méthodes de linguistique outillée pour l'analyse de corpus spécialisés ............................. 10

CONFERENCE : Les grands corpus informatisés et la recherche en linguistique historique : apports et limites......................................................................................................................................................................... 11

Outils, méthodes et problèmes de traitement d’un corpus multilingue : le cas du journal Simpaticuni (Tunis, 1911-1933) .......................................................................................................................................... 12

Les usages des techniques lexicométriques en sociologie au sein d'un dispositif méthodologique : outil exploratoire ou méthode explicative ? ..................................................................................................................... 13

Analyse de la communication chez un sujet infirme moteur cérébral (IMC) : L’apport des techniques augmentatives et alternatives (l'exemple du synthé 4) ......................................................................................................... 14

Exploitation d’un corpus annoté pour l’analyse des relations causales ............................................................... 15

Choix méthodologiques pour une analyse de conversation en situation de jeu vidéo................................... 16

Enjeux, outils et méthodologie de constitution de corpus d'apprentissage ....................................................... 17

Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande .................................. 18

La transcription des langues à tradition orale : un palier d’interaction entre écriture et formalisation ................................................................................................................................................................................. 19

Ce que le corpus nous enseigne sur le lexique verbal des collégiens des lycées de Yaoundé .................... 20

Anticipatory it patterns as hedging devices: a corpus-based study of university student writing ........... 21

Sémantique du discours scientifique de Pierre Bourdieu : Construction et classification d’un corpus de travail .......................................................................................................................................................................... 22

Corpus et phraséologie : un « catalogue » de « prêt-à-parler » ? ............................................................................. 23

The Spatialization of Time in French and English: A Corpus-based Analysis .................................................... 24

Relatives narratives et relatives descriptives : entre corpus et théorie ............................................................... 25

Annotation automatique de documents pour le web sémantique .......................................................................... 26

10

CONFERENCE : Méthodes de linguistique outillée pour l'analyse de corpus spécialisés

Anne CONDAMINES ERSS UMR 5263, Université du Mirail, Toulouse

RESUME_____________________________________________________________________________________________________________

L’analyse de corpus spécialisés entretient une parenté forte avec l’analyse de corpus « généraux » :

- Elle s’appuie sur (voire prend pour objet) des données attestées.

- Cette approche relève d’une linguistique outillée.

- Les outils utilisés sont basés sur trois types d’indices (repérage de variations de forme, analyse quantitative, analyse des contextes).

- Les résultats proposés par les outils ont pour objectif d’être intégrés dans le paradigme de la linguistique et sont donc interprétés de ce point de vue.

Toutefois, l’analyse de corpus spécialisés présente aussi des caractéristiques qui lui sont propres :

- Dans la plupart des cas, les usages ne relèvent qu’en partie de la « compétence de locuteur » du linguiste qui les étudie.

- Pour cette raison, le recours à des experts du domaine langagier est incontournable dans la construction de l’interprétation. Cette collaboration expert de la lange/expert du domaine doit être interrogée.

- Il existe des outils dédiés à l’analyse de corpus spécialisés (par exemple, les extracteurs de termes candidats).

- Très souvent, l’analyse de corpus spécialisés rencontre une demande extérieure qui est prise en compte dans l’interprétation des résultats, sans que la dimension linguistique de cette interprétation soit perdue de vue.

L’exposé présentera ces similitudes et ces différences afin de détailler les spécificités de l’analyse de corpus spécialisés. Il se basera sur des exemples d’études, s’inscrivant soit dans la perspective de répondre à une demande externe d’analyse, soit dans celle de caractériser le fonctionnement des langues spécialisées par rapport à la langue générale. Ce faisant, il visera à montrer que la prise en compte d’une extériorité en lien avec la compétence des rédacteurs des textes spécialisés et/ou avec un besoin appliqué, loin de ne relever que d’une linguistique appliquée, ouvre des perspectives nouvelles pour l’analyse linguistique.

11

CONFERENCE : Les grands corpus informatisés et la recherche en linguistique historique : apports et limites

Bernard COMBETTES ATILF UMR 7118, Université de Lorraine, Nancy

RESUME_____________________________________________________________________________________________________________

Dans l'examen des changements que la pratique des corpus informatisés a pu entraîner dans le domaine de la linguistique historique, seront d'abord pris en considération les points que l'on peut considérer comme positifs. Nous passerons rapidement sur les aspects purement quantitatifs (rapidité des dépouillements, nombre important d'occurrences, "sûreté" des résultats, etc.) pour nous attacher aux aspects qualitatifs. Les corpus informatisés permettent de travailler sur une "vraie" diachronie et non seulement sur des synchronies successives : le grand nombre de données, la possibilité de travailler sur des diachronies larges, de mettre en relation des paramètres divers, tout cela a conduit à un nouveau regard sur la périodisation et, plus largement, sur la variation, qui devient un concept fondamental dans les études sur le changement.

Il faut également évoquer le nouveau type de lecture des textes qu'entraîne le travail sur corpus informatisé : la lecture linéaire habituelle se trouve remplacée par une lecture "verticale", paradigmatique, qui fait ainsi apparaître des faits que l'on ne pouvait soupçonner.

Sur un tout autre plan, le développement des grands corpus a entraîné une modification notable du fonctionnement de la communauté scientifique, dans la mesure où des chercheurs non spécialistes de diachronie s'aventurent plus facilement dans la lecture de textes anciens et voient mieux l'intérêt (grâce à la prise en compte de la longue durée) de l'histoire de la langue pour expliquer le système moderne.

Dans une deuxième partie, nous énumérerons quelques points qui nous paraissent plus négatifs et qu'il faudrait peut-être prendre en compte pour une utilisation raisonnée des grands corpus. On constate d'abord une limitation des thèmes d'étude, des sujets traités, des domaines abordés, ceci essentiellement en raison des limites des analyseurs automatiques. La syntaxe, par exemple, est vue à partir des expressions (facilement interrogeables) et non à partir des constructions ; d'où de nombreux travaux sur les catégories (démonstratifs, indéfinis, conjonctions, etc.) et beaucoup moins d'intérêt pour l'ordre des constituants, les constructions verbales, ou les temps et les modes.

On remarquera également que l'abandon (relatif) de la lecture suivie, linéaire, conduit parfois à oublier la nécessité de retourner au texte, de prendre en compte des portions importantes de contexte, et, plus généralement, éloigne des conditions réelles de production du texte. Une difficulté d'un autre ordre est constituée par l'étiquetage, l'indexation, le codage des corpus. Ces activités sont évidemment nécessaires, mais il est très difficile de cerner les notions qu'il convient de retenir, dans la mesure où les catégories elles-mêmes sont en constante évolution ; comment éviter de figer la réalité dans une description qui serait trop "moderne", anachronique ? Quelles unités (phrase, proposition, période, …) reconnaître dans le texte ?

Etant donné la qualité et l'intérêt des résultats obtenus ces dernières années, étant donné les perspectives très prometteuses, nous conclurons cet exposé sur une note "optimiste", en formulant toutefois quelques mises en garde, quelques recommandations, qui permettraient d'éviter certaines dérives.

12

Outils, méthodes et problèmes de traitement d’un corpus multilingue : le cas du journal Simpaticuni (Tunis, 1911-1933)

Meriem ZLITNI MoDyCo UMR 7114, Université Paris Ouest, Nanterre

RESUME_____________________________________________________________________________________________________________

Dans cette communication, nous voudrions présenter les outils, méthodes et problèmes de traitement d’un corpus multilingue. Un des objectifs de notre thèse est d’identifier et d’analyser, sur les plans phonologique, morphosyntaxique, sémantique et lexicologique, le tissu linguistique du Simpaticuni, journal italien, prétendu dialectal, édité à Tunis de 1911 (n°1, 25 juin) à 1933 (n°1103, 9 septembre).

Les rubriques proposées dans les colonnes du journal sont rédigées en langue italienne et en dialecte sicilien. Certaines chroniques sont écrites dans un idiome hybride, présentant un mélange entre sicilien et italien normé avec des occurrences de la variété dialectale d’arabe tunisien et du français. Ainsi, l’étude de ce corpus est destinée à mettre en lumière les phénomènes de contacts entre diverses variétés de langues, et à examiner plus particulièrement le fonctionnement de l’emprunt à l’arabe tunisien dans le tissu syntaxique des chroniques.

D’un point de vue technique, certaines caractéristiques de notre corpus, notamment la dimension importante des feuilles du journal et la présence, dans le même texte, de traits dialectaux et de variétés de langues différentes, non normées pour certaines, rendent la numérisation difficile. La saisie manuelle au clavier est la seule méthode ayant l’avantage de résoudre les problèmes de numérisation et de variation. Nous sommes également confrontés au problème de l’étendue du corpus et de sa représentativité, partielle ou dans sa totalité. La question du choix entre une étude quantitative ou bien qualitative se pose (Guiraud, 1960).

Sur un plan méthodologique, nous envisageons d’employer certains logiciels tels que Lexico 3, qui permettra de vérifier la variation (Jejcic, 1996), et Unitex, qui nous permettra d’observer, de façon systématique et rigoureuse, l’insertion des mots dans la syntaxe. Par la suite, l’utilisation d’autres outils sera probablement nécessaire. Si le choix et la hiérarchisation des logiciels s’avèrent difficiles, leur résolution demeure toutefois cruciale puisqu’ils fondent la pertinence des analyses. Et c’est cette cohérence que nous voudrions dégager dans notre communication.

MOTS-CLES : variations linguistiques ; représentativité du corpus ; numérisation ; Lexico3 ; Unitex

Références

GUIRAUD, P. (1960). Problèmes et méthodes de la statistique linguistique. Paris : Presses Universitaires de France, 145 p.

JEJCIC, F. (1996). « L’écriture de variétés de français d’oïl : approche plurielle pour le traitement informatisé des variantes graphiques de textes patois ». In MORACCHINI, G. (dir.). Bases de données linguistiques : conceptions, réalisations, exploitations. Actes du colloque international de Corte (11-14 octobre 1995). Corte : Université de Corse, p.277-293.

LAKHDHAR, A. (2006). « Fenomeni di contatto linguistico in Tunisia : la parlata mista dei siciliani di Tunisi e gli italianismi nella varietà dialettale di arabo tunisino ». In BANFI, E. ; IANNACCARO, G. (Eds). Lo spazio linguistico italiano e le “lingue esotiche”. Rapporti e reciproci influssi. Roma : Bulzoni, p.371-394.

SILBERZTEIN, M. (1998/1999). « Traitement des expressions figées avec Intex ». Linguisticae Investigationes, Tome XXII, p.425-449.

VALETTE, M. (dir.) (2008). Textes, documents numériques, corpus. Pour une science des textes instrumentée. N°9 de la revue Syntaxe et Sémantique. Caen : Presses Universitaires de Caen, 143 p.

13

Les usages des techniques lexicométriques en sociologie au sein d'un dispositif méthodologique : outil exploratoire ou méthode explicative ?

Mona ZEGAI

CRESPPA UMR 7217, Université Paris 8, Vincennes-Saint-Denis

RESUME_____________________________________________________________________________________________________________

Partant du constat que les outils lexicométriques sont encore méconnus et peu utilisés en sociologie, cette communication se propose de montrer, à partir d’un corpus constitué d’argumentaires de vente de catalogues de jouets de plusieurs enseignes généralistes et spécialisées dans le jouet analysé par le biais des logiciels Alceste et Lexico, en quoi ces techniques sont des aides précieuses à la recherche scientifique en ce qu’elles permettent au sociologue d'appréhender en quelques minutes des données qui auraient été particulièrement difficiles à traiter manuellement.

Elle s’interrogera dans une première partie sur le statut méthodologique à donner à ces outils et leur intégration dans un dispositif méthodologique à visée exploratoire ou explicative et évoquera dans une seconde la nécessaire implication du chercheur dans l’activité d’interprétation pour que ces outils puissent devenir une aide à la lecture de la réalité et que le chercheur puisse mesurer la pertinence scientifique de ses analyses. D’une part, à partir du constat d’une variabilité des résultats statistiques due au logiciel utilisé (client, version, configuration) et/ou aux choix méthodologiques effectués par le chercheur en amont de l’activité du logiciel, nous nous demanderons si ces techniques peuvent fournir des analyses utilisables dans le cadre d’une enquête scientifique et ainsi faire partie d’un dispositif méthodologique visant à l’explication de phénomènes sociaux ou si l’instabilité des résultats obtenus ne les rend utilisables que dans le cadre d’une méthode exploratoire, afin d’offrir au chercheur de nouvelles pistes de recherche. D’autre part, nous insisterons sur la nécessité, pour le chercheur, de s’interroger sur ses propres usages de ces outils afin d’éviter deux écueils qui consisteraient soit à leur attribuer un caractère presque magique en saluant leur extraordinaire potentiel d'analyse de corpus volumineux, soit à leur octroyer un caractère nécessairement dangereux en mettant en exergue l'opacité de leurs présupposés épistémologiques aidée par la fausse neutralité parfois accordée au chiffre.

MOTS-CLES : lexicométrie ; sociologie ; Alceste ; Lexico ; interprétation

Références

DEMAZIERE, D., BROSSAUD, C., TRABAL, P. et VAN METER, K. (2006). Analyses textuelles en sociologie : logiciels, méthodes, usages, Rennes : PUR.

ZEGAI, M. (2010). « La mise en scène de la différence des sexes dans les jouets et leurs espaces de commercialisation », Les Cahiers du genre, n°49, 2010, p. 35-54.

ZEGAI, M. (2009). « La variabilité des résultats d’analyse obtenus avec Alceste : richesse scientifique ou limite méthodologique ? », Journée d’étude sur la méthodologie Alceste, Image, Carcassonne, Août 2009. Résumé de communication publié dans le Bulletin de Méthodologie Sociologique n°104, Octobre 2009, p. 41-42.

14

Analyse de la communication chez un sujet infirme moteur cérébral (IMC) : L’apport des techniques augmentatives et alternatives (l'exemple du synthé 4)

Naïma BEN BOURENANE MoDyCo UMR 7114, Université Paris Descartes, Paris

RESUME_____________________________________________________________________________________________________________

La littérature nous renseigne sur la diversité des aides à la communication pour des enfants infirmes moteurs cérébraux (IMC) sans l’usage de la parole et/ou du langage. Ces aides sont présentées sous une forme codifiée ou « technologisée ». Leur importance sur le plan de la médiation et de la dynamique dialogique a peu bénéficié d’approches scientifiques jusque-là. Notre étude essaye de clarifier l’apport des techniques augmentatives et alternatives à la communication des IMC. Elle s’inscrit dans une réflexion globale sur la diversité des conduites linguistiques en fonction des situations de communication. Elle est d’orientation psycholinguistique. Nous la proposons comme une recherche du modèle de la planification du discours chez l’IMC et comme un exemple de l’apport de la linguistique à l’étude de la pathologie du langage.

MOTS-CLES : infirmité motrice cérébrale ; communication alternative et augmentative (CAA) ; synthèse vocale ; interaction verbale ; neuro-psycholinguistique

BEN BOURENANE, N. (2007). (Vol 1 & Vol 2). Analyse des interactions verbales chez un sujet infirme moteur cérébral (IMC). Apport des techniques augmentatives et alternatives : L’exemple de « synthé 4 », Thèse de doctorat de troisième cycle, Université René Descartes (Paris V)

MARCHAND, M. H. (1998). « Des moyens différents pour communiquer et développer le langage. » Rééducation Orthophonique : L’infirmité motrice d’origine cérébrale, 193, 91-116

MONFORT, M. et JUAREZ-SANCHEZ, A. (1998). Les systèmes de communication alternative chez l’enfant IMC. Rééducation Orthophonique : L’infirmité motrice d’origine cérébrale, 193, 143-152

15

Exploitation d’un corpus annoté pour l’analyse des relations causales

Caroline ATALLAH

ERSS UMR 5263, Université du Mirail, Toulouse

RESUME_____________________________________________________________________________________________________________

Nos recherches visent à proposer, à partir de l’observation d’énoncés attestés, une description des relations causales dans le cadre d’une théorie représentationnelle du discours, la SDRT (Segmented Discourse Representation Theory, Asher et Lascarides, 2003).

Pour cela, nous nous appuyons sur un corpus de textes enrichis d’annotations discursives, issu du projet ANNODIS (Péry-Woodley et al., 2009, Péry-Woodley et al., 2012). Lors de la campagne d’annotation qui a été menée au sein de ce projet, plusieurs textes ont été segmentés en unités de discours élémentaires. Les annotateurs ont ensuite procédé à un repérage des relations s’établissant entre les segments discursifs. Les relations causales Explication et Résultat figurent parmi les 17 types de relations pouvant être annotés. Ces annotations et les segments discursifs associés constituent notre premier corpus d’étude.

En partant de l’observation de ces segments annotés, nous avons pu constater que la SDRT ne rendait pas compte de la diversité des relations causales pouvant être observées dans les textes et méritait, par conséquent, d’être enrichie.

A cette fin, nous avons établi une première typologie des relations causales à partir des données. En nous appuyant sur les catégories définies, nous avons procédé à une nouvelle annotation des relations en question pour l’ensemble des textes. L’analyse de chaque exemple du nouveau corpus annoté ainsi constitué nous a permis d’affiner la typologie tout en confrontant celle-ci à celles proposées dans des travaux antérieurs.

La collection de textes sélectionnés présente cependant des limites : constituée exclusivement d’extraits d’articles encyclopédiques et de brèves de presse, celle-ci ne permet pas une étude approfondie d’un certain nombre de relations causales qui y sont peu fréquentes voire absentes. Il s’agit notamment des relations s’établissant non pas au niveau du contenu mais au niveau des actes de langage, relations dites pragmatiques (Sanders, 1997), brièvement introduites en SDRT en tant que Explication* et Résultat*.

C’est pourquoi nous envisageons d’élargir notre corpus pour la suite de nos analyses avec l’hypothèse qu’il existerait un lien entre le genre textuel et les types de relations causales qui s’y établissent.

MOTS-CLES : interprétation ; discours ; corpus annoté ; relations causales ; SDRT ; genre textuel

Références

ASHER, N. et LASCARIDES, A. (2003). Logics of Conversation. Cambridge University Press.

PERY-WOODLEY, M.-P., ASHER N., ENJALBERT P. et al. (2009). « ANNODIS : une approche outillée de l’annotation de structures discursives. » TALN 2009, Senlis (France) 24-26 juin 2009.

PERY-WOODLEY, M.-P, AFANTENOS, S.D., HO-DAC, L.-M. et ASHER, N. (à paraître en 2012). Le corpus ANNODIS, un corpus enrichi d’annotations discursives. TAL.

SANDERS, T. (1997). Semantic and pragmatic sources of coherence: On the categorization of coherence relations in context. Discourse Processes, 24, 119-147.

16

Choix méthodologiques pour une analyse de conversation en situation de jeu vidéo

Isabel COLÓN DE CARVAJAL ICAR UMR 5191, ENS, Lyon

RESUME_____________________________________________________________________________________________________________

Dans le cadre du projet LUDESPACE « Les espaces du jeu vidéo en France », nous proposons un panorama et une cartographie des pratiques des jeux vidéo en France. Nous faisons appel à une approche du jeu vidéo comme système spatial, pour analyser les interactions multi-échelles entre l’espace dans le jeu vidéo, l’espace du joueur et l’espace autour du jeu vidéo.

Nous souhaitons explorer quatre problématiques de recherche : 1) Qui joue aux jeux vidéo en France ? 2) Où, comment et dans quelle configuration spatiale les joueurs jouent-ils ? 3) Quel rapport à l’espace et au temps les joueurs ont-ils à travers la pratique vidéoludique ? 4) Quelle est la nature des échanges entre les joueurs, et entre les joueurs et les machines/les jeux vidéo dans le temps et l’espace de jeu ?

Dans cet article, nous nous focalisons plus particulièrement à l’axe 4, afin de présenter une méthodologie pour une analyse des interactions (sociales, spatiales, corporelles et langagières) entre les joueurs, et entre les joueurs et la console, dans le temps et l’espace d’une situation de jeu vidéo. L’étude de ce type d’interactions relève d’une situation complexe à documenter, nécessitant des données audio et vidéo. Selon la situation de jeu, nous avons défini une méthodologie d’enregistrement spécifique.

Pour une première étude sur ce corpus, nous avons mené une analyse linguistique sur la manière dont les joueurs font référence à un avatar / un personnage lorsqu’ils ne l’identifient plus dans l’espace du jeu, et le moment où les joueurs produisent ces références dans le déroulement de l’action du jeu. Nous avons constitué une collection d’extraits à partir de deux situations de jeu vidéo : l’une correspond à une partie en réseau sur ordinateur à huit joueurs, l’autre à une partie sur console (Wii) à quatre joueurs.

MOTS-CLES : analyse conversationnelle ; jeu vidéo ; spatialité ; pratiques ; avatar ; identification

Références

COLON DE CARVAJAL, I. (2011). « Les énoncés choraux : une forme de segments répétés émergeant dans les interactions de jeux vidéo », in RUFAT S., TER MINASSIAN H., 2011, Les jeux vidéo comme objet de recherche, Paris : Questions théoriques, p. 146-163.

GOODWIN, C. (2000). « Action and Embodiment Within Situated Human Interaction », Journal of Pragmatics, n°32, p. 1489-1522.

Groupe ICOR (2006). « Enregistrements de corpus d’interactions », [site CORINTE : icar.univ-lyon2.fr/projets/corinte].

MONDADA, L. (2011). « Exigences analytiques pour l’enregistrement de la parole-en-interaction (version 3.0.2) ». Protocole pour les enregistrements vidéo. Lyon : Laboratoire ICAR.

MONDADA, L. (2012). « Coordinating mobile action in real time: the timed organization of directives in video games », in HADDINGTON P., MONDADA L., NEVILE M., Being mobile: Movement as social action.

17

Enjeux, outils et méthodologie de constitution de corpus d'apprentissage

Ciara R. WIGHAM et Aurélie BAYLE

LRL EA 999, Université Blaise Pascal, Clermont-Ferrand

RESUME_____________________________________________________________________________________________________________

Dans le domaine de l'enseignement-apprentissage des langues étrangères (L2), des corpus d’apprenants (learner corpora) sont exploités pour la recherche qui porte sur l’acquisition d’une L2. Ces corpus focalisent sur les productions des apprenants et ne prennent pas en compte celles des autres acteurs de la formation ni le contexte d’apprentissage (Reffray et al., 2008).

Nos thèses portent sur des interactions multimodales collaboratives issues de situations d’apprentissage de L2 dans des mondes synthétiques (virtuels). Notre recherche s'intéresse aux rapports entre les affordances des dispositifs pédagogiques dans ce nouveau type d’environnement d’apprentissage et les interactions entre participants. Les données provenant du monde synthétique Second Life sont multimodales et donc très diverses (audio, vidéo, clavardage, production d'objets, communication non verbale des avatars…). Ceci rend les études difficilement comparables et la ré-analyse d’une situation d’apprentissage difficile si un chercheur extérieur ne connait ni le contexte d’apprentissage ni le protocole de recueil de données. D'où l'intérêt de constituer un corpus d'apprentissage (Learning and Teaching Corpora).

Un corpus d'apprentissage relie, selon des standards internationaux, tous les éléments provenant d'une situation de formation en ligne (Chanier & Ciekanski, 2010): le protocole de recherche, le scénario pédagogique, toutes les interactions, productions et traces extraites de la situation de formation ainsi que les licences. A cela s'ajoutent l'ensemble des ressources de la formation et de l'expérimentation (fichiers vidéo, audio, texte…).

Notre communication portera sur la méthodologie, les étapes de constitution d'un corpus d'apprentissage ainsi que les outils utilisés (Fraps, MotPlus, ELAN, Oxygen) en s'appuyant sur des exemples concrets issus des recueils de données, leur structuration (Chanier & Wigham, 2011) et des analyses faites. Celles-ci concernent la réalisation des tâches collaboratives et les approches employées par les tuteurs pour rétroagir dans le clavardage. Nous montrerons qu’elles sont possibles, voire facilitées, grâce à la vue d'ensemble donnée par un corpus structuré.

MOTS-CLES : corpus d'apprentissage ; didactique des langues-cultures ; interactions multimodales en ligne ; mondes synthétiques ; outils

Références

CHANIER, T. et CIEKANSKI, M. (2010). Utilité du partage des corpus pour l'analyse des interactions en ligne en situation d'apprentissage : un exemple d'approche méthodologique autour d'une base de corpus d'apprentissage. Apprentissage des Langues et Systèmes d'Information et de Communication (ALSIC), 13. [oai : edutice.archives-ouvertes.fr:edutice-00486676]

CHANIER, T. et WIGHAM, C.R. (2011). (Dir.) Learning and Teaching Corpus ARCHI21. Mulce.org : Clermont Université. [oai : mulce.org:mce-archi21-letec-all ; http://repository.mulce.org]

REFFAY, C., CHANIER, T., NORAS, M. et BETBEDER, M.-L. (2008). Contribution à la structuration de corpus d'apprentissage pour un meilleur partage en recherche. Sciences et Technologies de l'Information et de la Communication pour l'Education et la Formation (Sticef), 15. [oai : edutice.archives-ouvertes.fr:edutice-00159733]

18

Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande

Cécile VIOLLAIN

ERSS UMR 5263, Université du Mirail, Toulouse

RESUME_____________________________________________________________________________________________________________

L’ambition fondatrice du projet PAC (Phonologie de l’Anglais Contemporain : usages, variétés et structure) est de faire un portrait précis de la pratique de l’anglais oral à travers le monde, dans son unité et sa diversité géographique, historique, sociale, en s’inscrivant dans une démarche de constitution de corpus, nécessaires à l’analyse détaillée du langage et à la validation ou la remise en question des cadres théoriques existants. L’objectif de notre présentation consistera à présenter le projet PAC et à expliquer ses choix méthodologiques sur le terrain à partir de son enquête la plus récente, conduite à Dunedin, Otago, dans l’île du Sud de la Nouvelle-Zélande. Plus précisément, notre présentation montrera les résultats que cette méthodologie permet d’obtenir sur deux questions phonologiques fondamentales : la rhoticité, à savoir la présence ou non du phonème /r/ en coda (position finale) des syllabes des mots, et les phénomènes de ‘r’ de sandhi.

Le terme neutre de ‘r’ de sandhi désigne deux sous-phénomènes : la « liaison » en ‘r’ lorsqu’un mot se terminant par un <r> orthographique est suivi d’un mot commençant par une voyelle, ainsi que les phénomènes dits « d’intrusion », lorsqu’un /r/ est prononcé à la coda d’un mot se trouvant devant un autre mot commençant par une voyelle, mais qu’il ne contient pas de <r> orthographique. En effet, les différentes « écoles » de la phonologie, que ce soit dans le sillage de SPE (Chomsky & Halle, 1968), de la Phonologie de Gouvernement (Harris, 1994) ou de la Théorie de l’Optimalité, communément appelée OT (McCarthy, 1993), se sont toutes intéressées à ces phénomènes qui divisent le monde anglophone en deux, avec d’un côté les variétés de l’anglais dites non-rhotiques, dans lesquelles les ‘r’ en coda des syllabes des mots ne se prononcent pas, et de l’autre les variétés dites rhotiques dans lesquelles ces ‘r’ se prononcent. L’enquête PAC Nouvelle-Zélande permettra donc de présenter les interprétations qui sont faites des résultats obtenus, à partir non pas d’un état idéalisé de la langue, comme c’est le cas pour certains cadres théoriques comme OT, mais de données réelles qui permettent de réfléchir à la dynamique interne à la langue, et en l’occurrence, à une possible démotivation du ‘r’ en anglais néo-zélandais contemporain.

MOTS-CLES : variétés de l’anglais ; phonologie ; corpus ; codages ; rhoticité

Références

CARR, P., DURAND, J. et PUKLI, M. (2004). The PAC project: principles and methods. La Tribune internationale des langues vivantes, 36, 24-35.

DURAND, J. (1999). R postvocalique et histoire de l’anglais. A tale of two countries. A tale of two cities. Sigma (Anglophonia), 199-221.

DURAND, J. et TARRIER J.M. (2008). Deux thèses sur la transcription et le codage d’un grand corpus oral : le cas de PFC. In M. BILGER (éd), Les enjeux de la transcription de la langue parlée, Perpignan : Presses Universitaires de Perpignan, 48-77.

PRZEWOZNY, A. et VIOLLAIN, C. (à paraître en 2012). La Nouvelle-Zélande. In I. Brulard & al. (éds.), La Prononciation de l’anglais: variation et structure, Toulouse: Presses Universitaires du Mirail.

WELLS, J.C. (1982). Accents of English, 3 vols. Cambridge: Cambridge University Press.

19

La transcription des langues à tradition orale : un palier d’interaction entre écriture et formalisation

Samira MOUKRIM

FLSH, Université Sidi Mohamed Ben Abdellah, Fès, Maroc

RESUME_____________________________________________________________________________________________________________

La transcription des langues à tradition essentiellement orale soulève des problèmes spécifiques, surtout si l’on entend produire un corpus partageable. En plus des difficultés que pose toute transcription de l’oral (troncature, répétitions, chevauchement, difficultés de perception, etc.), d’autres interrogations, d’une autre nature, surgissent lors de la phase préparatoire à la transcription de ces langues, notamment le berbère, pour lequel il existe une concurrence entre plusieurs alphabets et donc plusieurs traditions orthographiques, des problèmes liés à la fois au système graphique, au mode, aux conventions et aux outils de transcription à adopter.

Dans cette communication, nous allons voir, à partir d’exemples précis du berbère, que la transcription des langues à tradition orale est un palier d’interaction entre écriture et formalisation. Les propositions qui en résulteront seront comparées à celles émises pour le français.

MOTS-CLES : transcription ; langues à tradition orale ; écriture grammaticale ; corpus partageable

Références

BAUDE, O. (coord.) (2006). Corpus oraux, Guide des bonnes pratiques . CNRS éditions et P.U.O.

BERGOUNIOUX G. et al. (1992). « L'Etude socio-linguistique sur Orléans (1966-1991), 25 ans d'histoire d'un corpus», Langue française, 93, p. 74-93.

BILGER, M. (éd.) (2008). Données orales – Les enjeux de la transcription. Perpignan. PUP.

BLANCHE-BENVENISTE, Cl. et JEANJEAN, C. (1987). Le français parlé : transcription et édition, Paris, Didier-Erudition.

HABERT, B., NAZARENKO, A. et SALEM, A. (1997). Les linguistiques de corpus, Paris, A. Colin.

20

Ce que le corpus nous enseigne sur le lexique verbal des collégiens des lycées de Yaoundé

Tony ONGUENE MoDyCo UMR 7114, Université Paris Ouest, Nanterre

RESUME_____________________________________________________________________________________________________________

Grâce à des traitements informatisés à l’aide de CLAN de nos corpus oraux en transcription alignée (système CHAT), nous analysons comment des jeunes élèves francophones de Yaoundé recourent à des verbes de base et à ceux du camfranglais qui sont une étape provisoire vers une possible acquisition du lexique verbal français. Nous souhaitons alors montrer que l'essentiel de notre recherche est adossé à un travail de corpus en rupture avec la pratique de la glane d’erreurs. L'idée est surtout de souligner la démarche qui assure le passage d'une méthodologie influencée par la psycholinguistique (pour ce qui est de l'acquisition des verbes) au travail de terrain, dans un milieu fortement plurilingue et donc potentiellement variatiogène) jusqu'à l'analyse du corpus ainsi constitué, dans l'optique de décrire les lectes d'apprenants, afin de proposer des démarches didactiques. Nous reviendrons donc principalement sur la manière dont notre corpus linguistique a été traité, de la conception au résultat. Nous nous demanderons par exemple comment notre méthodologie garantit cette interface entre observation et analyse, et comment les outils d'analyse permettent de produire des résultats affinés et fondés sur des quantifications.

MOTS-CLES : acquisition ; plurilinguisme ; lexique verbal ; corpus ; CLAN

Références

BARTNING I. (1997). L’apprenant dit avancé et son acquisition d’une langue étrangère : tour d’horizon et esquisse de la variété avancée. Acquisition et Interaction en Langue Etrangère, 9 :9-50.

BITJAA-KODY Z.-D. (2004). Impact des politiques linguistiques au Cameroun, dans : «Cameroun : la culture sacrifiée". Africultures, n° 60, septembre 2004.

NOYAU C. (2008). Place des verbes dans le Français Fondamental, acquisition du lexique verbal en français langue seconde, et didactique du lexique. Dans : R. Bouchard & C. Cortier, eds. 'Pratiques et représentations de l’oral en FLES, 50 ans après le français fondamental'. Le Français dans le Monde/Recherches et applications, n° spécial :87-100.

21

Anticipatory it patterns as hedging devices: a corpus-based study of university student writing

Tove LARSSON Université de Stockholm, Suède

RÉSUMÉ_____________________________________________________________________________________________________________

The importance in academic writing of the anticipatory it pattern (It is interesting to note etc.) as a means of achieving a range of different rhetorical purposes has been confirmed in previous studies (e.g. Groom, 2005 ; Peacock, 2011 ; Thompson, 2009). One of the rhetorical functions of the pattern is as a hedging device. Since it has been shown that appropriate use of hedges and the anticipatory it pattern may pose considerable difficulty for apprentice writers (e.g. Hewings & Hewings, 2002; Hyland & Milton, 1997), a more detailed study of “anticipatory it hedging” would be of particular interest for EAP teaching. The present corpus-based study aims to investigate university students’ use of the anticipatory it pattern in general and as a hedging device by comparing non-native speaker (NNS) to native speaker (NS) use of the pattern and by investigating the use of the pattern across two NNS student levels. Swedish and British student essays culled from the Stockholm University Student English Corpus (SUSEC) were investigated for this purpose.

The results from the comparison of the NS and NNS groups show that the NS students used the anticipatory it pattern significantly more frequently both in general and as a hedging device. The analysis of “anticipatory it-hedges” with regards to modal verb and linking verb usage shows that the NNS students generally relied more heavily on a smaller set of types of “anticipatory it-hedges”. Furthermore, no general development in use was found across the two Swedish student levels. Taken together, the findings of the study would then suggest that nativeness, contrary to what has been reported in previous studies (cf. Römer, 2009), appears to be an important factor along with other factors such as general language proficiency and expertise in academic writing..

MOTS-CLÉS : corpus-based research ; anticipatory it patterns ; hedging ; native and non-native speakers of English ; learner levels

Références

GROOM, N. (2005). Pattern and meaning across genres and disciplines: An exploratory study. Journal of English for Academic Purposes, 4 (3), 257-277.

HEWINGS, M. et HEWINGS, A. (2002). ‘‘It is interesting to note that...’’: a comparative study of anticipatory ‘it’ in student and published writing. English for Specific Purposes, 21 (4), 367-383

HYLAND, K. et MILTON, J. (1997). Qualification and Certainty in L1 and L2 student writing. Journal of Second Language Writing, 6 (2), 183-205

PEACOCK, M. (2011). A comparative study of introductory it in research articles across eight disciplines. International Journal of Corpus Linguistics, 16 (1). 72–100.

RÖMER, U. (2009). The inseparability of lexis and grammar. Corpus linguistic perspectives. Annual Review of Cognitive Linguistics, 7 (1), 140-162.

THOMPSON, P. (2009). Shared Disciplinary Norms and Individual Traits in the Writing of British Undergraduates. In M. Gotti (Ed.), Commonality and individuality in academic discourse. (pp. 53-82). Bern, Switzerland: Peter Lang.

22

Sémantique du discours scientifique de Pierre Bourdieu : Construction et classification d’un corpus de travail

Ali BELGHANEM CREM EA 3476, Université de Lorraine, Metz

RESUME_____________________________________________________________________________________________________________

Quelle classification privilégier dans le cadre d’une lecture sémantique visant à décrire un corpus de Pierre Bourdieu ? Faudrait-il prendre pour base les disciplines, les problématiques traitées, le facteur diachronique ou les terrains empiriques ? Le parcours que nous présentons ici se divise en deux étapes principales.

Premièrement, nous avons questionné les présupposés d’une hypothèse largement dominante dans les études sur le sociologue. Elle consiste à catégoriser sa production scientifique en fonction des disciplines (sociologie/ethnologie/anthropologie). Or, une enquête prenant pour objet des commentaires récents sur son travail, des réflexions épistémologiques, ainsi que les propres positions de Bourdieu sur le sujet conclut à l’impossibilité d’assigner une étiquette disciplinaire univoque et définitive à chacun des travaux réalisés par lui. Cette classification nous ayant semblé inopérante, nous avons cherché à lui en substituer une autre.

C’est alors que nous adoptons, dans le deuxième stade de ce parcours, une perspective qui part des terrains empiriques (référents) étudiés par Bourdieu : Kabylie, Algérie, Béarn, France. Ainsi, à chacun de ces quatre mondes sociaux correspond un sous-corpus spécifique. La description met en lumière, au sein de chaque sous-corpus, un univers sémantique particulier, des structures sémantiques, des isotopies, des thèmes ou des fonctions narratives propres au terrain qui constitue l’univers de référence de ce sous-corpus. De plus, en contrastant les différents portraits associés à chacun des quatre terrains, nous précisons les rapports sémantiques qu’entretient chaque terrain avec les trois autres.

MOTS-CLES : Bourdieu ; classification ; corpus ; sémantique interprétative ; univers sémantique

Références

LEVI-STRAUSS, C. (1958). Anthropologie structurale, Plon, Paris.

PASSERON, J.C. (2006). Le raisonnement sociologique, Albin Michel, Paris.

RASTIER, F. (1987). Sémantique interprétative, PUF, Paris.

RASTIER, F. (2001). Arts et sciences du texte, PUF, Paris.

RASTIER, F. (2011). Sémantique de corpus, PUF, Paris.

23

Corpus et phraséologie : un « catalogue » de « prêt-à-parler » ?

Marine ESPINAT CoVariUs UMR 3323, Université Paris-Sorbonne, Paris

RESUME_____________________________________________________________________________________________________________

La phraséologie, discipline étudiant les séquences polylexicales figées, a connu un essor important ces dernières décennies et très tôt, les chercheurs ont voulu confronter leurs intuitions et théories à des corpus écrits. Le recours à ces corpus a permis de délimiter et/ou d’élargir certaines frontières de la phraséologie. Cependant, la prise en considération exclusive des corpus écrits a mené à des présuppositions hâtives sur l’usage réel de ce « prêt-à-parler ». Si la constitution et l’exploitation de corpus oraux est complexe, y chercher et étudier des séquences polylexicales figées représente encore un tout autre défi. Une telle étude se limite-t-elle à la recherche d’occurrences phraséologiques ? Puisque beaucoup d’encre a déjà coulé sur le comportement syntaxique ou le détournement des phrasèmes, quels peuvent être les apports spécifiques d’un corpus oral à la phraséologie ? Se limite-t-il au statut de « catalogue » dans lequel chercher le « prêt-à-parler » de la langue ?

La quête d’occurrences phraséologiques dans un corpus oral se heurte aux « imperfections » du langage parlé et aux déficiences des outils proposés par l’analyse conversationnelle. Mais avant tout, l’élargissement à l’oralité est-il justifié et ne se résumera-t-il pas à affirmer que les phrasèmes y sont sujets à des modifications somme toute attendues ? Il me semble cependant que cette confrontation entre phraséologie et corpus oral se révèlera enrichissante. En effet, beaucoup d’interrogations restent sans réponse sur l’aspect cognitif de ces phrasèmes. Or, pour y répondre, on ne saurait se passer d’une étude précise des occurrences telles qu’elles sont produites dans un contexte de conversation authentique. Le corpus oral devient alors le miroir de notre communication dans son acception la plus « naturelle » et répandue. Rechercher ainsi les marques de la cognition dans une conversation remet encore en question l’apport d’un corpus : que conviendra-t-il d’y mettre en lumière ? Comment ?

MOTS-CLES : oralité ; cognition ; phraséologie ; analyse conversationnelle

Références

BURGER H., DOBROVOL’SKIJ D., KÜHN P. et NORRICK N.R. (eds.) (2007). Phraseologie/Phraseology, Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research, Handbücher für Sprach- und Kommunikationswissenschaft, 28.1, Walter de Gruyter, Berlin.

COULMAS F. (1981). Routine im Gespräch – Zur pragmatischen Fundierung der Idiomatik, Linguistische Forschungen, 29, Akademische Verlagsgesellschaft Athenaion, Wiesbaden.

DOBROVOL’SKIJ D., PIIRAINEN E. (2005). Figurative Language Cross-cultural and cross-linguistic perspectives, Elsevier, Amsterdam.

LEGALLOIS D. (2009). « Mémento sur quelques rapports entre mémoire et linguistique. » in Questions de style, 6, pp 1-21.

MARTINS-BALTAR M. et GRÜNIG B.-N. (eds.) (1997). La locution : entre langue et usages, ENS-Editions Fontenay Saint-Cloud, Fontenay-aux-Roses.

24

The Spatialization of Time in French and English: A Corpus-based Analysis

Sondes HAMDI ISEAH, Université de Jendouba, Le Kef, Tunisie

RÉSUMÉ_____________________________________________________________________________________________________________

Cognitive linguists (Lakoff and Johnson, 1980 ; Kovecses, 2002) contend that humans tend to comprehend abstract concepts, such as time and emotions, through more tangible concepts, such as space and objects. This paper purports to probe the validity of this claim on the basis of a corpus-based analysis of the conventional linguistic metaphors of time in French and in English. Two corpora are compiled for the purpose of this study: French and English. The main sources of conventional expressions of time considered in this paper are: dictionaries, newspapers, and literary prose texts. Given that dictionaries are records of the lexicon of a language compiled by expert lexicographers, they constitute a reliable and rich source of conventional expressions. Newspapers and literary texts, on the other hand, allow for the collection of naturally-occurring written data in the two languages.

The results corroborate the cognitivists’ claim, suggesting that in both languages the abstract concept of time is expressed in spatial terms. In English, as in French, time is conceptualized as a moving entity and as having extension in space. In both languages, time can be seen as bounded; therefore, one can perform actions within defined limits of time.

MOTS-CLÉS : time ; space ; English ; French ; CMT

Références

KÖVECSES, Z. (2002). Metaphor: A Practical Introduction. Oxford: Oxford University Press.

LAKOFF, G. (1993). The Contemporary Theory of Metaphor. In A. Ortony (Ed.), Metaphor and Thought (pp. 202-252). Cambridge: Cambridge University Press.

LAKOFF, G. et JOHNSON, M. (1999). Philosophy in the Flesh: The Embodied Mind and its Challenge to Western Thought. NY: Basic Books.

LAKOFF, G., et JOHNSON, M. (1980). Metaphors we Live By. Chicago: University of Chicago Press.

25

Relatives narratives et relatives descriptives : entre corpus et théorie

Marina LYTVYNOVA* et Huy-Linh DAO** * Lattice UMR 8094, Université Sorbonne Nouvelle, Paris

** Lacito UMR 7107, Université Sorbonne Nouvelle, Paris

RESUME_____________________________________________________________________________________________________________

Le présent travail se propose d’apporter des données mettant en lumière certaines propriétés discursives des relatives narratives et descriptives du français et de relancer le débat (Giora 1983, Brandt 1990, Thompson 1987) sur leur contribution dans l’organisation textuelle.

La littérature antérieure permet de dégager deux points de vue différents sur cette problématique. Ainsi, Brandt (1990), Holler (2005) et Lambrecht (1998) postulent une dissymétrie discursive entre les relatives descriptives et les relatives narratives et le parallélisme entre ces dernières et les propositions indépendantes. Giora (1983) et AnderBois (2010) soutiennent une thèse quelque peu différente en affirmant que les deux types de subordonnées, en vertu de leur position finale dans la phrase d’accueil, sont capables de fonctionner comme des unités discursives autonomes.

En nous fondant sur l’analyse d’un corpus issu d’une étude expérimentale, analyse visant à déterminer l’impact des deux types de subordonnées sur les transitions référentielles, nous suggérons que (i) la distinction fonctionnelle entre les relatives narratives et descriptives (Lambrecht 1998, Look 2007) n’est pas pleinement motivée empiriquement, et que (ii) malgré leur ressemblance syntaxique, sémantique et pragmatique avec les prédications autonomes (Emonds 1979), en aucun cas, elles ne peuvent être assimilées à ces dernières. Cette conclusion présente, d’après nous, un intérêt triple : premièrement, elle indique d’autres pistes dans le traitement du statut discursif des relatives appositives ; deuxièmement, elle souligne le rôle que jouent les observations empiriques dans la réflexion théorique ; et, enfin, troisièmement, elle permet de s’interroger une fois de plus sur l’interface entre la syntaxe et le discours.

MOTS-CLES : relatives narratives, relatives descriptives, quasi-subordination, transitions référentielles, test de continuation

Références

CHAROLLES, M. (2007). « Comment évaluer les effets des relatives en qui sur les chaînes de référence ? », In : M. Charolles & al. (éds.), Parcours de la phrase – Mélanges offerts à Pierre Le Goffic, Paris : Ophrys.

GIORA, R. (1983). «Segmentation and segment cohesion: on the thematic organization of the text», Text 3 (2).

HOLLER, A. (2005). «Expressing Communicative-Weight Assignment Discourse Structurally», In: Proceedings of the Workshop on Constraints in Discourse, Dortmund.

LAMBRECHT, K. (1988). «There was a farmer had a dog: Syntactic amalgams revisited» In: Proceedings of the Fourteenth Annual Meeting of the Berkeley Linguistics Society, UC Berkeley, CA.

THOMPSON, B. (1987). «Subordination and narrative event structure». (In) Tomplin R.S. (éd.), Coherence and grounding in discourse, John Benjamins, pages 435-454.

26

Annotation automatique de documents pour le web sémantique

Kamel NEBHI

LATL, Université de Genève, Suisse

RESUME_____________________________________________________________________________________________________________

La vision du Web Sémantique décrit par Tim Berners-Lee en 1998 veut structurer les informations disponibles sur le World Wide Web pour permettre à des agents logiciels de raisonner sur le contenu des pages. Pour cela, la réalisation du Web Sémantique à grande échelle implique l’annotation généralisée de documents Web à l’aide de bases de connaissance ontologiques. Le traitement manuel des documents étant terriblement coûteux en temps et en ressources, nous souhaitons donner plus d’importance aux travaux de recherche effectués dans le domaine du traitement automatique de la langue afin de proposer une méthode d’annotation automatique fondée sur une approche essentiellement linguistique.

Depuis plusieurs années, de nombreux travaux de recherche démontrent clairement que l’Extraction d’Information est essentielle à l’automatisation du processus d’annotation de documents pour le Web Sémantique. L’ « Extraction d’information Basée sur les Ontologies » (EIBO) est un sous-domaine de l’Extraction d’Information. Cette approche a été conçue il y a quelques années et a donné lieu à de nombreuses publications. La plupart de ces travaux sont dédiés à des systèmes pour la langue anglaise. Nous remarquons également qu’ils n’ont pas été intégrés dans le schéma général du Web Sémantique.

Pour résoudre ce problème, nous présentons un système d’extraction d’information pour le français basé sur une ontologie et fondé sur une approche à base de règles. Ce papier détaille le fonctionnement de notre application et présente les premiers résultats obtenus à partir d’un corpus journalistique.

MOTS-CLES : extraction d’information ; ontologies ; web sémantique ; linked data

Références

BREWSTER, C. (2009). Natural Language Processing as a Foundation of the Semantic Web. Now Publishers Inc., Delft, Netherlands.

HANDSCHUH, S. et STAAB, S. (2003). Annotation for the Semantic Web. IOS Press, Amsterdam.

MAYNARD, D., PETERS, W. et LI, Y. (2008). Evaluating Evaluation Metrics for Ontology-Based Applications : Infinite Reflection. In Proceedings of 6th International Conference on Language Resources and Evaluation (LREC), Marrakech.

WEHRLI, E. (1997). L’analyse syntaxique des langues naturelles : Problèmes et méthodes. Masson, Paris.

WIMALASURIYA, D. et DOU, D. (2010). Ontology-Based Information Extraction : An Introduction and a Survey of Current Approaches. Journal of Information Science.

27

Posters présentés durant le colloque

Protocoles verbaux et analyse du fonctionnement mnésique du rédacteur bilingue dans la production persuasive en L2 .................................................................................................................................................. 28

Données orales conversationnelles : méthodes pour l'analyse, la visualisation et l'extraction d'information ................................................................................................................................................................................ 29

De l’application informatique à la création d’une typologie du conte : Une méthode de gestion lexicostatistique ........................................................................................................................................................................... 30

De l’analyse au partage des données, quel(s) format(s) choisir ? L’exemple d’un corpus d’interactions parents-enfant ................................................................................................................................................ 31

Visualisation et discussion du statut des construits obtenus par apprentissage sur corpus dans le modèle sémantique distributionnel .................................................................................................................................... 32

La gestion du conflit familial au cinéma : analyse des interactions. Traitement d’un corpus « hybride » ......................................................................................................................................................................................... 33

Méthodologie de recueil de données et méthodologie d’analyse pour la caractérisation de types de discours dans des situations de travail ........................................................................................................................ 34

Linguistic Complexity and Information Rate: Quantitative Approaches ............................................................. 35

Etude syntaxique sur corpus des coordinations : analyse en liste, rection propre et mise en facteur commun ........................................................................................................................................................................... 36

Etude des interactions langagières dans les jeux vidéo .............................................................................................. 37

28

Protocoles verbaux et analyse du fonctionnement mnésique du rédacteur bilingue dans la production persuasive en L2

Yamina BOUNOUARA LANADIF, ENS de Constantine, Algérie

RESUME_____________________________________________________________________________________________________________

Cette étude, en cours, porte sur le fonctionnement mnésique de jeunes apprenants bilingues en situation d’écriture en L2. Nous supposons qu’il existe des rapports entre la langue d’encodage des informations en mémoire à long terme, la langue de récupération de ces informations et la charge émotionnelle du thème. Lorsque des informations sur un domaine donné sont acquises ou apprises dans une langue, celle-ci serait utilisée pour activer et récupérer ces informations (voir Friedlander, 1990). En outre, un topic à forte charge émotionnelle peut conduire le rédacteur à utiliser davantage sa L1 pour s’exprimer sur ce thème (voir Pavlenko, 2005).

Deux groupes de lycéens algériens produisent en français un texte à visée argumentative sur quatre thèmes différents : deux familiers et deux non familiers. Dans les deux cas, l’un des deux thèmes se caractérise par une forte charge émotionnelle ; l’autre est plus neutre. La production s’effectue dans la condition de verbalisation concomitante (méthode des pensées à haute voix). Les participants sont libres de « penser » en arabe ou en français. Dans le cas des thèmes non familiers, un groupe reçoit des informations sur le thème en question en L1 (arabe) ; l’autre en L2 (français). Les protocoles verbaux recueillis sont divisés en segments correspondant aux processus cognitifs tels que modélisés en 1980 par Hayes et Flower (voir Van Weijen, Van den Bergh, Rijlaarsdam & Sanders, 2009). Les occurrences en arabe, dans les différents segments, sont comptabilisées et corrélées à la familiarité ou non du thème, à la charge émotionnelle de celui-ci, au niveau de compétence linguistique en français des participants et, enfin, à leur niveau de compétence rédactionnelle générale. La qualité des textes produits est évaluée à l’aide de la méthode des juges. Les principaux résultats seront présentés et discutés.

MOTS-CLES : argumentation ; processus rédactionnels ; mémoire ; protocoles verbaux ; bilinguisme

Références

FRIEDLANDER, A. (1990). Composing in English : effects of a first language on writing in English as a second language. In B. Kroll (Ed.), Second language writing (pp. 109-125). Cambridge: Cambridge University Press.

HAYES, J.R., et FLOWER, L.S. (1980). Identifying the organisation of writing processes. In L.W. Gregg & E.R. Steinberg (Eds.), Cognitive processes in writing: An interdisciplinary approach (pp. 3–30). Hillsdale: Lawrence Erlbaum Associates.

PAVLENKO, A. (2005). Emotions and Multilingualism. Cambridge, UK: Cambridge University Press.

VAN WEIJEN, D., VAN DEN BERGH, H., RIJLAARSDAM, G., et SANDERS, T. (2009). L1 use during L2 writing: An empirical study of a complex phenomenon. Journal of Second Language Writing, 18, 235-250.

29

Données orales conversationnelles : méthodes pour l'analyse, la visualisation et l'extraction d'information

Camille DUTREY EDF R&D, LIMSI et LPP, Université Paris Sud, Orsay

RESUME_____________________________________________________________________________________________________________

Notre étude porte sur l'extraction d'information à partir d'un large corpus de transcriptions de conversations orales (de type client-agent) se déroulant au sein de centres d'appel d'EDF. Dans ce cadre, nous proposons une analyse de corpus visant à prendre en compte les phénomènes propres à ces données dans le processus d'extraction d'information, à des fins de détection de thématiques, d'analyse d'opinion et de modélisation des conversations. L'analyse de la parole (ici transcrite) pose un certain nombre de problèmes par rapport à l'écrit : les phénomènes propres à l'oral, comme les disfluences, influent sur la finesse de l'analyse. Issues d'une parole conversationnelle en expression spontanée et en domaine restreint, les données composant notre corpus sont précisément caractérisées par un vocabulaire spécialisé et des irrégularités langagières, l'information apparaît fragmentée). Ces spécificités observables doivent être totalement prises en compte lors de l'analyse dans un cadre d'extraction d'information : la gestion de la variabilité dans la parole et des modes d'expression spontanée a des conséquences sur le choix des méthodes à appliquer. Nous présentons d'une part notre corpus de conversations issues de centres d'appel, en insistant sur les procédés linguistiques étudié ; nous discutons d'autre part l'analyse de ce corpus à différents niveaux – lexical, discursif et dialogique notamment. Nous mettons également en avant les problèmes d'analyses que posent les spécificités de notre corpus. Nous nous penchons également sur les méthodes de visualisation (à des fins d'analyse humaine) d'un corpus de transcriptions de conversations comme le notre, permettant d'observer les différents niveaux d'analyse. Ces travaux préliminaires portent sur l'application des théories sur les modes de production de la langue parlée présentées dans (Blanche-Benveniste, 2010) à nos données conversationnelles afin de produire des méthodes de visualisation des transcriptions de conversations.

MOTS-CLES : Données conversationnelles ; Centres d'appel ; Extraction d'information ; Analyse d'opinion ; Visualisation

Références

BLANCHE-BENVENISTE, C. (2010). Approches de la langue parlée en français. Ophrys, 175 p.

BOUFADEN, N. (2004). Extraction d'information à partir de transcriptions de conversations téléphoniques spécialisées. Thèse de doctorat, Université de Montréal.

DANESI, C. et CLAVEL, C. (2010). « Impact of Spontaneous Speech Features on Business Concept Detection: a Study of Call-Centre Data. ». In Proceedings of the ACM Multimedia SSCS Workshop.

DUTREY, C., CLAVEL, C., ROSSET, S., VASILESCU, I., et ADDA-DECKER, M. (2012). « Quel est l’apport de la détection d’entités nommées pour l’extraction d’information en domaine restreint ? ». In Proceedings of TALN’12.

GARNIER-RIZET, M., ADDA, G., CAILLIAU, F., GAUVAIN, J.-L., GUILLEMIN-LANNE, S. et LAMEL, L. (2008). « Callsurf: Automatic transcription, indexing and structuration of call center conversational speech for knowledge extraction and query by content ». In Proceedings of LREC'08.

30

De l’application informatique à la création d’une typologie du conte : Une méthode de gestion lexicostatistique

François LE TOLLEC HCTI EA 4249, Université de Bretagne Occidentale, Brest

RESUME_____________________________________________________________________________________________________________

Les contes au même titre que de nombreuses autres manifestations culturelles appartiennent au patrimoine de l’humanité. Notre principal objectif pour cette démonstration est d’établir une réelle cohésion entre l’outil moderne que représente l’application informatique et le contexte traditionnel du conte, relation mise en évidence au sein de la branche scientifique que représente la sémantique structurale en prenant pour exemple un corpus de contes de tradition orale défini. Cela nous permet d’obtenir une nouvelle vision intra et extratextuelle relative d’une part, au langage qui oeuvre au sein des récits étudiés et d’autre part, à l’intégralité du texte en évoquant la possibilité d’une nouvelle classification textuelle. Ce travail se trouve ainsi au carrefour d’une science pluridisciplinaire liée à l’ethnographie, à l’informatique et à la linguistique. Le corpus retenu représente un total de 100 contes de tradition orale de la Province de Valladolid en Espagne, issus de l’oeuvre de deux illustres collecteurs, Joaquín DIAZ et Aurelio M. ESPINOSA (hijo).

Le principe de réalisation de cette application sous Excel est tout d’abord lié à l’exploitation du corpus. L’objectif consiste en la création d’une base de données lexicales quantifiées, laquelle représente une vaste banque terminologique propre aux différents champs lexico-sémantiques retenus, en la comptabilisation et la représentation graphique des données obtenues de par la répartition des lexies. A terme cette nouvelle approche du corpus permet la création d’une nouvelle typologie du récit ou de l’expression étudiée. Ainsi, le contenu est-il étudié dans son aspect global, puis des plus intimes, de par l’étude de chaque récit.

MOTS-CLES : conte ; lexicostatistique ; corpus ; méthode ; typologie

Références

DIAZ Joaquín (1987). Cuentos tradicionales en Valladolid, Cuadernos Vallisoletanos, Obra la Caja de Ahorros Popular : Valladolid.

DIAZ Joaquín (1988). Cuentos en Castellano, Ediciones de la Torre : Madrid, 125 p.

DIAZ Joaquín, CHEVALIER Maxime, (1983). Cuentos castellanos de tradición oral, Ediciones Ambito : Valladolid.

ESPINOSA, Aurelio M. (hijo) (1987). Cuentos populares de Castilla y León (t.1), Consejo Superior de Investigaciones Científicas : Madrid.

ESPINOSA, Aurelio M. (hijo) (1988), Cuentos populares de Castilla y León (t.2), Consejo Superior de Investigaciones Científicas : Madrid.

LE TOLLEC François (2009). De la sémantique structurale à la lexicostatistique. Création d’un outil informatique appliqué au conte de tradition orale de la province de Valladolid : une méthode de gestion et de comptabilisation textuelle (Thèse de Doctorat), Université de Bretagne Occidentale, Brest, Tome I : 500 p., Tome II : p. 501-718.

31

De l’analyse au partage des données, quel(s) format(s) choisir ? L’exemple d’un corpus d’interactions parents-enfant

Loïc LIEGEOIS LRL EA 999, Université Blaise Pascal, Clermond-Ferrand

RESUME_____________________________________________________________________________________________________________

Avec la standardisation de l’utilisation des corpus de productions spontanées pour les recherches en acquisition du langage, les chercheurs se sont vus confrontés à de nouvelles problématiques inhérentes à toute étude basée sur des corpus oraux (Parisse et Morgenstern, 2010a) : comment matérialiser le signal sonore de façon pertinente et cohérente ? De quelle façon enrichir les données primaires en ajoutant les informations interprétatives qui seront à la base de la recherche ? Mais surtout, quel format de corpus choisir ? Cette dernière question sous-tend une problématique au cœur des débats actuels dans les sciences humaines : qu’est-ce qui doit motiver le choix du format d’encodage des données ?

Cette communication propose d’exposer la chaîne de traitement permettant de transformer nos données en corpus, en soulevant les enjeux théoriques et méthodologiques liés à celle-ci. La méthodologie que nous avons choisie pour le projet ALIPE nous semble répondre aux enjeux de la constitution d’un corpus : dans un premier temps, nos corpus sont transcrits dans un format XML nous permettant à la fois d’annoter aisément l’ensemble des données utiles à nos analyses et de transformer notre corpus dans des formats standard (CHAT et XML-TEI). À partir de ces formats, l’analyse (via le logiciel CLAN pour le format CHAT ou des programmes d’extraction pour le format XML-TEI), l’interopérabilité et le partage des données envers la communauté de chercheurs se trouvent facilités (Parisse et Morgenstern, 2010b). Alors qu’un échantillon de nos données est d’ores et déjà accessible à la communauté dans ces deux formats (http://lrl-diffusion.univ-bpclermont.fr), l’intégralité des corpus recueillis dans le cadre du projet (soit 30 heures d’interactions parents-enfant) sera diffusée en octobre 2012.

MOTS-CLES : interaction parents-enfant, acquisition, TEI, partage des données, interopérabilité

Références

MACWHINNEY, B. (2000). The CHILDES Project: Tools for analyzing talk. 3ème édition. Mahwah, NJ: Lawrence Erlbaum Associates.

PARISSE, C., et MORGENSTERN, A. (2010a). Transcrire et analyser les corpus d’interactions adulte-enfant. In E. Veneziano, A. Salazar Orvig, & J. Bernicot (Eds.), Acquisition du langage et interaction (pp. 201-222). Paris : L’Harmattan.

PARISSE, C., et MORGENSTERN, A. (2010b). A multi-software integration platform and support for multimedia transcripts of language. LREC 2010!: Workshop on Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality. La Valette.

TEI Consortium, eds. TEI P5: Guidelines for Electronic Text Encoding and Interchange. Version 2.1.0. Last modified 17th June 2012. TEI Consortium. [http://www.tei-c.org/Guidelines/P5/] (accédé le 29/06/2012).

32

Visualisation et discussion du statut des construits obtenus par apprentissage sur corpus dans le modèle sémantique distributionnel

Romain LOTH MoDyCo UMR 7114, Université Paris Ouest, Nanterre

RESUME_____________________________________________________________________________________________________________

Les dernières décennies ont vu un effort sans précédent d'automatisation de l’analyse des formes textuelles à des fins de recensement de l’information écrite sur internet. Avec des objectifs « génératifs » (modèles agissant sur le corpus à des fins concrètes), les sciences de l'information concurrencent ainsi sur son propre terrain la linguistique, plus « descriptive » (modèles décrivant les phénomènes observés à des fins théoriques).

Ce poster part de l'’implémentation d'un de ces modèles génératifs : l’automatisation d’une analyse sémantique lexicale distributionnelle (Turney et Pantel, 2010). Son utilisation pour un projet de moteur de recherche d’offres d’emploi a permis de générer une terminologie de référence en forme de réseau évolutif de prototypes lexicaux, et de développer des outils de séquencement textuel, d’expansion de requête et de suggestion de phrasèmes.

A travers l’extension de la méthodologie lexicométrique des cooccurrences à différentes opérations de groupement, cette démarche fait en fait intervenir des résultats intermédiaires, qu’on peut appeller « construits » du modèle. Ce poster est l’occasion de les examiner en cherchant à les rapprocher des théories sémantiques traditionnelles :

- des vecteurs de la distribution des termes par contextes, qui se veulent une représentation de la valeur sémantique ;

- des mesures de distance distributionnelle, qui ressemblent à une mesure de parasynonymie ou paraphrase;

- des réseaux lexicaux de vecteurs semblables (ou « proches »), qui ressemblent à des champs lexicaux (Habert et Zweigenbaum 2003) ;

- des dimensions structurant l'espace lexical, qui s’apparentent à des oppositions sémiques (Sahlgren, 2006) ;

- une typologie des contextes d’occurrence, qui converge vers les formes énonciatives du genre textuel des offres d’emploi;

Nous illustrons la manipulation de ces différentes « construits », à la nature simultanément statistique et sémantique, par l’exemple de vocabulaires de métiers, obtenus par apprentissage non-supervisé sur un corpus de 21000 offres d'emploi.

MOTS-CLES : sémantique distributionnelle, apprentissage non-supervisé, réseaux lexicaux

Références

EVERT, S. (2009). « Corpora and collocations ». In Lüdeling, A. et Kytö, M. (eds), Corpus Linguistics. An International Handbook Vol. 2, Mouton de Gruyter: Berlin.

HABERT, B., et ZWEIGENBAUM, P. (2003). « Classer les mots: sémantique à gros grain et méthodologie harrissienne ». Revue de Sémantique et Pragmatique 12 : 101-119.

SAHLGREN, M. (2006). The Word-Space Model : Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces (Thèse de doctorat). Stockholm University. Disponible sur la base Citeseer (doi: 10.1.1.66.149)

TURNEY, P. D., PANTEL, P (2010). « From frequency to meaning: Vector space models of semantics ». Journal of Artificial Intelligence Research 37: 141–188.

33

La gestion du conflit familial au cinéma : analyse des interactions. Traitement d’un corpus « hybride »

Elisa LUPETTI ICAR UMR 5191, Université de Brescia et Université Lumière Lyon 2, Lyon

RESUME_____________________________________________________________________________________________________________

Depuis les années 1960, la famille et ses problèmes constituent un sujet souvent abordé au cinéma. Dans le cadre de notre recherche, nous souhaitons donc exploiter ce mode de représentation afin de définir la structure de la « dispute familiale au cinéma » ainsi que les stratégies de gestion et de résolution d’un conflit. Nos analyses reposent sur l’étude linguistique de nombreux dialogues que nous avons séléctionnés à partir de neuf comédies dramatiques françaises sorties au cinéma entre 2000 et 2010 et qui constituent notre corpus.

Bien qu’il s’agisse d’un corpus « hybride », puisque ces dialogues, écrits avant d’être oralisés, sont à la fois représentation d’un dialogue authentique, nous allons utiliser les outils de l’analyse conversationnelle (Traverso, 20094), tout en prenant en compte des études concernant l’analyse du fictionnel (cf. Vanoye 1997, Reboul 1985), notamment du théatre (Kerbrat-Orecchioni, 1984) et du roman (Gelas, 1988), qui ont été menées jusqu’à présent. De cette perspective interactionniste, on remarque que peu de travaux ont été effectués sur le dialogue de cinéma dans le panorama scientifique français (Teston Bonnard, 2007, 2010), d’où l’intérêt de notre recherche au delà du thème du conflit familial.

Ce colloque sera l’occasion de présenter une toute première analyse comparative qui prendra en compte l’aspect verbal en relation avec le non verbal de quelques séquences filmiques. Leur transcription et l’analyse linguistique qui suivra détermineront la mise en place d’une classification des phénomènes et des stratégies visant à souligner la gestion du conflit.

D’autres avant nous (Franzelli, 2008) se sont intéressés aux séquences de colère cinématographique, mais il s’agit surtout de travaux se concentrant sur la traduction des répliques qui ressortent de tout type de dispute. Dans notre cas, nous allons justement exploiter le cinéma pour observer de près la vie de famille par les mots et les gestes des acteurs qui sont censés représenter la société au grand écran.

MOTS-CLES : cinéma français, conflit familial, scène de dispute, analyse conversationnelle, stratégies de gestion

Références

GELAS N., « Dialogues authentiques et Dialogues romanesques ». In COSNIER J., GELAS N., KERBRAT-ORECCHIONI C., Échanges sur la conversation, Paris : Éditions du CNRS, 1988, 323-335.

KERBRAT-ORECCHIONI C ., « Pour une approche pragmatique du dialogue théâtral », Pratiques, n°41, mars 1984.

TESTON BONNARD S., « Etude des particules discursives dans des situations de parole particulière : les scénarios et leurs oralisations par les acteurs », Actes du 2e Congrès Mondial de Linguistique Française, Nouvelle Orléans, 12-15 juillet 2010, 811-823.

TRAVERSO V., L’analyse des conversations, Paris : Armand Colin, 20094.

VANOYE F., « Quelques observations sur l’analyse des dialogues de films de fiction », Du dialogue au polylogue, Actes du 3e Colloque International Do.Ri.F.-Università, Rome, 24-25 Octobre 1997, Rome : CISU, 220-229.

34

Méthodologie de recueil de données et méthodologie d’analyse pour la caractérisation de types de discours dans des situations de travail

Magali HUSIANYCIA ATILF UMR 7118, Université de Lorraine, Nancy

RESUME_____________________________________________________________________________________________________________

Dans le cadre d’une recherche s’intéressant aux productions verbales entre professionnels en situation de travail dans des entreprises françaises, nous avons exploité un corpus d’interactions orales dans le but d’étudier les types de discours en situation de travail.

Il s’agira dans un premier temps de présenter la façon dont le corpus a été constitué et délimité. Nous exposerons donc les choix de la constitution de notre corpus : quels types de données à recueillir ? Quels terrains de recherche ? Quelles méthodes d’enregistrement et de transcription ? etc. Puis, nous présenterons notre corpus (constitué de 41 activités langagières au travail), ainsi que nos deux sous-corpus : l’un, composé d’une sélection de séquences issues de plusieurs activités langagières, pour satisfaire l’analyse qualitative des données ; l’autre, composé d’interactions complètes et décomposées en séquences, pour servir à l’analyse quantitative.

Dans un deuxième temps, il s’agira de présenter la méthodologie d’analyse adoptée. Celle-ci est marquée par un cadre théorique pluridisciplinaire et fait appel à des outils rarement convoqués pour des études sur l’oral. En effet, elle s’appuie sur la notion de « séquence » (J.-M. Adam, 1992), articulée à la celle de « type linguistique » (J.-P. Bronckart, 1997). Nous exposerons les raisons de ces choix et expliquerons en quoi ils sont pertinents pour élaborer une typologie des discours oraux.

MOTS-CLES : mots, clefs, importants

Références

ADAM J.-M. (1992). Les textes : types et prototypes. Lausanne : Nathan Université.

ADAM J.-M. (2001). « Types de textes ou genres de discours ? Comment classer les textes qui disent de et comment faire ? », revue Langages n°141. 10 - 27.

BRONCKART J.-P. (1997). Activité langagière, textes et discours. Pour un interactionnisme socio-discursif. Lausanne : Delachaux et Niestlé.

HABERT B. (2000). « Des corpus représentatifs : de quoi, pour quoi, comment ? », In BILGER, M (coord.) Linguistique sur corpus : études et réflexions, Cahiers de l’Université de Perpignan, n°31. Perpignan : Presses Universitaires de Perpignan. 11-58.

BOUTET J., GARDIN B. et LACOSTE M. (1995). « Discours en situation de travail », revue Langages, n°117, 12 - 31.

35

Linguistic Complexity and Information Rate: Quantitative Approaches

Yoon Mi OH DDL UMR 5596, Université Lumière Lyon 2, Lyon

RÉSUMÉ_____________________________________________________________________________________________________________

Our research starts from the consideration of human language as a dynamic complex system. We adopt the notion of entropy from the information theory of Shannon for our definition of linguistic complexity. The aim of the present work is to investigate the relations between linguistic complexity and information rate by calculating and comparing syllabic rates of about twenty languages whose syllable structure and phonological inventory are various. This typological study is based on quantitative analysis of multilingual oral and text corpus, especially using MULTEXT(Multilingual Text Tools and Corpora).

There are two types of corpus required for analyzing each language: oral corpus which contains the same semantic content in each language for calculating and comparing syllabic rates and large amount of text corpus for estimating syllable frequencies. With oral corpus, we calculated syllabic rate (SR) and information rate (IR) of each language. SR corresponds to a number of syllables per second and IR is calculated by dividing the mean duration of oral data by that of Vietnamese, which is used as the external reference (IR(VI) = 1) in our study. We used a subset of oral corpus supplied by MULTEXT in case of 9 languages (English, French, German, Italian, Japanese, Korean, Mandarin, Spanish and Vietnamese), except Turkish, as the data of MULTEXT contains similar semantic content in each language. A large text corpus was used to calculate syllabic inventory, complexity and entropy. First, text corpus was automatically syllabified by specific rules created for each language and syllable frequencies were calculated by using Perl. After calculating syllabic inventory and frequencies, we obtained the values of syllabic entropy and complexity.

By adding more languages with distinctive phonological features to our project, we are aiming to observe a correlation between information density (ID) and SR, which is thought to create a regulation of IR in our hypothesis.

MOTS-CLÉS : quantitative approach ; linguistic complexity ; information rate ; information theory ; multilingual corpus analysis

Références

PELLEGRINO, F., COUPE, C. et MARSICO, E. (2007). « An information theory-based approach to the balance of complexity between phonetics, phonology and morphosyntax ». Annual meeting of the Linguistic Society of America, Anaheim, CA, USA.

PELLEGRINO, F., COUPE, C. et MARSICO, E. (2011). « A cross-language perspective on speech information rate », Language, 87:3.

36

Etude syntaxique sur corpus des coordinations : analyse en liste, rection propre et mise en facteur commun

Nathalie RIGAUD LIF UMR 6166, Université de Provence, Marseille

RESUME_____________________________________________________________________________________________________________

Ces énoncés sont traités comme elliptiques par la grammaire traditionnelle (Grevisse § 217) et la grammaire générative (Dougherty, 1970b et 1971) :

(1) la concorde et l' harmonie prévalent sur les ambitions diverses. (2) Liposucer les phrases et le vide entre deux mots (3) je râle et tempête comme beaucoup d'entre vous (4) combien d'autres villes sont et seront sinistrées (5) Dimanche, nous voterons et ferons barrage à l'extrême-droite, au racisme, à l'antisémitisme et aux

valeurs abjectes de Le Pen. (6) La tortue rongea la corde et libéra l'antilope.

Nous proposons d’autres pistes d’analyse :

- Analyse en liste paradigmatique (exemples 1 à 4) L’approche pronominale pose qu’une place de construction peut être instanciée soit par un élément soit par une liste d’éléments. La notion de liste paradigmatique nous permet d’expliquer la distribution des éléments et de mettre en évidence la dimension paradigmatique de la syntaxe.

- Analyse en rection propre (exemple 5) Le listage est possible même si l’un des verbes possèdent un objet propre. Il s’agit d’un cas intermédiaire entre les listes paradigmatiques et la mise en facteur commun.

- Analyse en mise en facteur commun (exemple 6) Il existe plusieurs regroupements de places susceptibles d’être mis en liste : sujet-verbe (« Right Node Raising ») et verbe-objet (le cas majoritaire). La solution de mise en facteur commun semble suffire à rendre compte de ces phénomènes.

Du point de vue de la relation sens-forme, pour les listes paradigmatiques ou les mises en facteur commun, on n'a pas besoin de faire appel à du matériel extérieur à l'énoncé analysé pour aboutir à une pleine interprétation. Celle-ci peut se faire directement à partir des mots présents dans l'énoncé : l'interprétation se fait par composition directe dans la structure considérée.

Du point de vue syntaxique, si la notion de construction obtenue par effacement ou ellipse de matériel identique a un sens, c'est dans le domaine des procédés de grammaire seconde plus que dans celui des règles constitutives de la syntaxe du français qu’il faut la traiter.

MOTS-CLES : ellipse, corpus, liste paradigmatique, mise en facteur commun, grammaire première et seconde

Références

BLANCHE-BENVENISTE C., DEULOFEU H.-J., STEFANINI J. et EYNDE K. V. (1984). Pronom et syntaxe. L’approche pronominale et son application à la langue française, Paris : SELAF.

BLANCHE-BENVENISTE C. (1985). « Grammaire première et grammaire seconde ; l'exemple de en », Recherches sur le Francais parlé, N° 10, 51-74.

DOUGHERTY R. C. (1970). « A grammar of coordinate conjoined structures, Part I ». Language 46, 850-898.

MOURET F. (2008). « Les coordinations de séquences de compléments en français ». In PITAVY, J.-C. et BIGOT, M. (dir.) Ellipse et effacement : Du schème de phrase aux règles discursives, Publications de l’Université de Saint-Etienne, 57-66.

RIGAUD Nathalie (2010). L’art du vide, pour une approche descriptive des phénomènes elliptiques, (thèse de doctorat). Université de Provence.

37

Etude des interactions langagières dans les jeux vidéo

Lucie ROUSIER-VERCRUYSSEN ISLC, Université de Neuchâtel, Suisse

RESUME_____________________________________________________________________________________________________________

L'analyse de l'interaction langagière lors des jeux vidéo est rare. Or, ces derniers représentent une source considérable pour des corpus oraux et écrits. De plus, les marqueurs référentiels (anaphore, cataphore et déixis) sont peu étudiés lors de corpus oraux. C'est pour ces raisons que j'ai choisi d'analyser des marqueurs référentiels lors de corpus oraux provenant de jeux vidéo en ligne.

Mon analyse s'est réalisée lors d'un corpus oral de quinze heures trente avec vingt locuteurs provenant d'un jeu de rôle en ligne massivement multijoueurs, Word of Warcraft.

L'étude de Genvo sur la narration des jeux peut s'appliquer à notre corpus. En effet, des joueurs donnent des consignes aux autres joueurs. De cette façon, l'idée de pouvoir-faire prédéterminé entre les joueurs tout en leur laissant le choix du geste est réalisée.

Nous nous référons aux études de Landragin pour l'ambiguïté référentielle présente au sein de corpus écrit. Ne possédant pas le visuel des parties, nous pouvons nous appuyer sur ces travaux. Lorsqu'un événement n'est pas verbalisé par les joueurs, nous pouvons être en inadéquation entre l'antécédent et la référence réalisée. Néanmoins les aspects prosodiques, tels que les pauses et les contours prosodiques, permettent de diminuer ou appuyer l'ambiguïté de l'antécédent trouvé. Ces observations montrent la diffculté d'analyser les anaphores en contexte de dialogue selon Landragin.

La finalité de ces opérations est de trouver une classe ; temporelle, spatiale ou de personne ; et un objet linguistique ; déixis, anaphore ou cataphore ; majoritaire aux deux autres. Nous avons tenu compte des variables tels que le type de la partie, des joueurs et de la date d'enregistrement. Ces variables ont fait l'objet d'une étude statistique.

MOTS-CLES : jeux, corpus oral, marqueurs référentiels

Références

GENVO S. (2006). Le game design de jeux vidéo : Approches de l'expression vidéoludique. Paris : L'Harmattan.

COULOMBE, M. (2010). Le monde sans fin des jeux vidéo. Paris :PUF, 2010.

MATHIEU-COLAS, M. (2007). « Domaines et classes sémantiques », Verbum 29, 1-2 (2007), 11-24.

SALMON-ALT, S., BICK, E, ROMARY, L., et PIERREL, J.-M. (2004). « La freebank : vers une base libre de corpus annotés », In Actes de TALN 2004 (Fès, Maroc), [URL : http://aune.lpl.univ-aix.fr/jep-taln04/proceed/actes/taln.htm]

LANDRAGIN, F. (2006). Influence de la situation lors de la résolution des anaphores dans le dialogue, In Actes de TALN 2006 (Leuven, Belgique), Louvain : PUL, 207-216.

38

Annuaire des participants

Comité d’organisation

Marine DAMIANI [email protected] MoDyCo UMR 7114, Université Paris Ouest, Nanterre

Thèse sous la direction de Jean-Luc Minel et Delphine Battistelli

TAL, recherche d’information, énonciation

Kaja DOLAR [email protected] MoDyCo UMR 7114, Université Paris Ouest, Nanterre Thèse sous la direction de Jean-François Jeandillou Pragmatique, analyse du discours, gender studies

Romain LOTH

[email protected] MoDyCo UMR 7114, Université Paris Ouest, Nanterre

Thèse sous la direction de Jean-Luc Minel et Delphine Battistelli TAL, apprentissage automatique, sémantique lexicale, textualité

Carmen Lucia FLOREZ-PULIDO

[email protected] MoDyCo UMR 7114, Université Paris Descartes

Thèse sous la direction de Laurent Danon-Boileau Autisme, troubles envahissants du développement

Julien MAGNIER

[email protected] MoDyCo UMR 7114 et Psychomuse, Université Paris Ouest, Nanterre

Thèse sous la direction d’Anne Lacheret et Maya Gratier Prosodie du discours, théories de l'expressivité, narratologie

Anne PEGAZ-PAQUET

[email protected] MoDyCo UMR 7114, Université Paris Descartes

Thèse sous la direction de Claire Martinot Didactique du français, oral/écrit

39

Participants : communications et posters

Caroline ATALLAH

[email protected] ERSS UMR 5263, Université du Mirail, Toulouse

Thèse sous la direction de Myriam Bras et Laure Vieu

Sémantique du discours

Aurélie BAYLE

[email protected] LRL EA 999, Université Blaise Pascal, Clermont-Ferrand

Thèse sous la direction d’Anne-Laure Foucher

Compétences interculturelles, ALAO, mondes synthétiques, didactique des langues-cultures (FLE)

Ali BELGHANEM [email protected] CREM EA 3476, Université de Lorraine, Metz

Thèse sous la direction de Guy Achard-Bayle

Sémantique des textes théoriques

Naïma BEN BOURENANE [email protected] MoDyCo UMR 7114, Université Paris Descartes

Thèse sous la direction de Christian Hudelot Infirmité motrice cérébrale ; communication alternative et augmentative (CAA) ; neuro-psycholinguistique

Yamina BOUNOUARA [email protected] LANADIF, ENS de Constantine, Algérie

Thèse sous la direction de Denis Legros

Didactique de la production écrite en FLE

Isabel COLON DE CARVAJAL [email protected] ICAR UMR 5191, ENS, Lyon

Thèse sous la direction de Lorenza Mondada

Analyse conversationnelle, linguistique interactionnelle

Huy-Lin DAO [email protected] Lacito UMR 7107, Université Sorbonne Nouvelle, Paris

Thèse sous la direction de Georges Rebuschi et Alain Rouveret

Syntaxe, sémantique

Camille DUTREY [email protected] EDF R&D, LIMSI et LPP, Université Paris Sud, Orsay

Thèse sous la direction de Martine Adda-Decker, Chloé Clavel, Sophie Rosset et Ioana Vasilescu

Traitement du langage parlé

40

Marine ESPINAT [email protected] CoVariUs UMR 3323, Université Paris-Sorbonne, Paris

Thèse sous la direction de Martine Dalmas

Phraséologie, cognition, linguistique (allemand et français), analyse conversationnelle

Sondes HAMDI [email protected] ISEAH, Université de Jendouba, Le Kef, Tunisie

Thèse sous la direction de Barbara Bacz et Saif Sharhrzad

Linguistique cognitive, sémantique prépositionnelle, métaphore

Magali HUSIANYCIA [email protected] ATILF UMR 7118, Université de Lorraine, Nancy Thèse sous la direction de Richard Duda et Emmanuelle Canut

Sociolinguistique (typologie des discours au travail)

Tove LARSSON [email protected] Université de Stockholm, Suède

Thèse sous la direction d’Annelie Ädel

Corpus linguistics, English for Academic Purposes, L2 writing, discourse analysis

François LE TOLLEC [email protected] HCTI EA 4249, Université de Bretagne Occidentale, Brest Thèse sous la direction de Manuel Montoya et Philippe Cahuzac

Lexicostatistiques

Loïc LIEGEOIS [email protected] LRL EA 999, Université Blaise Pascal, Clermond-Ferrand

Thèse sous la direction de Thierry Chanier et Damien Chabanal

Acquisition du langage, phonologie

Elisa LUPETTI

[email protected] ICAR UMR 5191, Université de Brescia et Université Lumière Lyon 2,

Lyon

Thèse sous la direction de Jean-Paul Dufiet et Véronique Traverso

Analyse du discours en interaction

Maryna LYTVYNOVA [email protected] Lattice UMR 8094, Université Sorbonne Nouvelle, Paris

Thèse sous la direction de Michel Charolles

Discours, sémantique

41

Samira MOUKRIM [email protected] FLSH, Université Sidi Mohamed Ben Abdellah, Fès, Maroc

Thèse sous la direction de Gabriel Bergounioux et Lotfi Abouda

Linguistique berbère, linguistique du corpus

Kamel NEBHI [email protected] LATL, Université de Genève, Suisse

Thèse sous la direction d’Eric Wehrli

Traitement automatique du langage naturel, web sémantique, extraction d'information

Tony ONGUENE [email protected] MoDyCo UMR 7114, Université Paris Ouest, Nanterre Thèse sous la direction de Colette Noyau

Psycholinguistique, didactique des langues

Yoon Mi OH [email protected] DDL UMR 5596, Université Lumière Lyon 2, Lyon Thèse sous la direction de François Pellegrino

Linguistique quantitative

Nathalie RIGAUD [email protected] LIF UMR 6166, Université de Provence, Marseille

Thèse sous la direction d’Henri-José Deulofeu

Linguistique de corpus

Lucie ROUSIER-VERCRUYSSEN [email protected] ISLC, Université de Neuchâtel, Suisse Thèse sous la direction de Marion Fossard et Anne Lacheret

Logopédie, prosodie

Cécile VIOLLAIN

[email protected] ERSS UMR 5263, Université du Mirail, Toulouse

Thèse sous la direction de Jacques Durand

Sociophonologie anglaise

Ciara WIGHAM [email protected] LRL EA 999, Université Blaise Pascal, Clermont-Ferrand

Thèse sous la direction de Thierry Chanier

Dispositifs d’apprentissage à distance, ALAO, mondes synthétiques, interactions multimodales

42

Mona ZEGAI [email protected] CRESPPA UMR 7217, Université Paris 8, Vincennes-Saint-Denis

Thèse sous la direction d’Anne-Marie Devreux et François Leimdorfer

Genre, socialisation, normes, représentations sociales, jouet, discours, lexicométrie, corps, enfance

Mériem ZLITNI [email protected] MoDyCo UMR 7114, Université Paris Ouest, Nanterre

Thèse sous la direction de Catherine Camugli-Gallardo

Linguistique de corpus, contacts de langues, dialectologie

43

Remerciements Le comité d’organisation est reconnaissant aux instances du laboratoire pour leur aide financière et logistique, et remercie notamment Jean-Luc Minel et Christophe Parisse pour leurs conseils et Myriam Djedi et Aleksandr Sourie pour leur disponibilité.

Nous remercions les membres du comité scientifique, les conférenciers et tous les participants pour l’intérêt qu’ils ont bien voulu porter aux thèmes du colloque et leur réactivité lors de l’examen des propositions.

Nous remercions enfin la ville de Nanterre pour sa participation au budget, ainsi que les services de l’université Paris Descartes pour la mise à disposition de l’amphi Durkheim et les services de l’université Paris Ouest Nanterre la Défense pour la reprographie et la salle de réunion.