|Site de l'université Grenoble Alpes|
 

Axe 1

 
 

Descriptions linguistiques, TAL, corpus

Responsables : Agnès Tutin (PR) et Olivier Kraif (MCF)

L’axe 1 se donne comme objectif de favoriser les points de rencontre disciplinaires prenant en compte les interfaces sémantique/syntaxe, pragmatique/syntaxe, pragmatique/sémantique autour de thèmes et de genres bien délimités (voir descriptif des deux programmes). La notion de corpus joue un rôle essentiel et fédérateur pour les équipes de l’axe 1. Il faut rappeler que la linguistique de corpus s’est considérablement développée ces dernières années. Cependant, les corpus aussi bien écrits qu’oraux ou multimodaux restent pour l’instant insuffisamment diffusés, notamment en France. Un des objectifs des équipes travaillant dans les programmes de l’axe 1 est donc, tout en développant des recherches descriptives en linguistique française et dans d’autres langues (y compris gestuelles), de participer activement à une mutualisation des corpus construits dans le cadre des différents projets de recherche en assurant leur diffusion au sein de la communauté scientifique. L’articulation avec le TAL s’effectue à travers le développement et l’utilisation d’outils permettant la caractérisation linguistique des corpus monolingues et multilingues et l’analyse de données linguistiques issues de corpus informatisés. Elle peut déboucher sur des applications pratiques, destinées à des publics spécifiques. C’est ce va et vient entre modélisation des données linguistiques et réflexion sur les utilisations en contexte, pour des publics diversifiés, qui constitue la cohérence de l’axe. Les évolutions récentes marquent en outre, notamment en syntaxe, le renforcement, pour la période 2011-2014, de la perspective contrastive et typologique. Il s’agit en particulier de proposer et de développer de nouvelles pistes théoriques et méthodologiques, permettant de relier la syntaxe, la sémantique lexicale et l’organisation du discours dans la comparaison des langues. Outre le français, déjà bien représenté, le russe et le bulgare, ainsi que le chinois, la langue arabe et d’autres langues ont fait leur apparition dans les travaux des chercheurs.

  • Programme 1 - Syntaxe, sémantique, pragmatique
  • Resp. : I. Novakova (PR), L. Vincent-Durroux (PR)

    Les recherches du programme « Syntaxe, sémantique, pragmatique » portent sur des thématiques, situées à l’interface entre la syntaxe, la sémantique et l’analyse discursive, notamment la syntaxe et la sémantique des prédicats causatifs, la combinatoire syntaxique et lexicale. Le niveau pragmatique est présent en particulier à travers l’ancrage discursif (prise en compte des genres de discours), à travers les aspects liés à la multimodalité (langues gestuelles, oral ou écrit) ainsi que dans la prise en compte de la dimension énonciative. Les travaux menés sur l’écrit scientifique, en particulier, cherchent à articuler un modèle lexical du sens avec les aspects énonciatifs, rhétoriques, pragmatiques et textuels. Un premier volet des recherches, développé en particulier au sein de l’ANR EMOLEX s’attache à décrire le lexique des émotions dans une perspective interlinguistique. Un second volet poursuit les travaux menés à partir de la base SCIENTEXT sur la phraséologie des écrits scientifiques. Dans ces deux premiers volets, la description du profil discursif des lexies (leur rôle dans la structuration de la phrase et du texte, leur appartenance à des scénarios, à des schémas argumentatifs) vise à élargir l’analyse de la combinatoire vers le niveau textuel.

  • Programme 2 - Traitement Automatique des Langues
  • Resp. Olivier Kraif (MCF)

    Les recherches du programme TAL s’articulent autour d’un objet central, partagé avec le programme 1 : les corpus électroniques (principalement écrits). Ces corpus peuvent être envisagés de deux manières : d’une part, comme ressource pour le TAL (pour le développement et l’évaluation des outils d’analyse morphosyntaxique, d’analyse sémantique, de traduction, de classification, etc.) ; d’autre part, ils constituent un objet d’étude pour l’observation (en linguistique, en lexicographie, en terminologie, en didactique des langues, dans le domaine des humanités numériques, etc.). Dans cette deuxième perspective, le TAL intervient à différentes étapes de la chaine de traitement : reformatage et mise en oeuvre des normes d’encodage, annotation morphologique, syntaxique et sémantique, indexation, recherche, développement d’interfaces d’interrogation, extraction de statistiques et de données langagières, etc. Les projets liés à ce programme, très divers dans leurs objectifs, concernent ces différentes perspectives, à partir de corpus de types variés : corpus de manuscrits et d’annotations d’auteurs, corpus spécialisés de SMS et de tweets, corpus multilingues parallèles et comparables, corpus d’écrits scientifiques, etc.

     

    Liste des membres de l’Axe 1

    Projets de recherche - axe 1