|Site de l'université Grenoble Alpes|
 

Vanessa Andréani


Autre statut


Cursus universitaire


2008 - 2011
Docteure en Sciences du Langage spécialité Linguistique et Informatique.
Université Stendhal Grenoble 3.
Titre : Immersion documentaire dans des documents scientifiques et techniques : unités, modèles théoriques et processus.

Directeur de thèse : Thomas Lebarbé (maître de conférence en informatique et linguistique, habilité à diriger des recherches, Université Stendhal, Grenoble 3).

Financement CIFRE (Convention Industrielle de Formation par la Recherche) par l’ANRT, en partenariat avec TKM SAS (entreprise d’accueil).

2008
Master 2 Professionnel Ergonomie Cognitive et Ingénierie Linguistique.
Université Toulouse 2 – Le Mirail.
Stage et mémoire sous la direction de Ludovic Tanguy (maître de conférence en Sciences du Langage, Université de Toulouse 2 – Le Mirail).
Mention Bien.

2007
Master 1 de Sciences du Langage mention Traitement Automatique des Langues.
Université Toulouse 2 – Le Mirail.
Mémoire sous la direction de Marie-Paule Péry-Woodley (professeur en Sciences du Langage, Université de Toulouse 2 – Le Mirail).
Mention Très Bien.

2006
Licence de Sciences du Langage mention Traitement Automatique des Langues.
Université Toulouse 2 – Le Mirail.
Mention Très Bien.

2005
D.E.U.G. de Sciences du Langage.
Université Toulouse 2 – Le Mirail.
Mention Bien.

2002
Licence de Langues Etrangères Appliquées.
Université Toulouse 2 – Le Mirail.

2001
D.E.U.G. de Langues Etrangères Appliquées.
Université d’Avignon et des Pays de Vaucluse, dont un an en échange ERASMUS à la Aarhus Business School, Aarhus, Danemark.


Travaux de recherche


Descriptif de la thèse
Titre : Immersion dans des documents scientifiques et techniques : unités, modèles théoriques et processus.
Directeur : Thomas Lebarbé.

Résumé :

Cette thèse aborde la problématique de l’accès à l’information scientifique et technique véhiculée par de grands ensembles documentaires. Pour permettre à l’utilisateur de trouver l’information qui lui est pertinente, nous avons oeuvré à la définition d’un modèle répondant à l’exigence de souplesse de notre contexte applicatif industriel ; nous postulons pour cela la nécessité de segmenter l’information tirée des documents en plans ontologiques. Le modèle résultant permet une immersion documentaire, et ce grâce à trois types de processus complémentaires : des processus endogènes (exploitant le corpus pour analyser le corpus), exogènes (faisant appel à des ressources externes) et anthropogènes (dans lesquels les compétences de l’utilisateur sont considérées comme ressource) sont combinés. Tous concourent à l’attribution d’une place centrale à l’utilisateur dans le système, en tant qu’agent interprétant de l’information et concepteur de ses connaissances, dès lors qu’il est placé dans un contexte industriel ou spécialisé.

Mots-clés :
traitement automatique des langues, ergonomie, visualisation, immersion documentaire, représentation des connaissances, ressource termino-ontologique, entités nommées, collocations, normalisation, processus endogènes, processus exogènes, processus anthropogènes

Projet ANR OntOpiTex
L’analyse informatisée des opinions, attitudes ou jugements répond à des enjeux économiques et sociaux importants. L’objectif principal d’OntOpiTex est de chercher à identifier et agréger des segments textuels porteurs d’opinions, et surtout de les classer par type (affect, jugement, appréciation, …) et de les caractériser par des critères plus fins : polarité, intensité, prototypicalité, cible(s), source(s), engagement de l’auteur, etc. Sur le plan scientifique (linguistique, TAL et IC), des questions théoriques importantes émergent concernant la nature même de l’objet « opinion », et le choix des méthodes et outils les plus adaptés à leur traitement. Nous aborderons ces questions sur trois fronts, en adoptant une approche pluridisciplinaire novatrice et originale dans ce champ d’étude : (1) modélisation linguistique et ontologique afin d’éclairer conceptuellement les notions en jeu à l’aide de théories linguistiques comme Appraisal ; (2) développement et mise en oeuvre d’un modèle opératoire pour l’analyse automatique dans les textes ; (3) évaluation et étude de cas d’utilisation, à la fois sur un corpus de travail et dans un cadre applicatif réel.

La société TKM est impliquée dans ce projet sur les aspects d’utilisation et d’évaluation en contexte industriel de ces outils d’analyse d’opinion. Concrètement, elle est chargée de la constitution de corpus de test, de la définition de cas d’utilisation et de l’évaluation des outils en application industrielle.

Nous avons personnellement travaillé à la constitution de corpus d’articles de journaux et magazines spécialisés dans les technologies vertes. De plus, nous travaillons en collaboration avec l’équipe d’ingénieurs d’étude de TKM pour définir des cas d’utilisation de l’analyse automatique d’opinion qui soient pertinents pour l’activité de conseil de la société.


Expérience professionnelle


sept. 2008 - sept. 2011
Doctorante CIFRE et Ingénieur en Recherche & Développement – TKM SAS – Voiron
Conception et développement d’un outil destiné à assister les ingénieurs d’étude de TKM dans la recherche d’information et l’analyse des données. Cet outil inclut un système complexe de normalisation des entités nommées, l’exploitation d’une ressource termino-ontologique (RTO) élaborée en fonction des besoins des utilisateurs, et la possibilité de visualiser les données extraites de documents à partir de cette RTO, par le biais de cartographies géographiques ou cognitives.
Doctorat effectué sous la direction de Thomas Lebarbé (maître de conférence habilité en informatique et linguistique, Université Stendhal – Grenoble 3) et Loïc Maisonnasse (directeur R&D, TKM).

Mars-juillet 2008
Stage de fin d’études (Master 2 Professionnel) – Synapse Développement – Toulouse
Etude de la polysémie en contexte en anglais pour la validation d’un dictionnaire électronique monolingue anglais destiné à être implanté dans les logiciels de la société.
Mise en place d’une méthode de validation du dictionnaire grâce à l’utilisation de corpus multilingues alignés, et implémentation de cette méthode par le développement d’un algorithme en Perl.
Stage effectué sous la direction de Ludovic Tanguy (maître de conférence en Sciences du Langage, Université de Toulouse 2 – Le Mirail) et Sophie Nègre (linguiste informaticienne, Synapse Développement).


Expériences complémentaires


Organisation de colloque
2008 - 2010
Membre du comité d’organisation du colloque jeunes chercheurs "Colloque International des Étudiants-Chercheurs en Didactique des Langues et en Linguistique" qui s’est tenu du 29 juin au 2 juillet 2010 à Grenoble (Adresse du site web du colloque : http://w3.u-grenoble3.fr/lidilem/colloque-ec/cedil2010/).

- Colloque pluridisciplinaire ouvert à tous les travaux scientifiques dont l’objet d’étude est lié à la langue, à son traitement et/ou à son enseignement/apprentissage (linguistique, sociologie, psychologie, sciences de l’éducation, éthologie, ethnologie, sciences cognitives,traitement automatique des langues, etc.).
Membre du comité de rédaction : rédaction et diffusion des appels à communication, des textes du site web, etc.

Encadrement de stages
février – septembre 2010
Co-encadrement du stage de Silvia Necsulescu : Comparative study on Named Entity Recognition systems for analysis in innovation strategy field
Relectures, corrections (mémoire rédigé en anglais), suggestions de pistes de recherche.
Encadrant principal : Loïc Maisonnasse, directeur R&D, TKM.

avril – août 2010
Co-encadrement du stage de Maïlys Farabet : Etat de l’art : les systèmes d’extraction terminologique
Co-direction de recherche, supervision de conception et développement logiciel, relectures, corrections (mémoire rédigé en français).
Encadrant universitaire : Thomas Lebarbé, maître de conférence habilité, Université Stendhal Grenoble 3.


Compétences spécifiques


Informatique

Programmation

Perl

PHP / MySQL

Langages de balisage

HTML / CSS

XML

SVG

Logiciels et plateformes

Linguastream (plateforme de traitement automatique des langues)

Lexico (logiciel de lexicographie statistique)

Weka (plateforme de fouille de données)

Google Earth (logiciel de cartographie géographique)

Cartes et Données (logiciel de cartographie géographique)

Bureautique

Suite Microsoft Office

Suite Open Office

LaTex

Prezi

Langues

Anglais
Communication orale, lecture et rédaction d’articles

Pratique orale et écrite courante

Etudié jusqu’en Licence de LEA et séjour ERASMUS de deux semestres au Danemark en 2eme année de D.E.U.G. LEA.

Espagnol
Bonne maîtrise (étudié jusqu’en Licence de LEA)

Coordonnées personnelles

Mail : vanessandreani@hotmail.com

Publications

2011


  • Andréani, V. Immersion dans des documents scientifiques et techniques : unités, modèles théoriques et processus (Thèse de doctorat). Université de Grenoble, Grenoble. Consulté de http://tel.archives-ouvertes.fr/tel-00662668
    Résumé : Cette thèse aborde la problématique de l'accès à l'information scientifique et technique véhiculée par de grands ensembles documentaires. Pour permettre à l'utilisateur de trouver l'information qui lui est pertinente, nous avons oeuvré à la définition d'un modèle répondant à l'exigence de souplesse de notre contexte applicatif industriel ; nous postulons pour cela la nécessité de segmenter l'information tirée des documents en plans ontologiques. Le modèle résultant permet une immersion documentaire, et ce grâce à trois types de processus complémentaires : des processus endogènes (exploitant le corpus pour analyser le corpus), exogènes (faisant appel à des ressources externes) et anthropogènes (dans lesquels les compétences de l'utilisateur sont considérées comme ressource) sont combinés. Tous concourent à l'attribution d'une place centrale à l'utilisateur dans le système, en tant qu'agent interprétant de l'information et concepteur de ses connaissances, dès lors qu'il est placé dans un contexte industriel ou spécialisé.
  • Andréani, V., Roy, T., & Lebarbé, T. Normalisation des entités nommées : allier règles de normalisation, ressources endogènes et processus centré sur l'utilisateur. Revue Canadienne Des Sciences De L'information Et De BibliothConomie, 35(3), 229-263.

2010

2009

--- Exporter la sélection au format