|Site de l'université Grenoble Alpes|
 

Iris Eshkol (Université d’Orléans, Laboratoire Ligérien de Linguistique), Le respect de la nature des données dans le... (DéLiCorTal)

 

Le respect de la nature des données dans le processus d’annotation

Les années 1990 ont constitué un tournant dans l’évolution du traitement automatique du langage avec la constitution et l’exploitation de corpus. Pour pouvoir accéder au corpus, le traiter et l’analyser, le processus de l’annotation devient indispensable. Le corpus annoté peut être considéré comme une nouvelle version du corpus d’origine. La réflexion sur la méthodologie de sa constitution doit être guidée d’une part par la nature des données linguistiques à annoter, et d’autre part par l’utilisation finale de l’annotation. Tous les choix sur le jeu et format d’étiquettes, sur le contenu de l’information à annoter, sur l’outil et la technologie à utiliser, doivent tenir compte de ces deux aspects.

Iris Eshkol défend la position où l’annotation n’est pas un processus purement technique. Tout comme la constitution de corpus, l’annotation soulève de nombreuses questions parmi lesquelles les questions linguistiques occupent une place importante. Elle présentera la démarche et la nécessaire réflexion sur les jeux d’étiquettes choisies, les principes respectés et les compromis faits dans le cadre de l’annotation qu’elle a dû effectuer sur deux types de corpus "non standards". Il s’agit du corpus oral ESLO et du corpus issu du Web des titres de cartes géographiques.

Cette communication portera principalement sur ces principes et méthodes qui sont souvent omises ou juste mentionnées dans les travaux de TAL. En effet, le travail préalable à l’annotation du corpus constitue, au même titre que les résultats quantitatifs généralement communiqués, un apport non négligeable pour ce domaine.

Jeudi 19 juin, 14h30-16h00, Salle des conseils de la Maison des langues et des cultures