|Site de l'université Grenoble Alpes|
 

Agnès Steuckardt (Laboratoire Praxiling, Université Paul Valéry Montpellier 3), Le traitement informatique d’un corpus « peu lettré » : apports et limites. L’exemple du projet « Corpus 14 »

 

séminaire Délicortal-Master 2 Sciences du Langage,
vendredi 30 septembre 2016, 13h30-15h30, Grande salle des colloques (Bâtiment Stendhal)

Le traitement informatique d’un corpus « peu lettré » : apports et limites.
L’exemple du projet « Corpus 14 »

Si, pour le français écrit normé, les chercheurs disposent, avec Frantext ou, désormais, Scientext, de riches corpus, les données informatisées sont encore rares pour l’étude du français « peu lettré » (Branca-Rosoff, Schneider, 1994). Le besoin de constituer des corpus pour l’écrit non-standard apparaît partagé par plusieurs zones linguistiques : aux Pays-Bas, avec le projet « Letters as loot », au Portugal (projet « Post-Scriptum »), au Québec (projet « Corpus du français familier ancien »). Démarré en 2013, le projet « Corpus 14 » a rendu disponible en 2014 un ensemble de 657 lettres et cartes produites par des scripteurs « peu-lettrés » que la Grande Guerre avait séparés. On présentera les étapes qui mènent de la collecte d’archive à analyse outillée d’un tel corpus. L’intérêt linguistique de ces documents tient principalement à leur caractère non-standard (Steuckardt (dir., 2015) : il est essentiel d’en établir une transcription fidèle, respectant segmentation, erreurs orthographiques, ponctuation etc. Ces caractéristiques gênent cependant, dans une certaine mesure, le traitement informatique : il n’est pas aisé par exemple d’analyser le mot tranchées quand on sait qu’il présente dans notre corpus huit variantes graphiques. Au-delà de ces difficultés, l’informatisation de ce corpus permet néanmoins une approche quantitative, des comparaisons entre les scripteurs ou encore des analyses longitudinales d’un même scripteur, dont on donnera quelques exemples.

Références
Branca-Rosoff Sonia, Schneider Nathalie, 1994, L’écriture des citoyens. Une analyse linguistique de l’écriture des peu lettrés pendant la période révolutionnaire, Paris, Klincksieck.
Marquilhas Rita, 2014, Projet « Post-Scriptum », http://ps.clul.ul.pt/index.php.
Martineau France, 2015, Projet « Corpus du français familier ancien », http://polyphonies.uottawa.ca/fr/corpus/i-corpus-de-francais-familier-ancien/.
Rutten Gijsbert, Van der Wal Marijke, 2013, Projet « Letters as loot », http://brievenalsbuit.inl.nl/zeebrieven/page/search.
Steuckardt Agnès (dir.), 2015, Entre village et tranchées. L’écriture des Poilus ordinaires, Uzès, Inclinaison.
Steuckardt Agnès, 2014, Projet « Corpus 14 », http://www.univ-montp3.fr/corpus14/ et http://corpus14.ortolang.fr/.

Document Joint :