|Site de l'université Grenoble Alpes|
 

Corpus multilingue Emolex

 

Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe. Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances. Il est librement accessible (après inscription) à l’adresse suivante :
http://emolex.u-grenoble3.fr/

Description du corpus

Français (annotation Connexor)

Presse

EMOCORP_PRESSE_FR

120 874 622

Littérature

EMOCORP_LIT_FR

15 978 230

Allemand (annotation Connexor)

Presse

EMOCORP_PRESSE_DE

121 076 999

Littérature

EMOCORP_LIT_DE

14 527 424

Anglais (annotation XIP)

Presse

EMOCORP_PRESSE_EN

99 594 161

Littérature

EMOCORP_LIT_EN

37 931 114

Espagnol (annotation Connexor)

Presse

EMOCORP_PRESSE_ES

127 357 935

Littérature

EMOCORP_LIT_ES

28 727 735

Russe (Annotation : SyntagRus/DeSR)

Presse

EMOCORP_PRESSE_RU

38 548 481

Littérature

EMOCORP_LIT_RU

99 256 442

Document Joint : Document Joint :