Impact de la lemmatisation sur la robustesse des typologies lexicales
Rôle des seuils de sélection des mots analysés

A-D. Brousseau

Cahier de recherche N°C131

Résumé

L'utilisation de la lemmatisation dans les analyses lexicométriques a été popularisée par le logiciel Alceste de Max Reinert. Un débat méthodologique récurrent en lexicométrie partage encore aujourd'hui les partisans de la lemmatisation et ceux qui préfèrent analyser directement les textes non lemmatisés en distinguant les pluriels des singuliers, les formes conjuguées des verbes, le féminin du masculin.
L'avantage souvent reconnu de la lemmatisation est la plus grande stabilité des analyses et notamment l'évitement de corrélations entre formes graphiques difficilement interprétables.
Cependant, la lemmatisation peut être effectuée de façon plus ou moins poussée et la stabilité des typologies obtenues selon le degré de lemmatisation appliqué a été jusqu'à présent peu testé.
Cette étude établit des comparaisons à partir de plusieurs corpus issus de l'enquête "Consommation" du CRÉDOC. Ces différents tests de robustesse de la méthodologie Alceste permettent de préciser les limites d'interprétation des typologies de représentations obtenues par lexicométrie au moyen de ce logiciel.


Contact

142, rue du Chevaleret 75013 Paris
01 40 77 85 10

ligne 6 station Chevaleret
ligne 14 station Bibliothèque
RER C station Bibliothèque
Bus 27 arrêt Nationale