Analyse lexicale de corpus en anglais

V. Beaudouin - F. Brochet

Cahier de recherche N°C95

Résumé

Le questionnaire de l'enquête " Recherche et environnement " (cf. fiche correspondante) a été adressé à des chercheurs dans le monde entier. Il comprend de très nombreuses questions ouvertes, dont les réponses ont été rédigées soit en français, soit en anglais. Or jusqu'à présent, nous ne disposions pas d'outil de statistique textuelle adapté à l'anglais. En collaboration avec Max Reinert (auteur du logiciel ALCESTE) et Frédéric Brochet (doctorant à l'EPHE, sous la direction de P. Mc Leod), nous construisons une version " anglaise " d'ALCESTE, ce qui nécessite une bonne évaluation des particularités linguistiques de l'anglais et la construction de différents dictionnaires adaptés. L'utilité statistique de ces différents dictionnaires est systématiquement testée.

Par ailleurs, sur les résultats de cette même enquête " Recherche et environnement ", de nombreux tests méthodologiques sont en cours. Toutes les réponses ouvertes ont été indexées par un système très riche de mots-clés (plus de trois cents). On comparera les résultats d'analyses sur ces mots-clés, analyses qui reposent déjà sur une pré-interprétation, avec des analyses directes sur les réponses. Y a-t-il ou non cohérence des résultats ? Ces mêmes corpus sont soumis à différentes méthodes de statistique textuelle. Une première étude comparative porte sur les logiciels ALCESTE et Leximappe (outil statistique pour la construction de réseaux utilisé principalement au CSI et à l'OST). Une seconde étude est en cours avec le centre CEMAP d'IBM. IBM dispose d'un algorithme de classification (reposant sur l'analyse relationnelle) capable de traiter des masses de données considérables (plus de 32000 variables) et construit depuis une quinzaine d'années des outils de linguistique informatique très performants. Nous aurons l'occasion de comparer la qualité et l' " interprétabilité " des résultats.


Contact

142, rue du Chevaleret 75013 Paris
01 40 77 85 10

ligne 6 station Chevaleret
ligne 14 station Bibliothèque
RER C station Bibliothèque
Bus 27 arrêt Nationale