Avancées en analyse lexicale

V. Beaudouin - P. Hébel

Cahier de recherche N°C61

Résumé

Les travaux de recherche en matière d'analyse automatique du discours se poursuivent, tant en amont (nouveaux corpus, nouvelles méthodes) qu'en aval (utilisation de la théorie des représentations sociales pour la phase d'interprétation des résultats).

Longs corpus, nouveaux logiciels

Nous disposons à présent de corpus de plus en plus longs : quatre corpus ont plus de 100 000 occurrences (le plus gros, les œuvres de Corneille, représente un demi million d'occurrences).

On cherche tout d'abord à étudier la pertinence d'indicateurs statistiques comme la richesse lexicale ou la distribution des fréquences pour caractériser la structure lexicale de grands corpus. D'autre part, sur deux de ces corpus différentes méthodes de statistique textuelle (analyse des données, méthodes probabilistes) sont utilisées de manière complémentaire. Il s'agit d'Alceste, le logiciel développé par Max Reinert, d'Hyperbase, logiciel conçu par Etienne Brunet de l'INALF et d'outils développés par Dominique Labbé du CERAT.

Comparaisons méthodologiques

Analyse statistique des données textuelles ou analyse traditionnelle (analyse de contenu, analyse stylistique...) ? Cette question a été soulevée à différentes reprises et des réponses partielles ont déjà été apportées. Nous proposons de comparer les analyses statistico-lexicales des œuvres de Corneille et Racine avec les nombreuses "lectures" traditionnelles proposées sur ces corpus. La cohérence des résultats obtenus par ces deux approches, tend à prouver la valeur heuristique des méthodes d'analyse lexicale. Nous verrons ultérieurement comment elles peuvent s'appliquer à des entretiens semi-directifs par exemple.

Analyse lexicale et représentations

L'analyse d'une question ouverte sur les motivations des bénévoles à participer à une grande enquête épidémiologique montre que les motivations peuvent être interprétées à la lumière de la théorie des représentations sociales. Une typologie des réponses segmente les individus selon leur degré d'implication vis-à-vis de leurs contraintes primaires (état de santé, alimentation, ...). Les niveaux de préoccupation de chacun sont plus ou moins élevés et vont de l'utilitaire (suivi médical) à l'altruisme (survie de l'espèce) en passant par le stratégique (bonne alimentation donc meilleure forme). Nous voyons à nouveau ici le rôle que peut jouer l'analyse lexicale comme outil d'exploration des représentations sociales.


Contact

142, rue du Chevaleret 75013 Paris
01 40 77 85 10
ligne 6 station Chevaleret
ligne 14 station Bibliothèque
RER C station Bibliothèque
Bus 27 arrêt Nationale