Diversité sociale et sémantique : représentation socio-sémantique d’un corpus scientifique, le cas du corpus ACL Anthology
Nous proposons une nouvelle méthode pour l’extraction de termes multi-mots à partir de publications scientifiques. Notre stratégie est fondée sur la combinaison de deux approches : une première liste de termes « candidats » est d’abord extraite à partir de critères de fréquence et de spécificité. Cette liste est ensuite classée suivant la position du terme dans le Résumé : (en ayant recours à un étiquetage de la valeur « argumentative » des phrases, selon une analyse de type text zoning). Cette approche permet de classer les termes en différentes catégories, et notamment de distinguer le vocabulaire conceptuel des éléments d’ordre méthodologique. Nous avons appliqué cette méthode à l’extraction des termes utilisés en traitement automatique des langues à partir de l’analyse d’un corpus (ACL Anthology) s’étendant de 1980 à 2008. Nous montrons ainsi qu’il est possible de suivre les méthodes utilisées, comment elles sont introduites dans le domaine, par quel type d’auteur et pour quel usage, etc. Nous observons ainsi plusieurs faits marquants de l’évolution du domaine sur une période de plus de 30 ans.