Les espaces sémantiques de mots-clés : une méthode d’indexation automatique de documents par assignation de mots-clés
Abstract
Avec la croissance extrêmement rapide de la quantité de documents numériques dans nos sociétés, l’automatisation de l’indexation est devenue un enjeu de recherche centrale pour la gestion documentaire. Plusieurs compétitions scientifiques portant sur des tâches d’indexation automatique ont vu le jour ces dernières années. Cet article rend compte de notre participation à l’une d’entre elles, soit l’édition 2016 du Défi fouille de textes (DEFT 2016). Dans un premier temps, nous présentons un état de la situation concernant l’importance, mais aussi les enjeux et les défis de l’indexation automatique. Après avoir présenté les grandes lignes de la campagne d’évaluation DEFT 2016, nous introduisons l’approche que nous avons développée. Celle-ci repose sur la construction d’un espace sémantique de mots-clés. L’évaluation des performances de notre approche et l’analyse des résultats suggèrent que notre méthode est particulièrement adaptée à des tâches d’indexation automatique qui nécessitent une part importante d’assignation de mots-clés contrôlés.