Ce sujet de thèse concerne le domaine de la fouille visuelle de données et sera réalisé et mis en application dans le cadre de l’étude de la Langue des Signes Française (LSF). Les données à explorer sont issues d’une annotation manuelle de corpus vidéo de LSF. L’objectif est d’étudier les possibilités offertes par les méthodes de fouilles de données visuelles pour permettre aux experts d’extraire de ces annotations des modèles qui représentent des structures linguistiques de la LSF.
Context
Les langues des signes sont des langues dont l’étude est récente et dont la description est incomplète. Dans bien des cas, nous ne disposons pas en préalable à l’annotation des différentes catégories possibles. Nous annotons donc le niveau « phonétique », c'est-à-dire ce qui observable d’un point de vue perceptif (la forme des mains, le mouvement, la direction du regard, l’orientation du buste…). Puis nous essayons d’en extraire des motifs récurrents, correspondant à des phénomènes linguistiques (par exemple le lien entre la direction du regard et la direction du geste lors d’un pointage). Cette analyse se fait actuellement de manière purement manuelle, qualitative, par des experts, qui tentent de repérer ces motifs avec comme unique outil de visualisation le logiciel d’annotation.
Objectives
Nous souhaitons utiliser des techniques de fouille de données pour pouvoir extraire des motifs à partir de ces données d’annotation. La méthode que nous souhaitons mettre en œuvre doit permettre d’aider les experts à accéder aux informations « cachées » derrière les annotations, afin d’en extraire des données qui l’aideraient à déterminer et décrire les structures linguistiques émergentes de l’annotation. Ainsi, ils doivent pouvoir explorer les annotations, à l’aide d’une visualisation adéquate, faire du regroupement sur les données à partir de cette visualisation et pouvoir décrire ces regroupements.
Work program
Il s’agira de mener une étude bibliographique des travaux existants en de fouille de données visuelle, de proposer un modèle adapté au problème et de le mettre en œuvre pour l’analyse des données d’annotation de corpus vidéo de LSF disponibles dans l’équipe, en lien avec des experts en annotation de corpus de LSF.