La thèse porte sur la fusion d’indices expressifs acoustiques et multimodaux pour identifier le locuteur et ses émotions, dans le contexte d'une interaction homme-robot. Les trois axes de recherche explorés seront la détection des émotions à partir de fusion d'informations non verbales acoustiques et visuelles (indices faciaux et gestuels) ; l'identification du locuteur à partir de fusion d'informations non verbales acoustiques et visuelles ; et enfin la compréhension des dispositions affectives à plus long terme des utilisateurs envers le robot par la construction d'un profil dynamique émotionnel et interactionnel prenant en compte des indices multimodaux du sujet en interaction.
Context
Dans le cadre du projet FUI Romeo, le LIMSI-CNRS a obtenu des résultats de recherche très intéressants sur l’interaction homme-robot Delaborde et al., 2012, 2010a,b, 2009 et une amélioration de la technologie de détection des émotions dans l’audio pour des voix jeunes et âgées Tahon et al., 2012, 2011, 2010. NAO et ROMEO (2 robots développés par la société Aldebaran) sont de formidables plateformes pour la robotique cognitive interactive, pour élaborer de nouveaux systèmes d’interaction et pour tester des technologies de communication HR sur de vrais cas d’usages.
L’amélioration des technologies de détection des émotions et d’identification du locuteur passe par une perception multimodale, et par la combinaison d’indices verbaux et non verbaux mais aussi par la focalisation sur l'usage des robots.
Objectives
Les challenges en recherche portent sur :
• La capture de données audio-visuelles pour l’extraction d’indices pour la reconnaissance des émotions et l'identification de l'individu à partir de flux vidéo 2D (webcam) et audio micro PC et 3D (Microsoft Kinect). La synchronisation des captures 2D et 3D permettra d'avoir une localisation plus fine du visage et des mains.
• L’annotation et la validation des données audio-visuelles émotionnelles.
• L’extraction d’indices faciaux et gestuels et la fusion de données multimodales (indices synchrones/asynchrones)
• L’apprentissage et l’identification multimodale des locuteurs,
• L’apprentissage et la reconnaissance de marqueurs audio-visuels des émotions, à partir d’indices gestuels, faciaux et audio. L’utilisation conjointe des indices audio-visuels va améliorer les performances de détection.
• La modélisation d’un profil émotionnel et interactionnel multimodal à plus long terme.
• l’adaptation des modèles émotionnels à de nouveaux loc