Chargement...
 

Interaction

Domaine
Interaction
Domain - extra
Multimodal human-robot interaction
Année
2012
Starting
Octobre
État
Closed
Sujet
Fusion d’indices multimodaux (audio, visage et geste) pour l’identification du locuteur et de ses émotions dans les interactions homme-robot
Thesis advisor
BARRAS Claude
Co-advisors
Laurence DEVILLERS, Université Paris 4
Laboratory
Collaborations
Aldebaran-Robotics
Abstract
La thèse porte sur la fusion d’indices expressifs acoustiques et multimodaux pour identifier le locuteur et ses émotions, dans le contexte d'une interaction homme-robot. Les trois axes de recherche explorés seront la détection des émotions à partir de fusion d'informations non verbales acoustiques et visuelles (indices faciaux et gestuels) ; l'identification du locuteur à partir de fusion d'informations non verbales acoustiques et visuelles ; et enfin la compréhension des dispositions affectives à plus long terme des utilisateurs envers le robot par la construction d'un profil dynamique émotionnel et interactionnel prenant en compte des indices multimodaux du sujet en interaction.

Context
Dans le cadre du projet FUI Romeo, le LIMSI-CNRS a obtenu des résultats de recherche très intéressants sur l’interaction homme-robot Delaborde et al., 2012, 2010a,b, 2009 et une amélioration de la technologie de détection des émotions dans l’audio pour des voix jeunes et âgées Tahon et al., 2012, 2011, 2010. NAO et ROMEO (2 robots développés par la société Aldebaran) sont de formidables plateformes pour la robotique cognitive interactive, pour élaborer de nouveaux systèmes d’interaction et pour tester des technologies de communication HR sur de vrais cas d’usages.
L’amélioration des technologies de détection des émotions et d’identification du locuteur passe par une perception multimodale, et par la combinaison d’indices verbaux et non verbaux mais aussi par la focalisation sur l'usage des robots.

Objectives
Les challenges en recherche portent sur :
• La capture de données audio-visuelles pour l’extraction d’indices pour la reconnaissance des émotions et l'identification de l'individu à partir de flux vidéo 2D (webcam) et audio micro PC et 3D (Microsoft Kinect). La synchronisation des captures 2D et 3D permettra d'avoir une localisation plus fine du visage et des mains.
• L’annotation et la validation des données audio-visuelles émotionnelles.
• L’extraction d’indices faciaux et gestuels et la fusion de données multimodales (indices synchrones/asynchrones)
• L’apprentissage et l’identification multimodale des locuteurs,
• L’apprentissage et la reconnaissance de marqueurs audio-visuels des émotions, à partir d’indices gestuels, faciaux et audio. L’utilisation conjointe des indices audio-visuels va améliorer les performances de détection.
• La modélisation d’un profil émotionnel et interactionnel multimodal à plus long terme.
• l’adaptation des modèles émotionnels à de nouveaux loc
Work program
Extra information
http://projetromeo.com/
Prerequisite
Détails
Télécharger these-romeo.pdf
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Fan YANG
Utilisateur
claude.barras
Créé
Lundi 04 juin 2012 12:51:43 CEST
dernière modif.
Lundi 04 juin 2012 12:58:23 CEST

Fichiers joints

 filenamecrééhitsfilesize 
these-romeo.pdf 04 Jun 2012 12:581725109.13 Kb


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr