Partenaires du programme QUAERO dans le projet ANR QCOMPERE:
industriels Vocapia Research et Yacast;
laboratoires français: l'équipe LEAR de l'INRIA Rhone-Alpes, le GREYC, le LIG (Laboratoire d'Informatique de Grenoble)
laboratoire international: groupes CSL et CV-HCI du Karlsruhe Institute of Technology (KIT)
Abstract
L’objectif du travail est la reconnaissance multimodale de personnes dans des enregistrements d’émissions audiovisuelles par fusion des sources d’information des différentes modalités : la voix des personnes qui parlent, la reconnaissance des visages, mais aussi l’exploitation des textes en incrustation qui identifient les intervenants et enfin les noms des invités ou des journalistes prononcés par un présentateur.
Context
Le LIMSI participe au programme QUAERO avec comme objectif d’améliorer l’état de l’art en structuration et indexation automatique de documents multimédia et multilingues. Le groupe TLP travaille sur les modalités liées à l’acoustique (reconnaissance de la voix et transcription automatique) et collabore dans le cadre du projet ANR QCOMPERE avec des partenaires du programme QUAERO pour les modalités liées à l’image.
Objectives
Chaque modalité acoustique ou visuelle apporte des informations pertinentes, et un défi majeur est de réaliser une fusion des différentes sources d’information qui prenne en compte leur nature et leur échelle temporelle spécifiques. Au-delà d’une simple fusion des sorties de chaque modalité, il est nécessaire de les faire collaborer le plus en amont possible ; par exemple, les noms affichés en incrustation devraient être ajoutés au vocabulaire du système de transcription automatique de manière dynamique.
Work program
Le travail de recherche à mener à bien implique des collaborations scientifiques avec plusieurs équipes et sa qualité sera mesurée par la campagne d’évaluation compétitive REPERE organisée par la DGA sur l’évaluation multimodale des personnes en 2013 et 2014.