Chargement...
 

Natural Language Speech and Audio Processing

Domaine
Natural Language Speech and Audio Processing
Domain - extra
Année
2011
Starting
Octobre 2011
État
Closed
Sujet
Fusion d'informations acoustiques et visuelles pour la reconnaissance multimodale de personnes dans des vidéos
Thesis advisor
BARRAS Claude
Co-advisors
Laboratory
Collaborations
Partenaires du programme QUAERO dans le projet ANR QCOMPERE:
  • industriels Vocapia Research et Yacast;
  • laboratoires français: l'équipe LEAR de l'INRIA Rhone-Alpes, le GREYC, le LIG (Laboratoire d'Informatique de Grenoble)
  • laboratoire international: groupes CSL et CV-HCI du Karlsruhe Institute of Technology (KIT)
Abstract
L’objectif du travail est la reconnaissance multimodale de personnes dans des enregistrements d’émissions audiovisuelles par fusion des sources d’information des différentes modalités : la voix des personnes qui parlent, la reconnaissance des visages, mais aussi l’exploitation des textes en incrustation qui identifient les intervenants et enfin les noms des invités ou des journalistes prononcés par un présentateur.
Context
Le LIMSI participe au programme QUAERO avec comme objectif d’améliorer l’état de l’art en structuration et indexation automatique de documents multimédia et multilingues. Le groupe TLP travaille sur les modalités liées à l’acoustique (reconnaissance de la voix et transcription automatique) et collabore dans le cadre du projet ANR QCOMPERE avec des partenaires du programme QUAERO pour les modalités liées à l’image.
Objectives
Chaque modalité acoustique ou visuelle apporte des informations pertinentes, et un défi majeur est de réaliser une fusion des différentes sources d’information qui prenne en compte leur nature et leur échelle temporelle spécifiques. Au-delà d’une simple fusion des sorties de chaque modalité, il est nécessaire de les faire collaborer le plus en amont possible ; par exemple, les noms affichés en incrustation devraient être ajoutés au vocabulaire du système de transcription automatique de manière dynamique.
Work program
Le travail de recherche à mener à bien implique des collaborations scientifiques avec plusieurs équipes et sa qualité sera mesurée par la campagne d’évaluation compétitive REPERE organisée par la DGA sur l’évaluation multimodale des personnes en 2013 et 2014.
Extra information
Prerequisite
Master en informatique
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
Créé
Mercredi 11 mai 2011 11:38:33 CEST
dernière modif.
Jeudi 13 octobre 2011 10:24:07 CEST

Fichiers joints

 filenamecrééhitsfilesize 
Aucun fichier joint à cette fiche


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr