Natural Language Speech and Audio Processing

Éléments

Domain - extra

Année

2011

Starting

Octobre 2011

État

Closed

Sujet

Fusion d'informations acoustiques et visuelles pour la reconnaissance multimodale de personnes dans des vidéos

Thesis advisor

BARRAS Claude

Co-advisors

Laboratory

LIMSI TLP

Collaborations

Partenaires du programme QUAERO dans le projet ANR QCOMPERE:

industriels Vocapia Research et Yacast;
laboratoires français: l'équipe LEAR de l'INRIA Rhone-Alpes, le GREYC, le LIG (Laboratoire d'Informatique de Grenoble)
laboratoire international: groupes CSL et CV-HCI du Karlsruhe Institute of Technology (KIT)

Abstract

L’objectif du travail est la reconnaissance multimodale de personnes dans des enregistrements d’émissions audiovisuelles par fusion des sources d’information des différentes modalités : la voix des personnes qui parlent, la reconnaissance des visages, mais aussi l’exploitation des textes en incrustation qui identifient les intervenants et enfin les noms des invités ou des journalistes prononcés par un présentateur.

Context

Le LIMSI participe au programme QUAERO avec comme objectif d’améliorer l’état de l’art en structuration et indexation automatique de documents multimédia et multilingues. Le groupe TLP travaille sur les modalités liées à l’acoustique (reconnaissance de la voix et transcription automatique) et collabore dans le cadre du projet ANR QCOMPERE avec des partenaires du programme QUAERO pour les modalités liées à l’image.

Objectives

Chaque modalité acoustique ou visuelle apporte des informations pertinentes, et un défi majeur est de réaliser une fusion des différentes sources d’information qui prenne en compte leur nature et leur échelle temporelle spécifiques. Au-delà d’une simple fusion des sorties de chaque modalité, il est nécessaire de les faire collaborer le plus en amont possible ; par exemple, les noms affichés en incrustation devraient être ajoutés au vocabulaire du système de transcription automatique de manière dynamique.

Work program

Le travail de recherche à mener à bien implique des collaborations scientifiques avec plusieurs équipes et sa qualité sera mesurée par la campagne d’évaluation compétitive REPERE organisée par la DGA sur l’évaluation multimodale des personnes en 2013 et 2014.

Extra information

Prerequisite

Master en informatique

Détails

Expected funding

Institutional funding

Status of funding

Expected

Candidates

Utilisateur

Créé

Mercredi 11 mai 2011 11:38:33 CEST

dernière modif.

Jeudi 13 octobre 2011 10:24:07 CEST

Fichiers joints

	filename	créé	hits	filesize
Aucun fichier joint à cette fiche

Connexion

Ecole Doctorale Informatique Paris-Sud

Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr