Collaboration industrielle avec Vocally (synthèse vocale), collaboration envisagée avec l'IRCAM
Abstract
Modélisation de l’espace expressif vocal d’un acteur, afin de construire une doublure numérique de sa voix, c’est à dire de la synthèse personnalisée expressive.
Context
La synthèse de parole produit des voix de bonne qualité, à partir de bases de données de parole enregistrée. Par contre l’expression de ces voix est limitée, et elle ne permet pas de reproduire les variations importantes que l’on rencontre dans un jeu d’acteur.
Il s’agit donc d’étendre les possibilités de la synthèse au delà de la parole lue. Cette thèse poursuivra nos travaux en analyse et synthèse de la parole expressive.
Objectives
Lors de la post-production d’un film, ou pour les jeux vidéos, il est possible de recourir à des techniques de doublure numériques permettant de retoucher les images, et ainsi de retoucher le jeu d’un acteur sans avoir à lui faire rejouer en personne une scène.
Dans ce projet, c’est la personnalité vocale de l’acteur que l’on se propose de caractériser et de reproduire. En créant un modèle numérique de la voix de l’acteur, il sera possible à la fois de créer de nouvelles scènes sonores partielles, mais aussi d’assister le doublage d’un film dans une langue étrangère en conservant la voix de l’acteur, ses habitudes et sa personnalité vocales.
Work program
Il faut d’abord caractériser l’espace d’expression d’un locuteur, principalement dans le domaine de la prosodie, mais aussi dans ceux de la qualité vocale et de l’articulation. Un modèle acoustique du locuteur, ou « doublure numérique » sera ainsi construit, à partir d’enregistrements de sa voix.
A l’aide de ce modèle, des outils d’analyse et de transfert seront ensuite mis au point afin de transplanter les caractéristiques propres à une voix (son expressivité, son identité, etc.) sur une autre voix. Des approches semi-automatiques (avec un opérateur ou un locuteur suppléant) et automatiques (en synthèse) seront explorées. L’évaluation de la reproduction de la personnalité vocale permettra de valider la « doublure numérique ».
Cette thèse, s’inscrira partiellement dans une collaboration avec des partenaires industriels, dont la mission sera d’intégrer des outils de post-production.
Extra information
Cette thèse dans le groupe Audio & Acoustique.
Le LIMSI-CNRS est un laboratoire propre du CNRS, situé sur le campus de l’université Paris Sud XI à Orsay. Le LIMSI est un laboratoire de réputation internationale en matière de recherches sur la parole. Le Groupe Audio & Acoustique s’intéresse en particulier à l’analyse et à la synthèse de parole, au traitement audio temps-réel, au son expressif.
Prerequisite
Ce travail de recherche demande de solides connaissances en traitement de l’information, ainsi que des connaissances en traitement automatique de la parole. Des compétences en phonétique ou linguistique seraient appréciables, ainsi qu’un intérêt marqué pour la parole et l’expression sonore.
Des profils de type informatique linguistique, traitement signal de parole ou audio seront considérés en priorité.
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Aurore Hakoun (ingénieur ENSEA, en cours, Master 2 R en cours au LIMSI, 2012)
Utilisateur
christophe.dalessandro
Créé
Jeudi 29 mars 2012 16:22:16 CEST
dernière modif.
Jeudi 29 mars 2012 16:22:16 CEST
Fichiers joints
filename
créé
hits
filesize
Aucun fichier joint à cette fiche
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr