Natural Language Speech and Audio Processing

- Tracker item actions
- Imprimer
- Historique

Domaine: Natural Language Speech and Audio Processing
Domain - extra
Année: 2012
Starting: Octobre
État: Open
Sujet: Apprendre avec des données incomplètes ou incertaines: application à la traduction automatique statistique.
Thesis advisor: YVON François
Co-advisors: Alexandre Allauzen, LIMSI-CNRS, 50%
Laboratory: LIMSI TLP
Collaborations
Abstract: L'avènement d'Internet a révolutionné nos pratiques d'accès à
l'information et renouvelé les besoins en traduction automatiques. Les
systèmes de traduction actuellement les plus performants sont
statistiques. Ils reposent sur des modèles probabilistes qui
décomposent le processus de traduction en une série de décisions
locales. Le modèle standard repose principalement sur des récritures
rationnelles et sur l'empilement hétérogène de différents type de
modèles, génératifs pour la plupart. L'objectif de cette thèse est de
modéliser le processus de traduction avec des outils de calcul plus
expressifs (par exemple les grammaires synchrones ou les transducteurs
d'arbre), dans le cadre unifié de l'apprentissage probabiliste
discriminant, qui facilitera l'intégration d'un grand nombre de
descripteurs linguistiques jusque là ignorés. Une particularité, liée
à la traduction, est que les données de supervision sont pour la
plupart incomplètes ou incertaines.
Context: L'avènement d'Internet a, en l'espace d'une décennie, révolutionné nos
pratiques d'accès à l'information. Chacun est confronté au besoin
d'accéder à des documents à communiquer dans différentes langues.
Ainsi, la traduction automatique se voit confronter à de nouvelles
demandes.

Les systèmes de traduction actuellement les plus performants sont
statistiques. Ils reposent sur des modèles probabilistes du processus
de traduction entraînés sur de très gros corpus de données. Ces
modèles décomposent le processus de construction d'une traduction
comme une série de décisions locales, dont l'enchaînement constitue
une dérivation. Alors que le modèle standard actuel repose
principalement sur des récritures rationnelles (transducteurs finis
pondérés), des variantes plus récentes reposent sur des modèles de
calcul plus expressifs et utilisent par exemple des grammaires
hors-contextes probabilistes "synchrones", ou des transducteurs
d'arbre.
Objectives: L'introduction des modèles discriminants en traduction automatiques
pose de nouvelles difficultés. La première est d'ordre computationnel
et concerne le passage à l'échelle: l'estimation de ces modèles
demande de résoudre un problème d'optimisation numérique; or dans le
cadre considéré on dispose de millions d'exemples, et d'autant de
descripteurs rendant la tâche difficile. La deuxième difficulté vient
des données de supervisions qui sont pour la plupart incomplètes ou
incertaines. Les solutions proposés jusqu'à maintenant s'appuient sur
la marginalisation des variables inobservées, ce qui implique une
complexité algorithmique et théorique accrue. Enfin, la troisième
difficulté concerne le choix de la référence et de la fonction
objectif (ou fonction de perte) à optimiser: mesurer l'erreur de
traduction est délicat, en l'absence d'une référence de traduction
unique; les propositions existantes sont imparfaites et très
insatisfaisantes.
Work program: Le travail de thèse consistera à poursuivre l'évolution des systèmes
de traduction développés au LIMSI en cherchant à généraliser
l'utilisation de méthodes d'apprentissage discriminant. Il s'agira en
particulier de poursuivre les efforts déjà entrepris pour améliorer
les procédures d'estimation et d'inférence d'une part et pour
introduire de meilleurs modèles du processus de traduction d'autre
part, en étudiant tout particulièrement les questions liées au
réordonnancement.
Extra information
Prerequisite: Master 2 Recherche ou équivalent en informatique, avec une spécialisation en
traitement automatique des langues, traitement automatique de la parole ou
apprentissage automatique.
Détails
Expected funding: Institutional funding
Status of funding: Expected
Candidates
Utilisateur: alexandre.allauzen
Créé: Mardi 10 avril 2012 15:20:20 CEST
dernière modif.: Mardi 10 avril 2012 15:20:20 CEST

Fichiers joints

	filename	créé	hits	filesize
Aucun fichier joint à cette fiche

Connexion

Ecole Doctorale Informatique Paris-Sud

Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr