L'avènement d'Internet a révolutionné nos pratiques d'accès à
l'information et renouvelé les besoins en traduction automatiques. Les
systèmes de traduction actuellement les plus performants sont
statistiques. Ils reposent sur des modèles probabilistes qui
décomposent le processus de traduction en une série de décisions
locales. Le modèle standard repose principalement sur des récritures
rationnelles et sur l'empilement hétérogène de différents type de
modèles, génératifs pour la plupart. L'objectif de cette thèse est de
modéliser le processus de traduction avec des outils de calcul plus
expressifs (par exemple les grammaires synchrones ou les transducteurs
d'arbre), dans le cadre unifié de l'apprentissage probabiliste
discriminant, qui facilitera l'intégration d'un grand nombre de
descripteurs linguistiques jusque là ignorés. Une particularité, liée
à la traduction, est que les données de supervision sont pour la
plupart incomplètes ou incertaines.
Context
L'avènement d'Internet a, en l'espace d'une décennie, révolutionné nos
pratiques d'accès à l'information. Chacun est confronté au besoin
d'accéder à des documents à communiquer dans différentes langues.
Ainsi, la traduction automatique se voit confronter à de nouvelles
demandes.
Les systèmes de traduction actuellement les plus performants sont
statistiques. Ils reposent sur des modèles probabilistes du processus
de traduction entraînés sur de très gros corpus de données. Ces
modèles décomposent le processus de construction d'une traduction
comme une série de décisions locales, dont l'enchaînement constitue
une dérivation. Alors que le modèle standard actuel repose
principalement sur des récritures rationnelles (transducteurs finis
pondérés), des variantes plus récentes reposent sur des modèles de
calcul plus expressifs et utilisent par exemple des grammaires
hors-contextes probabilistes "synchrones", ou des transducteurs
d'arbre.
Objectives
L'introduction des modèles discriminants en traduction automatiques
pose de nouvelles difficultés. La première est d'ordre computationnel
et concerne le passage à l'échelle: l'estimation de ces modèles
demande de résoudre un problème d'optimisation numérique; or dans le
cadre considéré on dispose de millions d'exemples, et d'autant de
descripteurs rendant la tâche difficile. La deuxième difficulté vient
des données de supervisions qui sont pour la plupart incomplètes ou
incertaines. Les solutions proposés jusqu'à maintenant s'appuient sur
la marginalisation des variables inobservées, ce qui implique une
complexité algorithmique et théorique accrue. Enfin, la troisième
difficulté concerne le choix de la référence et de la fonction
objectif (ou fonction de perte) à optimiser: mesurer l'erreur de
traduction est délicat, en l'absence d'une référence de traduction
unique; les propositions existantes sont imparfaites et très
insatisfaisantes.
Work program
Le travail de thèse consistera à poursuivre l'évolution des systèmes
de traduction développés au LIMSI en cherchant à généraliser
l'utilisation de méthodes d'apprentissage discriminant. Il s'agira en
particulier de poursuivre les efforts déjà entrepris pour améliorer
les procédures d'estimation et d'inférence d'une part et pour
introduire de meilleurs modèles du processus de traduction d'autre
part, en étudiant tout particulièrement les questions liées au
réordonnancement.
Extra information
Prerequisite
Master 2 Recherche ou équivalent en informatique, avec une spécialisation en
traitement automatique des langues, traitement automatique de la parole ou
apprentissage automatique.
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
alexandre.allauzen
Créé
Mardi 10 avril 2012 15:20:20 CEST
dernière modif.
Mardi 10 avril 2012 15:20:20 CEST
Fichiers joints
filename
créé
hits
filesize
Aucun fichier joint à cette fiche
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr