Cette thèse s'attaque au problème de la modélisation probabilistes des divergences, principalement d'ordre syntaxique, entre les arrangements de syntagmes dans une langue source et une langue cible. Ces modèles jouent un rôle crucial dans le contexte de la traduction automatique par des méthodes statistiques.
Context
Les systèmes les plus performants en traduction automatique reposent sur des modèles probabilisés du processus de traduction, modèles qui sont entrainés sur des très gros corpus de données parallèles (c-à-d contenant des paires de phrases en relation de traduction mutuelle) 1. Ces modèles probabilistes
impliquent la constitution de répertoires bilingues de segments de longueur variable, qui sont comme des entrées de dictionnaires bilingues mettant en relation des groupes de mots de longueur arbitraires, dans lesquels les associations entre un groupe et sa traduction sont probabilisées.
L'apprentissage de ces modèles repose sur une succession d'heuristiques qui visent à étendre au niveau des groupes des alignements initialement au niveau des mots. Ces alignements de mots sont inférés par un empilement de modèles génératifs de complexité croissante qui donnent lieu à des algorithmes relativement efficaces modèles collectivement connus sous le nom de ``modèles
IBM''.
Objectives
La donnée des alignements de mots permet également de modéliser les
phénomènes de réordonnancement, c.-à-d. les changements d'ordre relatifs des mots entre la langue source et la langue cible. S'il est bien connu que les déplacements observés dans le processus de traduction mettent en jeu des unités syntaxiquement cohérentes (voir par exemple 2), les modèles les plus utilisés se limitent à modéliser l'écart des positions relatives d'un mot ou groupe source
et de sa traduction 3 (la distortion); ou, dans leur évolution plus récente 4, à utiliser les liens d'alignements pour estimer la propension de chaque unité à occuper une position relative différente en source et en cible.
D'un point de vu plus formel, modéliser les réordonnancements implique de résoudre deux problèmes difficiles: (i) probabiliser les permutations d'une phrase source; (ii) extraire les permutations les plus probables et les représenter dans une structure compacte pouvant être explorée efficacement.
Work program
L'objectif de cette thèse est multiple. Il s'agira, dans un premier temps, d'étudier diverses manières de contraindre l'ensemble des permutations d'une phrase source et d'évaluer la pertinence de ces contraintes d'un point de vue computationnel et d'un point de vue linguistique. On pourra notamment s'inspirer du formalisme des grammaires d'inversion introduites par D. Wu 5. Il s'agira ensuite de proposer des manières de probabiliser ces ensembles de permutations et d'effectuer l'estimation des modèles ainsi définis: la difficulté porte ici sur l'existence de données d'apprentissage, car les déplacements
ne sont pas observés, mais déduits d' alignements par nature imparfaits. La troisième partie de l'étude portera sur la définition de caractéristiques syntaxiquement informées permettant d'apprendre les permutations les plus probables dans un cadre discriminant. L'ensemble des propositions fera l'objet d'implémentations en vraie grandeur dans les systèmes de traductions du LIMSI.
Extra information
References:
1 P. Koehn (2010). Statistical Machine Translation (SMT). Cambridge University Press.
2 M. Collins, P. Koehn, and I. Kucerova (2005). Clause Restructuring for SMT. Proc. ACL.
3 Y. Al-Onaizan and K. Papineni (2006) Distortion models for SMT, Proc. ACL.
4 C. Tillman (2004). A block orientation model for SMT. Proc. HLT-NAACL.
5 Dekai Wu (1997). Stochastic inversion transduction grammars and bilingual parsing of parallel corpora. Comput. Ling.23(3):377-404.
Prerequisite
Master d'informatique, specialisation en traitement des langues et apprentissage automatique
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
Créé
Lundi 06 juin 2011 11:56:26 CEST
dernière modif.
Lundi 06 juin 2011 11:57:12 CEST
Fichiers joints
filename
créé
hits
filesize
Aucun fichier joint à cette fiche
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr