Chargement...
 

Natural Language Speech and Audio Processing

Domaine
Natural Language Speech and Audio Processing
Domain - extra
Machine translation
Année
2011
Starting
october
État
Closed
Sujet
Context-Aware Statistical Machine Translation
Thesis advisor
YVON François
Co-advisors
Aurélien Max (LIMSI)
Laboratory
Collaborations
Abstract
Statistical Machine Translation relies on complex probabilistic models which are estimated once and for all using a parallel corpus as training data. These models are then frozen and used unchanged on any kind of new input.

This thesis is concerned with the development and implementation of context-aware probabilistic models, where 'context' can refer both to a broad context and to a more local context.
Context
Les systèmes les plus performants en traduction automatique reposent sur des modèles probabilistes qui sont entrainés sur des très gros corpus de données parallèles (c-à-d contenant des paires de phrases en relation de traduction mutuelle). Les meilleurs systèmes actuels utilisent des modèles probabilistes à base de segments de longueur variable, qui sont analogues à des entrées de dictionnaires bilingues mettant en relation des groupes de mots arbitraires au lieu de mots isolés, et dans lesquels les associations entre un groupe et sa traduction sont probabilisées. L'apprentissage de ces modèles repose sur un empilement de modèles génératifs de complexité croissante et donnant lieu à des algorithmes relativement efficaces, modèles collectivement connus sous le nom de ``modèles IBM''; qui sont complétés par diverses heuristiques. Cet apprentissage est effectué une fois pour toute et les modèles ainsi estimés sont intégrés dans les systèmes de traduction.
Objectives
Cette manière de procéder est bien rôdée, mais est la source de nombreux problèmes. En particulier, elle conduit à figer les valeurs des associations entre les mots source et cibles, alors que l'on sait que, la connaissance du contexte dans lequel un mot ou un syntagme source apparaît va influer de manière très forte sur la probabilité des possibles traductions.
L'orientation générale de cette thèse porte sur l'étude des différentes formes de contexte (contexte micro-syntaxique à l'échelle de la phrase ou contexte macro à l'échelle des documents; contexte en langue source ou contexte en langue cible etc); sur la mesure de leur influence sur les décision de traductions; sur leur intégration au sein de modèles statistiques capables donc de s'adapter au contexte; enfin sur l'estimation et l'inférence de ces modèles.
Work program
Parmi les sources possibles d'inspiration, on considérera en particulier le travail de (Lopez, 2008) sur la construction "à la volée" de modèles de traduction; les travaux de (Koehn et Schroeder, 2007; Foster et Koehn, 2007) sur l'adaptation thématique des modèles; le travail de (Stroppa et al, 2007; Gimpel et Smith 2008) sur l'adaptation locale des modèles, enfin les travaux portant sur la prise en compte du niveau "document", ainsi que plus généralement les travaux effectués dans la tradition "traduction à base d'exemples" (par exemple (Brown, 2008)). Ce travail étant destiné à donner lieu à des expérimentations sur des systèmes de grande taille, une part importante du travail sera consacré à la mise en place d'algorithmes efficaces pour réaliser cette adaptation des modèles de traduction.
Extra information
Prerequisite
Master in Computer Science. Strong background in Statistics / Machine Learning, Artificial Intelligence or Natural Language Processing.
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
Créé
Vendredi 01 avril 2011 00:02:09 CEST
dernière modif.
Lundi 26 septembre 2011 11:26:35 CEST

Fichiers joints

 filenamecrééhitsfilesize 
Aucun fichier joint à cette fiche


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr