Le développement de systèmes de traduction repose sur des mesures d'évaluation
automatiques de la qualité d'une traduction, telles que BLEU 1 et HTER 2. Celles-ci permettent de comparer différents systèmes de traduction et de guider le développement de systèmes en quantifiant l'impact des modifications. La définition d'une telle métrique soulève de nombreux problèmes, tant la qualité d'une traduction repose sur de nombreux critères (conservation du sens, fluidité de la traduction, ...) subjectifs et difficiles à formaliser.
Plusieurs travaux récents proposent d'appliquer des méthodes d'apprentissage statistique au problème de l'évaluation en traduction automatique, en s'appuyant sur des corpus annotés par des évaluations humaines. Grâce à ces méthodes, il est possible de construire une mesure uniquement en fournissant des exemples de bonnes et de mauvaises traductions sans avoir à expliciter la définition d'une bonne traduction.
Context
Récemment, plusieurs travaux (3, 4, ...) ont montré qu'il était possible d'apprendre une mesure d'évaluation automatique permettant de mesurer quantitativement la qualité d'une traduction. Toutefois ces travaux laissent de nombreuses questions ouvertes notamment sur la manière de formaliser ce problème d'apprentissage et sur la généralité de la mesure apprise (mesure limité à un système de traduction ou à un corpus particulier). Cette thèse s'appuie sur les méthodes introduites par ces travaux et propose d'étudier, de manière plus systématique, la validité et les performances de ces approches.
La thèse aborde également les problématiques des mesures de confiance (auto-évaluation de la qualité d'une traduction par le système qui l'a produite) et de l'analyse d'erreur (identification des difficultés rencontrées lors de la traduction). Malgré leur intérêt, très peu de travaux ont abordé ces deux problématiques (5) et il n'existe pas, à l'heure actuelle, d'approche convaincante.
Objectives
Cette thèse se compose de deux parties principales.
La première partie a pour objectif d'étudier de manière systématique les performances des mesures d'évaluation apprises automatiquement. Cette étude est à la fois théorique (formalisation du problème d'évaluation de la traduction et du problème d'apprentissage correspondant) expérimentale (évaluation des performances sur plusieurs corpus de traduction). Un des principal défis à aborder sera la définition des caractéristiques utilisées pour prédire la qualité d'une traduction: il n'est en particulier pas possible d'utiliser des descriptions de haut-niveau, qui résultent généralement d'une analyse morpho-syntaxique ou syntaxique de la phrase qu'il est impossible de mener sur les sorties bruitées des systèmes de traduction.
La deuxième, plus prospective, a pour objectif de généraliser les méthodes
étudiés dans la première partie aux problématiques de mesure de confiance et
d'analyse d'erreurs.
Work program
Extra information
1 K Papineni, S Roukos, T Ward, Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation, Proc ACL 2002. 2 M. Snover, B. Dorr, R. Schwartz, L. Micciulla, J. Makhoul, A Study of Translation Edit Rate with Targeted Human Annotation, Proc AMTA 2006. 3 Mohit, B. et Hwa, R. Localization of Difficult-to-Translate Phrases. Proc SMT 2007. 4 Albrecht, J. and Hwa, R. The Role of Pseudo References in MT Evaluation. Proc SMT 2008. 5 Blatz et al. Confidence estimation fo
Prerequisite
M2R en informatique, avec des
- connaissances en apprentissage statistique
- connaissances en traitement automatique des langues