La traduction de la parole est un des défis sociétaux majeurs dont l’objectif est de
permettre la communication parlée entre personnes ne parlant pas la même langue. Le
défi est également scientifique puisqu’il se situe à la jonction de deux domaines de
recherche que sont la reconnaissance automatique de la parole (ASR) et la traduction
automatique (MT). Si ces deux domaines ont connu dans les dernières décennies des
progrès considérables grâce à l’introduction de modèles statistiques, il n’existe pas
encore de solution satisfaisante pour leur couplage.
Le sujet de thèse proposé vise à imaginer et mettre en oeuvre des stratégies permettant
de mieux faire interagir reconnaissance de la parole et traduction automatique
Context
Dans la situation classique, les modèles statistiques utilisés par les
deux systèmes - ASR et MT - sont appris indépendemment, à partir de
données de différentes natures. Les modèles de reconnaissance de la
parole sont entraînés sur des données mono-lingues, alors que les modèles de traduction utilisent des données multi-lingues qui
généralement sont issus de données purement textuelles. Ainsi les corpus utilisés en MT se distinguent de différentes
manières des corpus en ASR : ce sont rarement des transcriptions de
parole et lorsque c'est le cas il s'agit toujours transcriptions
exactes, et dans lesquelles les disfluences qui caractérisent l'oral
sont gommées. De même, les modèles de traduction sont entraînés sur
des corpus parallèles qui supposent une segmentation en unités
correspondant classiquement à des phrases , alors que les données orales se présentent comme des flux de
mots, séparés éventuellement par des trames de silence
Objectives
Le couplage le plus élémentaire pour traduire de la parole
consiste à donner en entrée du système de traduction la séquence de
mots la plus probable issue du système de reconnaissance de la parole,
sans se soucier de l'absence d'adéquation entre les modèles
qu'utilisent ces deux systèmes.
Dans cette thèse nous proposons d'explorer plus généralement et en profondeur les possibilités de couplage.
Plus généralement la modélisation de l'oral dans les systèmes de
traduction pose des questions fondamentales, renvoyant notamment à la
question des unités et de la segmentation, mais aussi à la nature
mêmes des modèles de traduction qui, contrairement aux modèles
de langues bien adaptés aux phénomènes locaux présents dans la parole spontannée, doivent intégrer des dépendances à long terme.
Enfin dans l'idéal, les modèles utilisés par les deux systèmes devraient être optimisés de manière conjointe. Etant donnée la taille des modèles utilisés, ceci constitue un défi scientifique et p
Work program
Le (la) doctorant(e) sera intégré(e) au groupe Traitement du Langage Parlé (TLP) du LIMSI-CNRS, qui réalise des recherches au plus haut niveau dans les deux domaines ASR et MT, et plus généralement en apprentissage statistique.
Il (elle) bénéficiera d'un environnement dynamisé par de nombreux projets lui permettant de mettre en place des expériences sur de larges corpus, dans domaines variés (sous-titrage et traduction de bulletins d'informations, de séries télévisées et films, de conférences et cours, et dialogues multilingues) et pour différents couples de langues.