Ce sujet de thèse porte sur la réécriture automatique de texte : étant
donné un texte existant, il s'agit de lui apporter des transformations
souhaitables relativement à un objectif particulier (plus court, plus
adapté à un utilisateur ou à un système particulier, plus simple, etc.),
ou éventuellement déterminer qu'un texte correspond déjà au meilleur
texte pour cet objectif. Les problèmes abordés porteront sur la
définition et l'acquisition automatique des transformations possibles,
sur la définition d'une fonction objectif, et sur le parcours performant
de l'espace des transformations possibles. Une évaluation des textes
réécrits pourra être faite indirectement en mesurant l'impact des
nouveaux textes sur des tâches classiques du Traitement Automatique des
Langues.
Context
La réécriture automatique de texte trouve de nombreuses applications:
résumer un texte (domaine du résumé automatique), lui imposer certaines
contraintes (domaine de la normalisation de documents), l'adapter à un
lectorat particulier (domaines de la simplification de texte et de la
traduction automatique). La
disponibilité de larges corpus textuels et les avancées du Traitement
Automatique des Langues, notamment issues du domaine de la Traduction
Automatique Statistique, ont depuis contribué à redéfinir la génération
automatique comme un problème de transformation de texte en texte
(text-to-text generation, cf. https://sites.google.com/site/texttotext2011/). Cette conception soulève
les questions suivantes: comment apprendre les transformations
possibles, comment les appliquer à une phrase tout en conservant le sens d'origine et la grammaticalité d'un énoncé, et comment définir la
fonction objectif qui permettra de poser un texte comme préférable à un
autre?
Objectives
Le premier objectif consistera à étudier les propositions
existantes en réécriture de texte monolingue et à les améliorer. Une
direction initiale prometteuse portera sur l'apprentissage automatique
de règles de réécriture depuis des corpus parallèles bilingues.
L'amélioration de ces techniques reposera notamment sur des estimations
de la substituabilité en contexte de paraphrases et de la grammaticalité
d'un texte pour guider la réécriture. Un second objectif consistera à définir une fonction objectif pour guider la recherche d'une meilleure réécriture. Une
voie à étudier sera de considérer les formulations d'un corpus de
référence comme représentatives de ce qui devrait être produit. Un dernier objectif consistera à intégrer le système de réécriture à une ou plusieurs applications, en adaptant
notamment sa fonction objectif, ce qui permettra d'utiliser les métriques d'évaluation éprouvées des
applications concernées pour évaluer indirectement le système de réécriture.
Work program
Le travail de thèse mènera à une synthèse de l'état de l'art du domaine
de la réécriture monolingue et à la proposition et l'implémentation de
propositions originales. Le travail inclura : l'acquisition de règles de
réécriture et leur caractérisation en contexte ; l'estimation de la
grammaticalité d'un énoncé ; la définition d'une fonction objectif,
définie soit par un corpus de référence, soit par une application
particulière ; et le parcours performant de l'espace de recherche des
transformations pour identifier la meilleure réécriture.
Extra information
Prerequisite
Master 2 Recherche ou équivalent en Informatique, avec une
spécialisation en Traitement Automatique des Langues
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Oui : Benjamin Marie (M2 Ingénierie Linguistique, M1 Informatique)
Utilisateur
aurelien.max
Créé
Lundi 18 juin 2012 10:40:44 CEST
dernière modif.
Lundi 18 juin 2012 10:40:44 CEST
Fichiers joints
filename
créé
hits
filesize
Aucun fichier joint à cette fiche
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr