L'accès à l'information est devenu un problème particulièrement central : l'information utile pour un besoin particulier est souvent diffuse, mêlée à des informations non pertinentes, voire dans une langue ou un registre difficilement accessible pour un utilisateur. Il est donc indispensable de travailler à des approches automatiques permettant de générer de nouveaux textes à partir de textes existants tout en respectant les besoins et préférences d'un utilisateur particulier. Le travail de
cette thèse aura pour originalité de viser à produire du texte à partir de plusieurs sources (des descriptions de travaux antérieurs dans des articles scientifiques) et réécrire automatiquement les textes d'origine afin de respecter des critères de l'utilisateur (par exemple, produire un texte court, donner plus d'importance à tel article ou auteur, préférer des mots et expressions simples).
Context
Le paradigme dominant actuellement est représenté par les moteurs de recherche : un utilisateur formule un besoin d'information sous la forme d'une requête, et reçoit une liste de documents classés par pertinence décroissante. Les agrégateurs de contenus représentent une évolution marquante dans la présentation d'informations thématiquement liées. Cependant, la présentation des résultats reste encore limitée à une liste de documents indépendants, alors que ce qui intéresse l'utilisateur dans bien des cas pourrait être une vue synthétique de l'information utile sous forme de texte. Deux besoins fondamentaux d'automatisation apparaissent donc : a) la capacité à produire un texte à partir de plusieurs textes existants ; b) la capacité à réécrire un texte pour lui appliquer certaines propriétés.
Objectives
Cette thèse utilisera comme application la constitution de résumés de descriptions de travaux scientifiques antérieurs dans un domaine donné. Le système développé produira automatiquement des résumés à des fins d'information selon deux approches, prenant chacune en entrée un article scientifique choisi par l'utilisateur :
1. Approche descendante : les articles qui citent l'article choisi sont utilisés pour construire une synthèse focalisée sur les contributions de cet article.
2. Approche ascendante : les articles cités par l'article choisi dans sa section de travaux antérieurs sont utilisés pour construire une synthèse focalisée sur le domaine de l'article.
Work program
réalisation d'une bibliographie sur le domaine du résumé multi-documents et de la génération texte-à-texte
travail de préparation des corpus d'articles scientifiques (analyse des documents, contruction du graphe de citation, apprentissage de patrons de paraphrases, etc.)
travail sur la sélection du contenu à partir d'un article scientifique (approche ascendante ou descendante), et évaluation impliquant l'expert
travail sur la génération de texte à partir de sources multiples, vraisemblablement en améliorant des approches de fusion existantes, et évaluation impliquant des résumés de « référence »
réalisation d'une bibliographie sur le domaine de la personnalisation des textes, et choix de certains critères à appliquer (longueur des résumés, niveau de technicité des mots et expressions utilisés)
travail sur l'amélioration des textes générés par réécriture visant à améliorer des critères linguistiques (grammaticalité) et prendre en compte les préférences de l'utilisateur
Extra information
Prerequisite
Formation de niveau M2 en Informatique, connaissances souhaitées en Traitement Automatique des Langues
Détails
Expected funding
allocations Digiteo/DigiCosme
Status of funding
Expected
Candidates
Utilisateur
aurelien.max
Créé
Vendredi 01 mars 2013 11:03:20 CET
dernière modif.
Vendredi 01 mars 2013 11:05:21 CET
Fichiers joints
filename
créé
hits
filesize
Aucun fichier joint à cette fiche
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr