Chargement...
 

Natural Language Speech and Audio Processing

Domaine
Natural Language Speech and Audio Processing
Domain - extra
Année
2013
Starting
Fall 2013
État
Open
Sujet
Génération automatique de textes adaptés à l'utilisateur
Thesis advisor
MAX Aurélien
Co-advisors
VILNAT, Anne,
LOPES, Stéphane
Laboratory
Collaborations
PRiSM, Université de Versailles
Abstract
L'accès à l'information est devenu un problème particulièrement central : l'information utile pour un besoin particulier est souvent diffuse, mêlée à des informations non pertinentes, voire dans une langue ou un registre difficilement accessible pour un utilisateur. Il est donc indispensable de travailler à des approches automatiques permettant de générer de nouveaux textes à partir de textes existants tout en respectant les besoins et préférences d'un utilisateur particulier. Le travail de
cette thèse aura pour originalité de viser à produire du texte à partir de plusieurs sources (des descriptions de travaux antérieurs dans des articles scientifiques) et réécrire automatiquement les textes d'origine afin de respecter des critères de l'utilisateur (par exemple, produire un texte court, donner plus d'importance à tel article ou auteur, préférer des mots et expressions simples).
Context
Le paradigme dominant actuellement est représenté par les moteurs de recherche : un utilisateur formule un besoin d'information sous la forme d'une requête, et reçoit une liste de documents classés par pertinence décroissante. Les agrégateurs de contenus représentent une évolution marquante dans la présentation d'informations thématiquement liées. Cependant, la présentation des résultats reste encore limitée à une liste de documents indépendants, alors que ce qui intéresse l'utilisateur dans bien des cas pourrait être une vue synthétique de l'information utile sous forme de texte. Deux besoins fondamentaux d'automatisation apparaissent donc : a) la capacité à produire un texte à partir de plusieurs textes existants ; b) la capacité à réécrire un texte pour lui appliquer certaines propriétés.

Objectives
Cette thèse utilisera comme application la constitution de résumés de descriptions de travaux scientifiques antérieurs dans un domaine donné. Le système développé produira automatiquement des résumés à des fins d'information selon deux approches, prenant chacune en entrée un article scientifique choisi par l'utilisateur :
1. Approche descendante : les articles qui citent l'article choisi sont utilisés pour construire une synthèse focalisée sur les contributions de cet article.
2. Approche ascendante : les articles cités par l'article choisi dans sa section de travaux antérieurs sont utilisés pour construire une synthèse focalisée sur le domaine de l'article.
Work program
  • réalisation d'une bibliographie sur le domaine du résumé multi-documents et de la génération texte-à-texte
  • travail de préparation des corpus d'articles scientifiques (analyse des documents, contruction du graphe de citation, apprentissage de patrons de paraphrases, etc.)
  • travail sur la sélection du contenu à partir d'un article scientifique (approche ascendante ou descendante), et évaluation impliquant l'expert
  • travail sur la génération de texte à partir de sources multiples, vraisemblablement en améliorant des approches de fusion existantes, et évaluation impliquant des résumés de « référence »
  • réalisation d'une bibliographie sur le domaine de la personnalisation des textes, et choix de certains critères à appliquer (longueur des résumés, niveau de technicité des mots et expressions utilisés)
  • travail sur l'amélioration des textes générés par réécriture visant à améliorer des critères linguistiques (grammaticalité) et prendre en compte les préférences de l'utilisateur
Extra information
Prerequisite
Formation de niveau M2 en Informatique, connaissances souhaitées en Traitement Automatique des Langues
Détails
Expected funding
allocations Digiteo/DigiCosme
Status of funding
Expected
Candidates
Utilisateur
aurelien.max
Créé
Vendredi 01 mars 2013 11:03:20 CET
dernière modif.
Vendredi 01 mars 2013 11:05:21 CET

Fichiers joints

 filenamecrééhitsfilesize 
Aucun fichier joint à cette fiche


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr