Chargement...
 

Natural Language Speech and Audio Processing

Domaine
Natural Language Speech and Audio Processing
Domain - extra
Natural Language Processing
Année
2014
Starting
01/10/2014
État
Closed
Sujet
Recherche d'information précise par processus hybrides
Thesis advisor
GRAU Brigitte
Co-advisors
Anne-Laure Ligozat
Laboratory
Collaborations
Abstract
Développer des méthodes de recherche d'information précise génériques exploitant des ressources structurées ou textuelles. Il s'agira d'étudier comment intégrer les approches existantes dans un cadre unifié dans le but de développer des techniques novatrices de représentation/compréhension du texte. L'objectif est d'élaborer une représentation sémantique des questions de suffisamment haut niveau pour pouvoir ensuite être adaptée aux différents contextes de recherche de l'information, que ce soit en domaine ouvert ou dans un domaine de spécialité.
Context
Le contexte de cette thèse est la recherche d'informations précises en langage naturel dans des textes et dans des bases de connaissances. Désormais de nombreuses bases de connaissances sont disponibles à travers les open linked data (Freebase, DBPedia...). Les interfaces en langage naturel pour ces bases de connaissance permettent d'exploiter l'expressivité des modèles de données sémantiques, tout en masquant leur complexité pour les utilisateurs. Par ailleurs, se sont développés depuis de nombreuses années des systèmes de réponse à des questions permettant de rechercher le même type d'information dans des textes.
Les données structurés offrent l'avantage d'être non ambiguës, mais d'une couverture restreinte, et nécessitent de traduire une question en langue vers un langage de requête. Les textes en revanche offrent une plus grande couverture des informations, mais ces informations sont non structurées, ambiguës, et de formulation variable.

La recherche d'information précise dans
Objectives
Développer des méthodes de recherche d'information précise génériques exploitant des ressources structurées ou textuelles. Il s'agira d'étudier comment intégrer les approches existantes dans un cadre unifié dans le but de développer des techniques novatrices de représentation/compréhension du texte. L'objectif est d'élaborer une représentation sémantique des questions de suffisamment haut niveau pour pouvoir ensuite être adaptée aux différents contextes de recherche de l'information, que ce soit en domaine ouvert ou dans un domaine de spécialité.
Work program
Cette thèse abordera les points suivants :
étudier les invariants sur les informations données dans les questions utiles pour les deux types de ressources : type de réponse attendu, focus, catégorie de la question...
produire une représentation sémantique des questions en se fondant sur des techniques d'apprentissage pour passer d'une représentation textuelle à une représentation sémantique.
Il s'agira d'explorer une annotation sémantique en utilisant des méthodes de reconnaissance d'entités et de relations de l'état de l'art, qui pourra constituer un préalable ou être intégrée à l'analyse de la question.
L'évaluation des solutions proposées sera faite notamment par la participation à des campagnes d'évaluation existantes.
Extra information
Prerequisite
Détails
Expected funding
Institutional funding
Status of funding
Confirmed
Candidates
Utilisateur
anne-laure.ligozat
Créé
Jeudi 05 juin 2014 13:00:46 CEST
dernière modif.
Vendredi 18 juillet 2014 15:27:17 CEST

Fichiers joints

 filenamecrééhitsfilesize 
Aucun fichier joint à cette fiche


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr