S'appuie sur une collaboration industrielle avec l'entreprise Wepingo.
Abstract
L'explosion du nombre de sources d'information disponibles via le Web multiplie les besoins de techniques permettant d'accéder au contenu sémantique de ces sources et de les interroger plus finement qu'avec une simple recherche de mots clés. Le paradigme le plus puissant proposé actuellement pour résoudre cette tâche est celui établi dans la vision du web sémantique : développemetn d'ontologies, annotation des documents des sources avec les éléments de l'ontologie et interrogation des sources via le vocabulaire exprimé dans l'ontologie. L'un des aspects clés de ce paradigme est la phase d'annotation qui fera l'objet de cette thèse.
Context
Différents outils d'annotation ont été proposés dans des domaiens spécifiques. Ils exploitent des techniques variées s'appuyant sur de spatrons lexico-syntaxiques génériques ou définis par un expert du domaine, des ressources lexicales pré-établies, éventuellement la structure du document, pour reconnaître la forme de surface d'un type d'élément ontologique particulier (concept, instance de concept, Entité Nomméee, relation). Le traitement des élément spris individuellement conduit toutefois souvent à de mauvaises interprétations. Comme l'ont montré les travaux précédents, il faut être capable, pour établir une annotation, de prendre davantage en considération l'aspect sémantique. Cela signifie interpréter la présence simultanée de différents termes linguistiques et l'absence d'autres, comprendre le contexte défini par différents éléments reconnus dans le document et mis en relation, savoir interpréter l'absence d'autres éléments, inférer certaines connaissances.
Objectives
Il s'agira dans cette thèse de définir une approche permettant d'exploiter les différents composants d'une ontologie (définition et classification des concepts, relations, contraintes) afin d'établir différentes formes d'annotations plus complexes que de simples concepts, c'est-à-dire des représentations formelles structurées, interprétables à l'aide d'une ontologie, et sur lesquelles il est possible de raisonner pour produire de réelles annotations sémantiques. Ces annotations devront pouvoir être établies en raisonnant sur le contexte défini par els différents éléments reconnus dans le document, ce qui suppose une représentation formelle de ce contexte. Dans un second temps, il s'agira de définir des mécanismes de raisonnement portant sur les annotations pour faciliter la recherche d'information et produire des réponses à des requêtes les plus pertinentes possibles.
Work program
Le programme de travail consistera dans un premier temps à faire une étude bibliographique sur les différentes approches d'annotation sémantique de documents. Cette étude devra déboucher sur des propostions pour concevoir une approche pour produire des annotations complexes, en définissant le contenu de ces annotations, leur représentation et la façon de les produire. Dans une seconde partie de la thèse, il s'agira d'étudier les mécanismes de raisonnement les plus appropriés basés sur les annotations complexes préalablement définies afin de produire des réponses à des requêtes les plus pertinentes possibles.
Extra information
Prerequisite
Technologies du web sémantique : ontologie, annotation, techniques d'extraction d'information, l'exploitation de ressources lexicales
Langages de représentation des connaisances
Mécanimes de raisonnement automatique