Chargement...
 

Historique de fiche de formulaire


Version Date Utilisateur ID du Champ Champ Difference
3 18 Oct 2012 21:56 Pierre.Zweigenbaum 191 Status
-Open +Closed
2 15 Jun 2012 17:11 Pierre.Zweigenbaum 182 Work program
-# Bibliographie sur les méthodes à noyaux, évaluation des apports des différentes représentations linguistiques comparativement aux autres méthodes de l’état de l’art.Affinage de la définition de la tâche avec les biologistes de l’IJPB.Développement de l’approche faiblement supervisée et annotation par son biais d'un corpus d’apprentissage.# Proposition d'une représentation des exemples et d'un algorithme d’apprentissage capable d’exploiter l’information de la sémantique distributionnelle et des cadres de sous-catégorisation.Évaluation sur les phrases du corpus d’Arabidopsis et sur les benchmarks BioNLP’11 et BioNLP’13. Publication des résultats.# Traitement de la coréférence. Application de la méthode à grande échelle à la prédiction biologique pour Arabidopsis. Les résultats seront publiés en fonction de leur pertinence dans les journaux cités.Généralisation de la méthode à d’autres espèces, le blé avec le GDEC (INRA) et les bactéries avec MICALIS (INRA). +# Bibliographie sur les méthodes à noyaux, évaluation des apports des différentes représentations linguistiques comparativement aux autres méthodes de l’état de l’art. Affinage de la définition de la tâche avec les biologistes de l’IJPB. Développement de l’approche faiblement supervisée et annotation par son biais d'un corpus d’apprentissage.# Proposition d'une représentation des exemples et d'un algorithme d’apprentissage capable d’exploiter l’information de la sémantique distributionnelle et des cadres de sous-catégorisation. Évaluation sur les phrases du corpus d’Arabidopsis et sur les benchmarks BioNLP’11 et BioNLP’13. Publication des résultats.# Traitement de la coréférence. Application de la méthode à grande échelle à la prédiction biologique pour Arabidopsis. Les résultats seront publiés en fonction de leur pertinence dans les journaux cités. Généralisation de la méthode à d’autres espèces, le blé avec le GDEC (INRA) et les bactéries avec MICALIS (INRA).
      183 Objectives
 D'un point de vue méthodologique, il s'agira de D'un point de vue méthodologique, il s'agira de
-*proposer une représentation des exemples et un algorithme d’apprentissage aptes à mieux tirer parti de l’analyse linguistique : +*proposer une représentation des exemples et un algorithme d’apprentissage aptes à mieux tirer parti de l’analyse linguistique ;
 * la représentation exploitera des informations linguistiques plus avancées, comme les dépendances syntaxiques et la sous-catégorisation des prédicats nominaux et verbaux, pour concevoir une normalisation linguistique plus appropriée en préalable à l’apprentissage ; * la représentation exploitera des informations linguistiques plus avancées, comme les dépendances syntaxiques et la sous-catégorisation des prédicats nominaux et verbaux, pour concevoir une normalisation linguistique plus appropriée en préalable à l’apprentissage ;
 *combiner les bases de données disponibles sur les régulations chez Arabidopsis et les textes à analyser pour mettre en place un apprentissage faiblement supervisé, qui réduira la quantité d'exemples à annoter, goulot d'étranglement en apprentissage supervisé. *combiner les bases de données disponibles sur les régulations chez Arabidopsis et les textes à analyser pour mettre en place un apprentissage faiblement supervisé, qui réduira la quantité d'exemples à annoter, goulot d'étranglement en apprentissage supervisé.
 Ces méthodes seront évaluées et publiées sur les données de référence produites par les biologistes de l’IJPB et en participant aux challenges d’extraction d'information en biologie. Ces méthodes seront évaluées et publiées sur les données de référence produites par les biologistes de l’IJPB et en participant aux challenges d’extraction d'information en biologie.
      185 Extra information
-Ce projet de thèse a été déposé auprès de l'IDEX. +Ce projet de thèse interdisciplinaire a été déposé auprès de l'IDEX.
1 15 Jun 2012 17:05 Pierre.Zweigenbaum 180 Abstract
-Il porte sur l’extraction automatique de connaissances sémantiques relationnelles à partir d’articles scientifiques sur le développement de la graine de la plante modèle Arabidopsis thaliana. Les connaissances extraites permettront la reconstruction des réseaux de régulations. La multiplicité des entités biologiques impliquées et la complexité de leurs relations nécessitent une approche applicable à grande échelle et capable de les distinguer à partir de textes en langue naturelle. L’approche retenue est celle de l’apprentissage automatique supervisé, appliqué à des exemples préalablement représentés et normalisés grâce à une analyse linguistique automatique, en premier lieu l’approche de noyau à base de graphe et de sémantique distributionnelle. Nous voulons étudier particulièrement ici la représentation de l’information linguistique, la plus appropriée pour optimiser l’algorithme d’apprentissage et l’adapter aux spécificités de la rhétorique scientifique de la biologie moléculaire. +Thème : Extraction automatique de connaissances sémantiques relationnelles à partir d’articles scientifiques sur le développement de la graine de la plante modèle Arabidopsis thaliana.Les connaissances extraites permettront la reconstruction des réseaux de régulations.La multiplicité des entités biologiques impliquées et la complexité de leurs relations nécessitent une approche applicable à grande échelle et capable de les distinguer à partir de textes en langue naturelle. L’approche retenue est celle de l’apprentissage automatique supervisé, appliqué à des exemples préalablement représentés et normalisés grâce à une analyse linguistique automatique, en premier lieu l’approche de noyau à base de graphe et de sémantique distributionnelle. Nous voulons étudier particulièrement ici la représentation de l’information linguistique, la plus appropriée pour optimiser l’algorithme d’apprentissage et l’adapter aux spécificités de la rhétorique scientifique de la biologie moléculaire.
      189 Collaborations
-La thèse s’appuira sur une collaboration étroite en biologie végétale avec Loïc Lepiniec et Bertrand Dubreucq de l’équipe ''Développement et qualité des graines'' de l’Institut Jean-Pierre Bourgin (IJPB) centre INRA de Versailles portée par un LabEx. Elle bénéficiera des collaborations avec le LIG pour le bi-clustering, le DBCLS, Tokyo (MOU INRA) pour l’évaluation des résultats, le GDEC (INRA) et l’institut technique Arvalis pour le transfert des résultats au blé. +Outre LIMSI et MIG, la thèse s’appuiera sur une collaboration étroite en biologie végétale avec Loïc Lepiniec et Bertrand Dubreucq de l’équipe ''Développement et qualité des graines'' de l’Institut Jean-Pierre Bourgin (IJPB) centre INRA de Versailles portée par un LabEx. Elle bénéficiera des collaborations avec le LIG pour le bi-clustering, le DBCLS, Tokyo (MOU INRA) pour l’évaluation des résultats, le GDEC (INRA) et l’institut technique Arvalis pour le transfert des résultats au blé.

Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr