IA, Apprentissage, TAL, EI, biologie plantes, dévelopt graine, bio moléculaire
Année
2012
Starting
1er janvier 2012
État
Closed
Sujet
Extraction d’information à partir d’article scientifique appliqué à la prédiction de régulations biologiques impliquées dans de développement de la graine chez Arabidopsis Thaliana.
Thesis advisor
ZWEIGENBAUM Pierre
Co-advisors
Claire Nédellec, chercheur, responsable de l’équipe Bibliome, unité MIG (Mathématique, Informatique et Génome), centre INRA de Jouy-en-Josas. Contribution 50 %
Outre LIMSI et MIG, la thèse s’appuiera sur une collaboration étroite en biologie végétale avec Loïc Lepiniec et Bertrand Dubreucq de l’équipe Développement et qualité des graines de l’Institut Jean-Pierre Bourgin (IJPB) centre INRA de Versailles portée par un LabEx. Elle bénéficiera des collaborations avec le LIG pour le bi-clustering, le DBCLS, Tokyo (MOU INRA) pour l’évaluation des résultats, le GDEC (INRA) et l’institut technique Arvalis pour le transfert des résultats au blé.
Abstract
Thème : Extraction automatique de connaissances sémantiques relationnelles à partir d’articles scientifiques sur le développement de la graine de la plante modèle Arabidopsis thaliana.
Les connaissances extraites permettront la reconstruction des réseaux de régulations.
La multiplicité des entités biologiques impliquées et la complexité de leurs relations nécessitent une approche applicable à grande échelle et capable de les distinguer à partir de textes en langue naturelle. L’approche retenue est celle de l’apprentissage automatique supervisé, appliqué à des exemples préalablement représentés et normalisés grâce à une analyse linguistique automatique, en premier lieu l’approche de noyau à base de graphe et de sémantique distributionnelle. Nous voulons étudier particulièrement ici la représentation de l’information linguistique, la plus appropriée pour optimiser l’algorithme d’apprentissage et l’adapter aux spécificités de la rhétorique scientifique de la biologie moléculaire.
Context
Une meilleure connaissance du développement des graines est un enjeu majeur pour l’agriculture et certaines industries. Une partie critique de la connaissance nécessaire à la modélisation de régulations chez Arabidopsis est exprimée dans des articles scientifiques en langue naturelle. Les données de régulation sont nombreuses, dispersées dans la littérature sous une forme complexe. Elles sont de plus en plus difficiles à appréhender de façon exhaustive en vue de leur exploitation pour la compréhension des réseaux de régulation. L’apprentissage automatique est l’approche dominante en EI. La variabilité des formulations textuelles pour une même connaissance impose une étape d’analyse linguistique qui associe aux exemples d’apprentissage issus du texte, un ensemble d’informations qui mettent en évidence des régularités implicites. L’application de l’EI à Arabidopsis rencontre deux obstacles majeurs, la complexité du modèle de connaissance et le nombre d’exemples d’apprentissage nécessaire
Objectives
D'un point de vue méthodologique, il s'agira de
proposer une représentation des exemples et un algorithme d’apprentissage aptes à mieux tirer parti de l’analyse linguistique ;
la représentation exploitera des informations linguistiques plus avancées, comme les dépendances syntaxiques et la sous-catégorisation des prédicats nominaux et verbaux, pour concevoir une normalisation linguistique plus appropriée en préalable à l’apprentissage ;
combiner les bases de données disponibles sur les régulations chez Arabidopsis et les textes à analyser pour mettre en place un apprentissage faiblement supervisé, qui réduira la quantité d'exemples à annoter, goulot d'étranglement en apprentissage supervisé.
Ces méthodes seront évaluées et publiées sur les données de référence produites par les biologistes de l’IJPB et en participant aux challenges d’extraction d'information en biologie.
Work program
Bibliographie sur les méthodes à noyaux, évaluation des apports des différentes représentations linguistiques comparativement aux autres méthodes de l’état de l’art. Affinage de la définition de la tâche avec les biologistes de l’IJPB. Développement de l’approche faiblement supervisée et annotation par son biais d'un corpus d’apprentissage.
Proposition d'une représentation des exemples et d'un algorithme d’apprentissage capable d’exploiter l’information de la sémantique distributionnelle et des cadres de sous-catégorisation. Évaluation sur les phrases du corpus d’Arabidopsis et sur les benchmarks BioNLP’11 et BioNLP’13. Publication des résultats.
Traitement de la coréférence. Application de la méthode à grande échelle à la prédiction biologique pour Arabidopsis. Les résultats seront publiés en fonction de leur pertinence dans les journaux cités. Généralisation de la méthode à d’autres espèces, le blé avec le GDEC (INRA) et les bactéries avec MICALIS (INRA).
Extra information
Ce projet de thèse interdisciplinaire a été déposé auprès de l'IDEX.
Prerequisite
Le candidat devra posséder un master en informatique ou équivalent avec une spécialité ou une expérience en apprentissage artificiel. Une expérience ou formation en TAL sera un plus. Le candidat devra également présenter une expérience de recherche appliquée au domaine de la biologie.
La candidate proposée pour le dépôt à l’IDEX est Dialekti Valsamou. Elle effectue actuellement sa recherche en CDD dans l’équipe Bibliome INRA sur l’objectif biologique de l’IJPB INRA, financée par le projet Quaero en collaboration avec ILES LIMSI, après son Master MPRI (stage dans l’équipe TAO, LRI). Elle a également suivi les cours de mise à niveau en biologie du Master BIBS et validé le cours avancé en apprentissage de Stanford.
Utilisateur
Pierre.Zweigenbaum
Créé
Vendredi 15 juin 2012 17:01:45 CEST
dernière modif.
Jeudi 18 octobre 2012 21:56:10 CEST
Fichiers joints
filename
créé
hits
filesize
IDI 2012-LIMSI-MIG.pdf
15 Jun 2012 17:01
2039
190.01 Kb
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr