Bioinformatics

Éléments

Domaine

Bioinformatics

Domain - extra

IA, Apprentissage, TAL, EI, biologie plantes, dévelopt graine, bio moléculaire

Année

2012

Starting

1er janvier 2012

État

Closed

Sujet

Extraction d’information à partir d’article scientifique appliqué à la prédiction de régulations biologiques impliquées dans de développement de la graine chez Arabidopsis Thaliana.

Thesis advisor

ZWEIGENBAUM Pierre

Co-advisors

Claire Nédellec, chercheur, responsable de l’équipe Bibliome, unité MIG (Mathématique, Informatique et Génome), centre INRA de Jouy-en-Josas. Contribution 50 %

Laboratory

LIMSI ILES

Collaborations

Outre LIMSI et MIG, la thèse s’appuiera sur une collaboration étroite en biologie végétale avec Loïc Lepiniec et Bertrand Dubreucq de l’équipe Développement et qualité des graines de l’Institut Jean-Pierre Bourgin (IJPB) centre INRA de Versailles portée par un LabEx. Elle bénéficiera des collaborations avec le LIG pour le bi-clustering, le DBCLS, Tokyo (MOU INRA) pour l’évaluation des résultats, le GDEC (INRA) et l’institut technique Arvalis pour le transfert des résultats au blé.

Abstract

Thème : Extraction automatique de connaissances sémantiques relationnelles à partir d’articles scientifiques sur le développement de la graine de la plante modèle Arabidopsis thaliana.
Les connaissances extraites permettront la reconstruction des réseaux de régulations.

La multiplicité des entités biologiques impliquées et la complexité de leurs relations nécessitent une approche applicable à grande échelle et capable de les distinguer à partir de textes en langue naturelle. L’approche retenue est celle de l’apprentissage automatique supervisé, appliqué à des exemples préalablement représentés et normalisés grâce à une analyse linguistique automatique, en premier lieu l’approche de noyau à base de graphe et de sémantique distributionnelle. Nous voulons étudier particulièrement ici la représentation de l’information linguistique, la plus appropriée pour optimiser l’algorithme d’apprentissage et l’adapter aux spécificités de la rhétorique scientifique de la biologie moléculaire.

Context

Une meilleure connaissance du développement des graines est un enjeu majeur pour l’agriculture et certaines industries. Une partie critique de la connaissance nécessaire à la modélisation de régulations chez Arabidopsis est exprimée dans des articles scientifiques en langue naturelle. Les données de régulation sont nombreuses, dispersées dans la littérature sous une forme complexe. Elles sont de plus en plus difficiles à appréhender de façon exhaustive en vue de leur exploitation pour la compréhension des réseaux de régulation. L’apprentissage automatique est l’approche dominante en EI. La variabilité des formulations textuelles pour une même connaissance impose une étape d’analyse linguistique qui associe aux exemples d’apprentissage issus du texte, un ensemble d’informations qui mettent en évidence des régularités implicites. L’application de l’EI à Arabidopsis rencontre deux obstacles majeurs, la complexité du modèle de connaissance et le nombre d’exemples d’apprentissage nécessaire

Objectives

D'un point de vue méthodologique, il s'agira de

proposer une représentation des exemples et un algorithme d’apprentissage aptes à mieux tirer parti de l’analyse linguistique ;
la représentation exploitera des informations linguistiques plus avancées, comme les dépendances syntaxiques et la sous-catégorisation des prédicats nominaux et verbaux, pour concevoir une normalisation linguistique plus appropriée en préalable à l’apprentissage ;
combiner les bases de données disponibles sur les régulations chez Arabidopsis et les textes à analyser pour mettre en place un apprentissage faiblement supervisé, qui réduira la quantité d'exemples à annoter, goulot d'étranglement en apprentissage supervisé.

Ces méthodes seront évaluées et publiées sur les données de référence produites par les biologistes de l’IJPB et en participant aux challenges d’extraction d'information en biologie.

Work program

Bibliographie sur les méthodes à noyaux, évaluation des apports des différentes représentations linguistiques comparativement aux autres méthodes de l’état de l’art. Affinage de la définition de la tâche avec les biologistes de l’IJPB. Développement de l’approche faiblement supervisée et annotation par son biais d'un corpus d’apprentissage.
Proposition d'une représentation des exemples et d'un algorithme d’apprentissage capable d’exploiter l’information de la sémantique distributionnelle et des cadres de sous-catégorisation. Évaluation sur les phrases du corpus d’Arabidopsis et sur les benchmarks BioNLP’11 et BioNLP’13. Publication des résultats.
Traitement de la coréférence. Application de la méthode à grande échelle à la prédiction biologique pour Arabidopsis. Les résultats seront publiés en fonction de leur pertinence dans les journaux cités. Généralisation de la méthode à d’autres espèces, le blé avec le GDEC (INRA) et les bactéries avec MICALIS (INRA).

Extra information

Ce projet de thèse interdisciplinaire a été déposé auprès de l'IDEX.

Prerequisite

Le candidat devra posséder un master en informatique ou équivalent avec une spécialité ou une expérience en apprentissage artificiel. Une expérience ou formation en TAL sera un plus. Le candidat devra également présenter une expérience de recherche appliquée au domaine de la biologie.

Détails

IDI 2012-LIMSI-MIG.pdf

Expected funding

Research contract

Status of funding

Expected

Candidates

La candidate proposée pour le dépôt à l’IDEX est Dialekti Valsamou. Elle effectue actuellement sa recherche en CDD dans l’équipe Bibliome INRA sur l’objectif biologique de l’IJPB INRA, financée par le projet Quaero en collaboration avec ILES LIMSI, après son Master MPRI (stage dans l’équipe TAO, LRI). Elle a également suivi les cours de mise à niveau en biologie du Master BIBS et validé le cours avancé en apprentissage de Stanford.

Utilisateur

Pierre.Zweigenbaum

Créé

Vendredi 15 juin 2012 17:01:45 CEST

dernière modif.

Jeudi 18 octobre 2012 21:56:10 CEST

Fichiers joints

	filename	créé	hits	filesize
	IDI 2012-LIMSI-MIG.pdf	15 Jun 2012 17:01	2039	190.01 Kb

Connexion

Ecole Doctorale Informatique Paris-Sud

Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr