Les masses de données produites par les sciences du vivant ont augmenté de façon spectaculaire ces dernières années. La tâche fondamentale de la bioinformatique est d’extraire des connaissances de ces masses de données brutes. Cela est réalisé grâce à l’assemblage d'une multitude d’outils et d’algorithmes. Des efforts considérables ont été faits dans le développement de systèmes d’aide à la conception et la gestion de tels assemblages de programmes d'analyse, appelés systèmes de gestion de workflows scientifiques. L’utilisation de workflows garantit la reproductibilité d'une expérience et la possibilité de partager les moyens de produire des ensembles de données. De grands entrepôts de workflows sont actuellement disponibles.
L'objectif est de fournir un cadre d’'interrogation pour réutiliser et adapter les workflows existants en considérant le problème de la citation des workflows réutilisés. L’approche sera évaluée sur un ensemble de workflows d'annotation systémique de bactéries.
Context
La taille des jeux de données bioinformatiques a augmenté de façon spectaculaire ces dernières années. La tâche la plus importante effectuée sur ces de données est leur analyse réalisée par l'assemblage d'une multitude de scripts, d’outils et d’algorithmes. Des efforts considérables ont été fait dans le développement de systèmes pour soutenir la conception et la gestion de tels programmes complexes d'analyse, appelés systèmes de gestion workflows scientifiques (e.g., (Oinn et al., 2006) (Ludäscher et al., 2006)). L’utilisation de workflows garantit la reproductibilité d'une expérience et la possibilité de partager les moyens de produire des ensembles de données. De grands entrepôts de workflows bioinformatiques sont actuellement disponibles mais l’accès à leur contenu (interrogation) demeure une tâche complexe.
Objectives
L'objectif de cette thèse est de fournir aux scientifiques un cadre d’'interrogation pour réutiliser et adapter à leurs besoins les workflows existants tout en tenant compte du problème de la citation des workflows ainsi récupérés et réutilisés. Cette thèse se placera en partie dans le cadre du Lidex IMSV (Institut de Modélisation des Systèmes Vivants) dont l’un des objectifs est de constituer une base de workflows pour l'annotation systémique de génomes bactériens. Plus particulièrement, nous considèrerons trois tâches.
Work program
(1) Conception d’un cadre de comparaison de workflows et d’un langage de requêtes pour l’interrogation d’entrepôts de workflows. Le cadre devra considérer et combiner différents critères de similarité de workflows basés sur leur spécification et leurs exécutions (provenance). Les critères peuvent être basés sur une description textuelle, sémantique, ou sur la structure (graphe) des workflows. Le défi à relever est double : calculer la similarité entre workflows de façon rapide et fiable tout en offrant un langage de requêtes expressif pour l’interrogation efficace des entrepôts de workflows.
(2) Conception d’algorithmes pour tracer la réutilisation de workflows : conception d’une structure concise de représentation des workflows capable de rendre compte des différences (structurelles) entre les workflows.
(3) Preuve de concept dans le contexte d'annotation systémique de génomes bactériens en collaboration avec des scientifiques de l'INRA.
Extra information
Prerequisite
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
sarah.cohen-boulakia
Créé
Vendredi 30 mai 2014 12:00:43 CEST
dernière modif.
Lundi 01 septembre 2014 12:41:42 CEST
Fichiers joints
filename
créé
hits
filesize
Aucun fichier joint à cette fiche
Connexion
Ecole Doctorale Informatique Paris-Sud
Directrice
Nicole Bidoit Assistante
Stéphanie Druetta Conseiller aux thèses
Dominique Gouyou-Beauchamps
ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr