Chargement...
 

Parallelism-High Performance Computing-Grid

Domaine
Parallelism-High Performance Computing-Grid
Domain - extra
HPC
Année
2014
Starting
september 2014
État
Open
Sujet
Tolérance aux fautes pour des algorithmes en calcul intensif
Thesis advisor
BEAUQUIER Joffroy
Co-advisors
Laura GRIGORI
Janna BURMAN
Laboratory
Collaborations
Abstract
Ce sujet de these s'inscrit dans une activite de recherche plus large qui vise a developper des algorithmes en calcul intensif robustes et scalables pour des machines massivement paralleles. L'objectif de cette these est de proposer des algorithmes paralleles qui permettent de tolerer des fautes, s'attachant ainsi a adresser un defi majeur en calcul haute performance.
Context
Les machines massivement paralleles ont des architectures tres complexes, et sont formes par des milliers de processeurs multicoeurs et accelerateurs. La plupart des algorithmes actuels ne sont pas capables d'exploiter efficacement ces architectures. Des defis majeurs dans ce domaine sont le coût élevé des communications par rapport au coût des calculs et le taux de defaillances tres élevés de ces machines peta/exaflopiques. Avec des superordinateurs
composes de plus d'un million de coeurs, le temps entre deux pannes devient si important que les simulations numeriques peuvent ne pas pouvoir abooutir a la solution recherchee.
C'est dans ce contexte de recherche que les objectifs de cette these sont definis.


Objectives
La recherche qui sera effectuee pendant cette these se concentre sur le probleme de tolerance aux fautes dans le cadre des algorithmes en algebre lineaire qui minimisent les communications 3. Des solutions a ce probleme peuvent être fournis au niveau systeme en utilisant par exemple des points de sauvegarde et de reprise (checkpointing), cependant de telles solutions sont reconnues ne pas être scalables. Nous proposons de prendre en compte ce probleme egalement
au niveau des algorithmes numeriques, lorsqu'une solution adaptee peut être proposee danscertains cas.
Notre objectif est de comprendre, pour certaines methodes iteratives ainsi que des noyaux de calcul associes, quels algorithmes permettent de tolérer les défaillances sans augmenter par un facteur important les besoins en memoire ou en terme de calcul. Certaines de ces methodes utilisent deja des informations redondantes, et nous souhaitons utiliser ces informations pour tolérer des fautes.
Work program
Cf. document attaché
Extra information
Prerequisite
Les modules traitant du HPC et du Distributed Computing du M2R NSI, ou leurs équivalents.
Détails
Télécharger sujetPhd2013_Paris11.pdf
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
Joffroy.Beauquier
Créé
Mardi 30 avril 2013 13:22:34 CEST
dernière modif.
Mercredi 12 mars 2014 18:12:20 CET

Fichiers joints

 filenamecrééhitsfilesize 
sujetPhd2013_Paris11.pdf 30 Apr 2013 13:22245937.84 Kb


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr