Chargement...
 

Historique de fiche de formulaire


Version Date Utilisateur ID du Champ Champ Difference
2 190 Year
-2012 +2014
1 178 Thesis advisor
-YVON François +ALLAUZEN Alexandre
      179 Subject
- Modélisation statistique de la langue dans un espace continu + Modèles neuronaux pour le traitement automatique des langues
      180 Abstract
-Les modèles statistiques de la langue constituent une source deconnaissance indispensable à de nombreuses applications comme latraduction automatique. Les modèles actuels sont discrets et montrentdes capacités d'apprentissage et de généralisation insuffisantes. +Les réseaux de neurones artificiels occupent une place de plus en grande dans le paysage de l'apprentissage automatique en général et en particulier pour le traitement automatique des langues.
 L'objectif de la thèse est de développer des nouveaux modèles dont le principe consiste à projeter les mots dans un espace de représentation continu afin d'y estimer les probabilités. L'hypothèse est que les mots similaires auront des projections voisines et donc des distributions proches. La projection et l'estimation se font conjointement à l'aide d'un réseau de neurones appris automatiquement. Cette approche a donné des résultats prometteurs dans un cadre monolingue, nous proposons de l'étendre à la traduction automatique selon trois axes: l'apprentissage de modèles capables de mieux prendre en compte la structure syntaxique, l'amélioration des algorithmes d'estimation, et l'adaptation des modèles. L'objectif de la thèse est de développer des nouveaux modèles dont le principe consiste à projeter les mots dans un espace de représentation continu afin d'y estimer les probabilités. L'hypothèse est que les mots similaires auront des projections voisines et donc des distributions proches. La projection et l'estimation se font conjointement à l'aide d'un réseau de neurones appris automatiquement. Cette approche a donné des résultats prometteurs dans un cadre monolingue, nous proposons de l'étendre à la traduction automatique selon trois axes: l'apprentissage de modèles capables de mieux prendre en compte la structure syntaxique, l'amélioration des algorithmes d'estimation, et l'adaptation des modèles.
      181 Context
-Les modèles statistiques de la langue constituent une source deconnaissance indispensable à de nombreuses applications comme lareconnaissance automatique de la parole, et la traduction automatique.Ces modèles visent à capturer les principales régularités statistiquesdes occurrences de mots dans les textes, de façon à refléter, via desdistributions de probabilité, diverses contraintes linguistiques.L'approche standard consiste à modéliser une phrase comme une sourceMarkovienne (le modèle n-gramme) qui prédit chaque mot en fonction des (n-1) prédécesseurs. Les mots sont alors représentés par un indice dans un espace discret correspondant au vocabulaire. Cette représentation est dénuée de structure et ne permet pas de généralisation: par exemple il s'avère extrêmement difficile de prédire la probabilité de séquences non observées, puisqu'il n'existe aucune notion de proximité dans cet espace discret. +Historiquement, les modèles n-grammes de langue neuronaux furent une des premières applications marquantes en reconnaissance automatique de la parole. Ces modèles ont été également appliqués à d'autres tâches complexes de modélisation comme par exemple l'analyse syntaxique, l'estimation de similarité sémantique, les modèles d'alignement bilingue de mots ou encore en traduction automatique statistique. Par opposition aux modèles discrets qui dominent encore, les modèles de langue neuronaux se caractérisent par la représentation des mots dans un espace continu, où chaque mot du vocabulaire est représenté comme un point dans un espace métrique. Ces représentations sont apprises par un réseau de neurones multi-couche conjointement avec les paramètres liés à la tâche de prédiction considérée. Ce type de modèle introduit la notion de similarité entre mots, via les représentations continues, permettant ainsi une meilleure exploitation des données textuelles.
      182 Work program
 Trois axes sont envisagés. Le premier axe concerne l'introduction Trois axes sont envisagés. Le premier axe concerne l'introduction
-explicite de la syntaxe dans les modèles de langues neuronaux. Des +explicite d'information syntaxique dans les modèles de langues neuronaux. Des
 travaux récents ont envisagé l'analyse syntaxique par le biais de travaux récents ont envisagé l'analyse syntaxique par le biais de
 réseaux de neurones récurrents. L'objectif de cet axe est donc réseaux de neurones récurrents. L'objectif de cet axe est donc
 second axe s'intéresse aux stratégies d'apprentissage novatrices et second axe s'intéresse aux stratégies d'apprentissage novatrices et
 appropriées à ce type de modèle contenant un grand nombre de appropriées à ce type de modèle contenant un grand nombre de
-paramètres: l'apprentissage Bayésien propose un cadre théorique où lastructure même des modèles fait partie des connaissances à inférer; +paramètres: une nouvelle méthode émerge dans ce domaine (Noise Contrastive Estimation), une piste serait d'explorer l'application de cette méthode aux modèles de traduction;
 une autre manière d'appréhender ce problème est de s'intéresser à la une autre manière d'appréhender ce problème est de s'intéresser à la
 fonction optimisée lors de l'apprentissage des paramètres. Enfin, le fonction optimisée lors de l'apprentissage des paramètres. Enfin, le
      188 Co-advisors
-Alexandre Allauzen, LIMSI-CNRS, 50% +

Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr