Agenda partagé

Le 26 septembre 2019

Soutenance de thèse de Beyrem KHALFAOUI

Injection de bruit pour l'apprentissage automatique supervisé et application sur des données d'images et de génomique.

Soutenance de thèse de Beyrem KHALFAOUI

 

Résumé de la thèse en français

Le surapprentissage est un problème général qui affecte les algorithmes d'apprentissage statistique de différentes manières et qui a été approché de différentes façons dans la littérature. Nous illustrons dans un premier temps un cas réel de ce problème dans le cadre d'un travail collaboratif visant à prédire la réponse de patients atteints d'arthrose rhumatoïde à des traitement anti-inflammatoires. Nous nous intéressons ensuite à la méthode d'Injection de bruit dans les données dans sa généralité en tant que méthode de régularisation. Nous donnons une vue d'ensemble de cette méthode, ses applications, intuitions, algorithmes et quelques éléments théoriques dans le contexte de l'apprentissage supervisé. Nous nous concentrons ensuite sur la méthode du emph{dropout} introduite dans le contexte d'apprentissage profond et construisons une nouvelle approximation permettant une nouvelle interprétation de cette méthode dans un cadre général. Nous complémentons cette étude par des expériences sur des simulations et des données réelles. Par la suite, nous présentons une généralisation de la méthode d'injection de bruit dans les données inspirée du bruit inhérent à certains types de données permettant en outre une sélection de variables. Nous présentons un nouvel algorithme stochastique pour cette méthode, étudions ses propriétés de régularisation et l'appliquons au context de séquençage ARN de cellules uniques. Enfin, nous présentons une autre généralisation de la méthode d'Injection de bruit où le bruit introduit suit une structure qui est déduite d'une façon adaptative des paramètres du modèle, en tant que la covariance des activations des unités auxquelles elle est appliquée. Nous étudions les propriétés théoriques de cette nouvelle méthode qu'on nomme ASNI pour des modèles linéaires et des réseaux de neurones multi-couches. Nous démontrons enfin que ASNI permet d'améliorer la performance de généralisation des modèles prédictifs tout en améliorant les représentations résultantes.

Résumé de la thèse en anglais

Overfitting is a general and important issue in machine learning that has been addressed in several ways through the progress of the field. We first illustrate the importance of such an issue in a collaborative challenge that provided genotype and clinical data to assess response of Rheumatoid Arthritis patients to anti-TNF treatments. We then re-formalise Input Noise Injection (INI) as a set of increasingly popular regularisation methods. We provide a brief taxonomy of its use in supervised learning, its intuitive and theoretical benefits in preventing overfitting and how it can be incorporated in the learning problem. We focus in this context on the emph{dropout} trick, review related lines of work of its understanding and adaptations and provide a novel approximation that can be leveraged for general non-linear models, to understand how emph{dropout} works. We then present the emph{DropLasso} method, as both a generalisation of emph{dropout} by incorporating a sparsity penalty, and apply it in the case of single cell RNA-seq data where we show that it can improve accuracy of both Lasso and dropout while performing biologically meaningful feature selection. Finally we build another generalisation of Noise Injection where the noise variable follows a structure that can be either fixed, adapted or learnt during training. We present Adaptive Structured Noise Injection as a regularisation method for shallow and deep networks, where the noise structure applied on the input of a hidden layer follows the covariance of its activations. We provide a fast algorithm for this particular adaptive scheme, study the regularisation properties of our method on linear and multilayer networks using a quadratic approximation, and show improved results in generalisation performance and in representations disentanglement in real dataset experiments.

Titre anglais : Input noise injection for supervised machine learning, with applications on genomic and image data.
Date de soutenance : jeudi 26 septembre 2019 à 15h00
Adresse de soutenance : Mines Paristech, 60 Boulevard Saint Michel, 75006 Paris, France - L108
Directeur de thèse : Jean-Philippe VERT

> plus d'informations sur le site dédié Soutenance de thèse de Beyrem KHALFAOUI - MINES ParisTech

Voir tous les événements

Partager

actualité

Inventer les systèmes énergétiques du futur

Formation Inventer les systèmes énergétiques du futur Se former auprès des meilleurs experts internationaux et…
> En savoir +

Un beau doublé pour Tom Petit, docteur MINES ParisTech-PSL

Un beau doublé pour Tom Petit, docteur MINES… Le prix national Jean Bourgeois , de la Société française…
> En savoir +

Deux docteurs MINES ParisTech distingués

Formation Deux docteurs MINES ParisTech distingués Le département Mécanique et Matériaux de MINES ParisTech une…
> En savoir +

1<sup>er</sup> Prix Atos – Joseph Fourier 2019 pour MINES ParisTech

Recherche 1 er Prix Atos – Joseph Fourier 2019 pour MINES… Le Prix Prix Atos - Joseph Fourier a pour objectif…
> En savoir +

Le Rapport d'activité 2018 est en ligne

Recherche Le Rapport d'activité 2018 est en ligne MINES ParisTech, établissement-composante de…
> En savoir +

+ Toutes les actualités

agenda

Du 5 octobre 2019 au 31 janvier 2020 Avant Mendeleiev : genèse d'un tableau

Du 16 octobre au 6 décembre 2019 Ma thèse en 180 secondes

Le 25 octobre 2019 Remise du Prix Pierre Laffitte 2019

Du 5 octobre 2019 au 31 janvier 2020 Avant Mendeleiev : genèse d'un tableau

Du 16 octobre au 6 décembre 2019 Ma thèse en 180 secondes

Le 25 octobre 2019 Remise du Prix Pierre Laffitte 2019

+ Tous les événements

téléchargement

découverte

 

Voir l'agenda des formations et autres actualités

 

Consultez régulièrement les offres de formation

p_l_a_n_d_u_s_i_t_e
Mentions légales efil.fr © 2014 MINES ParisTech