Cette thèse s'intéresse à un ensemble de méthodes utilisées pour identifier les causes génétiques de maladies complexes. Les méthodes d'association génome entier (GWAS), sont généralement utilisées pour étudier des associations univariées, tandis que les méthodes d'association d'interactions génome entier (GWAIS) prennent en considération des interactions entre facteurs génétiques (ou épistasie). Cependant, ces deux approches présentent plusieurs défis, parmi lesquels leur faible puissance statistique, la difficulté de leur interprétation, ainsi que les choix arbitraires qui doivent être faits à différentes étapes de ces études. Dans cette thèse, j'étudie comment l'utilisation de réseaux biologiques permet de répondre à ces défis et faciliter la découverte de nouveaux biomarqueurs. Les réseaux biologiques permettent en effet d'incorporer des connaissances a priori aux analyses statistiques, et de considérer chaque polymorphisme d'un seul nucléotide (SNP) et chaque gène dans leur contexte biologique. En analysant deux jeux de données, un sur le cancer du sein et l'autre sur les maladies chroniques inflammatoires de l'intestin, je montre comment l'utilisation de réseaux biologiques permet de mettre à jour de nouveaux mécanismes de susceptibilité. Ceux-ci impliquent des SNPs individuels, ainsi que des groupes de SNPs en épistasie d'ordre deux ou plus. Je montre aussi comment l'incorporation de réseaux biologique dans les GWAS et GWAIS permet d'améliorer l'interprétabilité des résultats et de produire des hypothèses biologiques convaincantes.
This thesis tackles methodologies to identify the genetic causes of complex diseases. This is usually done via genome-wide association studies (GWAS), when univariate association is studied, and genome-wide association interaction studies, when interactions between genetic factors (or epistasis) are considered (GWAIS). However, both settings present some challenges, namely low statistical power, difficult interpretation, and arbitrary choices at multiple points of the study. In this thesis I study how a framework that uses biological networks can help overcome these issues and boost biomarker discovery. This is done by incorporating prior knowledge into the statistical analysis and putting every single nucleotide polymorphism (SNP) and gene in relation to their biological context. By analyzing two datasets, on breast cancer and inflammatory bowel disease, I demonstrate the utility of networks to discover new mechanisms of susceptibility. These involve individual SNPs, as well as groups of SNPs in epistasis, two-way and higher. I also show how including networks in GWAS and GWAIS boosts the interpretability of the results and produces compelling biological hypotheses.
Titre anglais : Network-guided genome-wide association studies
Date de soutenance : mardi 4 février 2020 à 14h00
Adresse de soutenance : Institut Curie 11, rue Pierre et Marie Curie 75005 Paris - Amphithéâtre Marie Curie
Directeurs de thèse : Véronique STOVEN, Chloé-Agathe AZENCOTT
Ecole
240 ans de recherche et de formation
Vidéo : 240ans de recherche
> En savoir +
Formation
Samuel Forest, élu membre de l’Académie des
Samuel Forest lors de sa réception à
> En savoir +
Formation
Mines Paris plébiscitée par ses étudiantes
Mines Paris - PSL, une école qui répond
> En savoir +
Formation
Corentin Gombert, prix de thèse de l’ARIMHE
Corentin Gombert, doctorant au CGS Mines Paris - PSL, lors de
> En savoir +
Formation
L'analyse d'images pour une médecine personnalisée du
L'interprétation des prédictions des
> En savoir +
Formation
Femmes de science
Chercheuses confirmées, doctorantes, élèves ou alumni,
> En savoir +
Voir l'agenda des formations et autres actualités
Consultez régulièrement les offres de formation