cédric Abdelhakim Ferradji


GOLIATE : un nouveau test d’association génétique combinant entre le processus de coalescence et les modèles linéaires mixtes.



Résumé Dans ce mémoire nous présentons un nouveau test d’association génétique qui permet d’analyser simultanément un ensemble de SNPs d’une région chromosomique, tout en tenant compte d’une éventuelle présence de structure de population dans l’échantillon d’étude. Ce test est basé sur un modèle linéaire mixte qui capture l’effet de la structure de population grâce à une nouvelle matrice de similarité, construite en utilisant le processus de coalescence avec recombinaison. Quelques tests d’association décrits dans la littérature ayant servis de référence seront d’abord présentés. Par la suite, nous décrirons en détails le test proposé dans ce mémoire. Finalement, des simulations seront effectuées pour tester et comparer les performances de notre test avec quelques tests proposés dans la littérature. Notre test montre un bon contrôle de l’erreur de type 1 en présence de structure de population contrairement aux autres tests, et semble avoir une puissance comparable à celle des autres méthodes dans le cas des variants génétiques rares.
Mots-clés : processus de coalescence, cartographie génétique, modèles linéaires mixtes, GWAS, déséquilibre de liaison, variants rares.

Introduction

L’analyse de la diversité génétique au sein des espèces et en particulier chez l’homme est essentielle à la compréhension des processus d’évolution au niveau de la population et au niveau génomique. Au cours des dernières années, le développement de nouvelles technologies de séquençage et de génotypage a mis à la disposition des chercheurs une quantité astronomique de données génétiques qui leur permettent d’explorer de nouvelles hypothèses scientifiques. Les analyses d’associations génétiques sont devenues une tâche commune entre la génétique humaine et les études des maladies humaines (Hirschhorn et al., 2002 ; Hindorff et al., 2009). Ces analyses étudient la dépendance entre le génotype d’un marqueur génétique et le phénotype. Ce dernier peut par exemple représenter le statut d’une maladie dans une population donnée. Plusieurs tests d’association statistique ont été développés afin d’identifier les gènes responsables de maladies génétiques humaines. Un test d’association peut généralement être effectué à l’aide d’un modèle de régression linéaire simple (Balding, 2006) pour chaque marqueur génotypé. Cette approche simple soulève toutefois quelques problèmes. En effet, ces tests d’association demandent habituellement une procédure d’ajustement des tests multiples telle que la correction Bonferroni afin de garantir un taux global approprié de l’erreur de type 1. Cet ajustement entraîne malheureusement un manque de puissance en raison du seuil de significativé extrêmement bas et difficile à atteindre (de l’ordre de 10−7), typique dans les études d’association sur tout le génome (Wu et al., 2010). De plus, l’analyse d’un seul marqueur à la fois peut être mal adaptée à un contexte de maladies complexes, où de multiples marqueurs interagissent les uns avec les autres pour causer la maladie (Schork, 1997). Toutes ces considérations ont entraînées l’apparition de nouvelles approches qui permettent d’analyser simultanément un ensemble de marqueurs d’une région chromosomique (Wu et al., 2010; Zhang et al., 2011). Ces analyses "multiples marqueurs" ont montré une meilleure puissance que les analyses "simple marqueur", mais souffre au même titre que ces derniers d’un taux élevé de l’erreur de type 1, lorsqu’une structure de population est présente dans l’échantillon d’étude. En fait, la structure de population reflète la dépendance ancestrale entre les individus de l’échantillon d’étude et conduit en général à de fausses associations si aucune mesure n’est prise pour tenir compte de cette dépendance ancestrale (Astle et Balding, 2009). Ce mémoire a pour objectif de développer un nouveau test d’association génétique, que nous avons nommé GoLiATe, permettant de tester l’association entre une région chromosomique et un phénotype d’intérêt. Ce test combine dans un modèle linéaire mixte l’information génétique et l’information généalogique (ou ancestrale) additionnelle obtenue à l’aide du processus de coalescence avec recombinaison, dans le but d’essayer de répondre aux problématiques décrites précédemment, notamment le contrôle de l’effet de la structure de population ainsi que le problème des comparaisons multiples. Le premier chapitre de ce mémoire est consacré à la présentation des concepts génétiques de base permettant au lecteur non initié de se familiariser avec la terminologie génétique que nous allons manipuler tout au long de cet ouvrage. Par la suite, une introduction à la théorie de la coalescence sera décrite au chapitre II. Le chapitre III sera consacré à la présentation de quelques modèles utilisés en cartographie génétique, dont nous nous sommes inspirés pour développer notre test d’association. Le modèle mathématique ayant servi à la construction du test GoLiATe sera par la suite présenté en détails au chapitre IV. Enfin, le cinquième et dernier chapitre de ce mémoire sera consacré à l’évaluation des performances de notre nouvelle approche à l’aide de données simulées.

Conclusion

e mémoire avait pour objectif de développer un nouveau test d’association en combinant entre les modèles linéaires mixtes et le processus de coalescence. Ce dernier nous a permis de développer une nouvelle matrice de similarité basée sur le temps à l’ancêtre commun que nous avons nommé STMRCA, qui permet de tenir compte de la dépendance ancestrale entre les individus de l’échantillon. Cette matrice a été par la suite introduite dans la structure de variance d’un modèle linéaire mixte afin d’essayer de contrôler l’inflation de l’erreur de type 1 due à la structure de population, mais aussi pour éventuellement contribuer à la puissance du test en apportant de l’information généalogique additionnelle. Nous avons donc développé la vraisemblance de notre modèle et présenté un test de score. Ce dernier nécessitait l’estimation de paramètres sous l’hypothèse nulle de non association qui ont été évalués de façon robuste en utilisant une vraisemblance profilée. Enfin, nous avons simulé des données sous l’hypothèse nulle et alternative, afin d’évaluer et de comparer l’erreur de type 1 et la puissance de notre test avec celles des tests présentés à la section 3.5 du chapitre III. Les résultats présentés à la section 5.2.1 suggèrent que notre test GoLiATe a un bon contrôle de l’erreur de type 1 en présence d’une structure de population (due à la stratification) dans l’échantillon, à l’opposé des tests SKAT, SKAT-O et MiST. Ainsi, nous pouvons dire que notre matrice de similarité STMRCA est informative pour la structure de population. De plus, les résultats présentés à la section 5.2.2 montrent que GoLiATe semble être plus adapté à un contexte de variants rares qu’à un contexte de variants communs. En effet, dans la majorité des cas où nous avons associé des variants rares, GoLiATe montre une puissance comparable avec celle de SKAT et de MiST. Si nous avions eu plus de temps, il aurait été par exemple intéressant de comparer les performances de GoLiATe dans un scénario où la structure de population est due à la cryptic relatedness (CR) et non à la stratification. En effet, dans ce cas, la correction de l’effet de la structure avec les composantes principales pour les tests SKAT, SKAT-O et MiST ne fonctionne pas comme dans le cas de la stratification (Astle et Balding, 2009). Nous pensons donc que le gain de GoLiATe par rapport aux autres méthodes serait plus important dans un contexte de CR que dans un contexte de stratification. De plus, il serait intéressant de construire un test qui permet de tester simultanément si les composantes de variance du modèle (4.13) sont significativement différentes de zéro. Autrement dit, effectuer le test H0 : τ = 0,τs = 0 au lieu de H0 : τ = 0 à l’aide d’un test de score bivarié par exemple; le défi étant de trouver la distribution du vecteur-score bivarié sous l’hypothèse nulle. En effet, en utilisant notre matrice de similarité STMRCA comme noyau dans SKAT, nous avons tout de même pu détecter un signal sous l’hypothèse d’association. En d’autres termes, en plus de la capacité dont dispose notre matrice STMRCA à capter l’information de la structure de population, elle peut aussi servir à la détection de la véritable association entre le caractère étudié et la région chromosomique d’intérêt ; en gardant à l’esprit que l’information du temps à l’ancêtre commun qu’utilise la matrice STMRCA est complètement différente de celle contenue dans les génotypes. Il reste cependant beaucoup à faire afin d’améliorer les performances de GoLiATe, et de combiner de la meilleure façon l’information ancestrale contenue dans ST MRCA avec celle des génotypes.