Abdelhakim Ferradji

GOLIATE : un nouveau test d’association génétique combinant entre le processus de coalescence et les modèles linéaires mixtes.

Résumé Dans ce mémoire nous présentons un nouveau test d’association génétique qui permet d’analyser simultanément un ensemble de SNPs d’une région chromosomique, tout en tenant compte d’une éventuelle présence de structure de population dans l’échantillon d’étude. Ce test est basé sur un modèle linéaire mixte qui capture l’effet de la structure de population grâce à une nouvelle matrice de similarité, construite en utilisant le processus de coalescence avec recombinaison. Quelques tests d’association décrits dans la littérature ayant servis de référence seront d’abord présentés. Par la suite, nous décrirons en détails le test proposé dans ce mémoire. Finalement, des simulations seront effectuées pour tester et comparer les performances de notre test avec quelques tests proposés dans la littérature. Notre test montre un bon contrôle de l’erreur de type 1 en présence de structure de population contrairement aux autres tests, et semble avoir une puissance comparable à celle des autres méthodes dans le cas des variants génétiques rares.
Mots-clés : processus de coalescence, cartographie génétique, modèles linéaires mixtes, GWAS, déséquilibre de liaison, variants rares.

Introduction

L’analyse de la diversité génétique au sein des espèces et en particulier chez l’homme est essentielle à la compréhension des processus d’évolution au niveau de la population et au niveau génomique. Au cours des dernières années, le développement de nouvelles technologies de séquençage et de génotypage a mis à la disposition des chercheurs une quantité astronomique de données génétiques qui leur permettent d’explorer de nouvelles hypothèses scientifiques. Les analyses d’associations génétiques sont devenues une tâche commune entre la génétique humaine et les études des maladies humaines (Hirschhorn et al., 2002 ; Hindorff et al., 2009). Ces analyses étudient la dépendance entre le génotype d’un marqueur génétique et le phénotype. Ce dernier peut par exemple représenter le statut d’une maladie dans une population donnée. Plusieurs tests d’association statistique ont été développés afin d’identifier les gènes responsables de maladies génétiques humaines. Un test d’association peut généralement être effectué à l’aide d’un modèle de régression linéaire simple (Balding, 2006) pour chaque marqueur génotypé. Cette approche simple soulève toutefois quelques problèmes. En effet, ces tests d’association demandent habituellement une procédure d’ajustement des tests multiples telle que la correction Bonferroni afin de garantir un taux global approprié de l’erreur de type 1. Cet ajustement entraîne malheureusement un manque de puissance en raison du seuil de significativé extrêmement bas et difficile à atteindre (de l’ordre de 10−7), typique dans les études d’association sur tout le génome (Wu et al., 2010). De plus, l’analyse d’un seul marqueur à la fois peut être mal adaptée à un contexte de maladies complexes, où de multiples marqueurs interagissent les uns avec les autres pour causer la maladie (Schork, 1997). Toutes ces considérations ont entraînées l’apparition de nouvelles approches qui permettent d’analyser simultanément un ensemble de marqueurs d’une région chromosomique (Wu et al., 2010; Zhang et al., 2011). Ces analyses "multiples marqueurs" ont montré une meilleure puissance que les analyses "simple marqueur", mais souffre au même titre que ces derniers d’un taux élevé de l’erreur de type 1, lorsqu’une structure de population est présente dans l’échantillon d’étude. En fait, la structure de population reflète la dépendance ancestrale entre les individus de l’échantillon d’étude et conduit en général à de fausses associations si aucune mesure n’est prise pour tenir compte de cette dépendance ancestrale (Astle et Balding, 2009). Ce mémoire a pour objectif de développer un nouveau test d’association génétique, que nous avons nommé GoLiATe, permettant de tester l’association entre une région chromosomique et un phénotype d’intérêt. Ce test combine dans un modèle linéaire mixte l’information génétique et l’information généalogique (ou ancestrale) additionnelle obtenue à l’aide du processus de coalescence avec recombinaison, dans le but d’essayer de répondre aux problématiques décrites précédemment, notamment le contrôle de l’effet de la structure de population ainsi que le problème des comparaisons multiples. Le premier chapitre de ce mémoire est consacré à la présentation des concepts génétiques de base permettant au lecteur non initié de se familiariser avec la terminologie génétique que nous allons manipuler tout au long de cet ouvrage. Par la suite, une introduction à la théorie de la coalescence sera décrite au chapitre II. Le chapitre III sera consacré à la présentation de quelques modèles utilisés en cartographie génétique, dont nous nous sommes inspirés pour développer notre test d’association. Le modèle mathématique ayant servi à la construction du test GoLiATe sera par la suite présenté en détails au chapitre IV. Enfin, le cinquième et dernier chapitre de ce mémoire sera consacré à l’évaluation des performances de notre nouvelle approche à l’aide de données simulées.

Conclusion

e mémoire avait pour objectif de développer un nouveau test d’association en combinant entre les modèles linéaires mixtes et le processus de coalescence. Ce dernier nous a permis de développer une nouvelle matrice de similarité basée sur le temps à l’ancêtre commun que nous avons nommé STMRCA, qui permet de tenir compte de la dépendance ancestrale entre les individus de l’échantillon. Cette matrice a été par la suite introduite dans la structure de variance d’un modèle linéaire mixte afin d’essayer de contrôler l’inflation de l’erreur de type 1 due à la structure de population, mais aussi pour éventuellement contribuer à la puissance du test en apportant de l’information généalogique additionnelle. Nous avons donc développé la vraisemblance de notre modèle et présenté un test de score. Ce dernier nécessitait l’estimation de paramètres sous l’hypothèse nulle de non association qui ont été évalués de façon robuste en utilisant une vraisemblance profilée. Enfin, nous avons simulé des données sous l’hypothèse nulle et alternative, afin d’évaluer et de comparer l’erreur de type 1 et la puissance de notre test avec celles des tests présentés à la section 3.5 du chapitre III. Les résultats présentés à la section 5.2.1 suggèrent que notre test GoLiATe a un bon contrôle de l’erreur de type 1 en présence d’une structure de population (due à la stratification) dans l’échantillon, à l’opposé des tests SKAT, SKAT-O et MiST. Ainsi, nous pouvons dire que notre matrice de similarité STMRCA est informative pour la structure de population. De plus, les résultats présentés à la section 5.2.2 montrent que GoLiATe semble être plus adapté à un contexte de variants rares qu’à un contexte de variants communs. En effet, dans la majorité des cas où nous avons associé des variants rares, GoLiATe montre une puissance comparable avec celle de SKAT et de MiST. Si nous avions eu plus de temps, il aurait été par exemple intéressant de comparer les performances de GoLiATe dans un scénario où la structure de population est due à la cryptic relatedness (CR) et non à la stratification. En effet, dans ce cas, la correction de l’effet de la structure avec les composantes principales pour les tests SKAT, SKAT-O et MiST ne fonctionne pas comme dans le cas de la stratification (Astle et Balding, 2009). Nous pensons donc que le gain de GoLiATe par rapport aux autres méthodes serait plus important dans un contexte de CR que dans un contexte de stratification. De plus, il serait intéressant de construire un test qui permet de tester simultanément si les composantes de variance du modèle (4.13) sont significativement différentes de zéro. Autrement dit, effectuer le test H0 : τ = 0,τs = 0 au lieu de H0 : τ = 0 à l’aide d’un test de score bivarié par exemple; le défi étant de trouver la distribution du vecteur-score bivarié sous l’hypothèse nulle. En effet, en utilisant notre matrice de similarité STMRCA comme noyau dans SKAT, nous avons tout de même pu détecter un signal sous l’hypothèse d’association. En d’autres termes, en plus de la capacité dont dispose notre matrice STMRCA à capter l’information de la structure de population, elle peut aussi servir à la détection de la véritable association entre le caractère étudié et la région chromosomique d’intérêt ; en gardant à l’esprit que l’information du temps à l’ancêtre commun qu’utilise la matrice STMRCA est complètement différente de celle contenue dans les génotypes. Il reste cependant beaucoup à faire afin d’améliorer les performances de GoLiATe, et de combiner de la meilleure façon l’information ancestrale contenue dans ST MRCA avec celle des génotypes.