Myriam Ziou

Cartographie de caractères polygéniques par le processus de coalescence.

Résumé Ce mémoire introduit une adaptation à une méthode de cartographie génétique existante à des traits causés par deux mutations. Nous commençons par énoncer certains concepts importants en génétique, puis nous présentons des méthodes de cartographie génétique existantes. Nous introduisons par la suite le processus de coalescence et un de ses dérivés important : le graphe de recombinaison ancestral. Cela nous permet de présenter la méthode sur laquelle on s’est basé ainsi que la nôtre, qui utilisent toutes deux ce type de graphe. Nous finissons par simuler des données génétiques afin de tester notre nouvelle méthode sur celles-ci en faisant varier plusieurs paramètres, ce qui nous permet de déterminer ses forces comme ses limitations.
Mots-clés : Cartographie génétique, caractère polygénique, graphe de recom- binaison ancestral, maximum de vraisemblance, khi carré

Introduction

La génétique, une discipline encore bien jeune, connaît une évolution fulgurante depuis quelques années. À peine quinze ans se sont écoulés depuis le moment où le génome humain fut décortiqué en entier pour la première fois, en 2003, et pourtant, le premier bébé ayant le matériel génétique de trois parents a vu le jour cette année. La disponibilité de données liées au bagage génétique de différentes espèces augmente et trouver des façons d’analyser ces données pour prévenir des problèmes de santé au lieu de les guérir est donc un sujet de pointe dans le monde de la recherche médicale. Dans ce mémoire, nous adapterons DMap, une méthode statistique basée sur les généalogies développée par Descary (2012) visant à déterminer pour divers types de maladies héréditaires le gène qui est en cause, à un contexte où ces dites maladies sont influencées par deux gènes simultanément. Cette généralisation de DMap porte le nom de DMapInteraction.
Dans le premier chapitre, les éléments de génétique nécessaires à la compréhension de ce texte seront présentés. Le deuxième chapitre introduira quelques tests d’as- sociation communément utilisés à ce jour pour la cartographie génétique, qui est la localisation sur le génome de gènes influençant un trait. C’est dans le troisième chapitre que sera présenté le processus de coalescence, le modèle probabiliste d’évo- lution des populations sur lequel notre méthodologie est basée, et ses adaptations. Le quatrième chapitre introduira la méthode DMap ainsi que les ajustements qui lui ont été apportés ces deux dernières années pour permettre la cartographie de deux gènes à la fois, ce qui a donné naissance à DMapInteraction. Finalement, des résultats obtenus avec cette dernière procédure seront présentés dans le cinquième chapitre.

Conclusion

En définitive, nous avons développé et implémenté dans ce mémoire une façon de localiser deux mutations influençant un trait sur une séquence génétique en se basant sur la méthodologie DMap de Descary (2012) utilisant les graphes de recombinaison ancestraux. Cette méthode, DMapInteraction, repose sur la distribution proposée par Fearnhead et Donnelly (2001) pour générer plusieurs généalogies qui auraient pu être la source de nos données observées et utilise ensuite des estimations par le maximum de vraisemblance et des statistiques du χ2 pour localiser les couples de SNPs qui ont le plus probablement donné lieu à un certain phénotype. Étant donné que ce sont maintenant des paires de TIMs qui sont recherchés, la complexité de notre algorithme est augmentée d’un facteur exponentiel par rapport à DMap et une partie importante de notre travail a été de viser à diminuer le temps d’exécution.
Les résultats obtenus avec des données simulées dans le chapitre 5 nous ont lancé sur plusieurs pistes de réflexion. On a vu, dans la section 5.3 où on utilise l’arbre généalogique de nos données, que l’utilisation d’un facteur correcteur estimant un échantillonnage aléatoire lorsqu’on emploie un échantillon stratifié, un échantillon plus facile à obtenir dans les études cliniques, nous permet d’améliorer nos détections. On a également remarqué que d’utiliser des tests du χ2 tenant compte du type de phénotype auquel on est confronté nous offre des résultats intéressants tout en respectant mieux les conditions de ce type de test qu’un χ2 plus général, étant donné les dimensions 2x2 du tableau. On peut finalement penser, en comparant les résultats obtenus à la section 5.2, où on simule des ARGs, avec la section 5.3, que cela nous prendrait un nombre de graphes beaucoup plus important pour déterminer correctement la puissance de la capacité de détection de DMapInteraction, ce qui est impossible pour le moment à cause des temps excessifs nécessaires à la complétion d’un seul test. Néanmoins, étant donné que dans certains cas, même le χ2 usuel, une méthode répandue en cartographique génétique, ne réussit à détecter les mutations causales, nous sommes conscients que la compréhension de certains types de maladie est encore à travailler et nous pensons que le fait de considérer la relation entre les individus dans notre méthode pourrait être un apport à la recherche sur ces maladies.
Il pourrait être intéressant pour améliorer la vitesse d’exécution de notre programme de trouver une façon d’introduire une vraisemblance composite à DMa- pInteraction. Ce type de vraisemblance décompose une vraisemblance usuelle en plusieurs, chacune calculée sur des fenêtres de marqueurs au lieu de la séquence complète. La vraisemblance composite a déjà été incorporée à DMap et a permis de réduire considérablement les temps de calcul, ce qui nous laisse croire que l’effet pourrait être le même dans DMapInteraction. On pourrait donc éventuellement avoir la possibilité de simuler plusieurs dizaine de milliers de graphes, comme on le souhaiterait, en un temps raisonnable.