cédric Myriam Ziou


Cartographie de caractères polygéniques par le processus de coalescence.



Résumé Ce mémoire introduit une adaptation à une méthode de cartographie génétique existante à des traits causés par deux mutations. Nous commençons par énoncer certains concepts importants en génétique, puis nous présentons des méthodes de cartographie génétique existantes. Nous introduisons par la suite le processus de coalescence et un de ses dérivés important : le graphe de recombinaison ancestral. Cela nous permet de présenter la méthode sur laquelle on s’est basé ainsi que la nôtre, qui utilisent toutes deux ce type de graphe. Nous finissons par simuler des données génétiques afin de tester notre nouvelle méthode sur celles-ci en faisant varier plusieurs paramètres, ce qui nous permet de déterminer ses forces comme ses limitations.
Mots-clés : Cartographie génétique, caractère polygénique, graphe de recom- binaison ancestral, maximum de vraisemblance, khi carré



.

Introduction

La génétique, une discipline encore bien jeune, connaît une évolution fulgurante depuis quelques années. À peine quinze ans se sont écoulés depuis le moment où le génome humain fut décortiqué en entier pour la première fois, en 2003, et pourtant, le premier bébé ayant le matériel génétique de trois parents a vu le jour cette année. La disponibilité de données liées au bagage génétique de différentes espèces augmente et trouver des façons d’analyser ces données pour prévenir des problèmes de santé au lieu de les guérir est donc un sujet de pointe dans le monde de la recherche médicale. Dans ce mémoire, nous adapterons DMap, une méthode statistique basée sur les généalogies développée par Descary (2012) visant à déterminer pour divers types de maladies héréditaires le gène qui est en cause, à un contexte où ces dites maladies sont influencées par deux gènes simultanément. Cette généralisation de DMap porte le nom de DMapInteraction.
Dans le premier chapitre, les éléments de génétique nécessaires à la compréhension de ce texte seront présentés. Le deuxième chapitre introduira quelques tests d’as- sociation communément utilisés à ce jour pour la cartographie génétique, qui est la localisation sur le génome de gènes influençant un trait. C’est dans le troisième chapitre que sera présenté le processus de coalescence, le modèle probabiliste d’évo- lution des populations sur lequel notre méthodologie est basée, et ses adaptations. Le quatrième chapitre introduira la méthode DMap ainsi que les ajustements qui lui ont été apportés ces deux dernières années pour permettre la cartographie de deux gènes à la fois, ce qui a donné naissance à DMapInteraction. Finalement, des résultats obtenus avec cette dernière procédure seront présentés dans le cinquième chapitre.

Conclusion

En définitive, nous avons développé et implémenté dans ce mémoire une façon de localiser deux mutations influençant un trait sur une séquence génétique en se basant sur la méthodologie DMap de Descary (2012) utilisant les graphes de recombinaison ancestraux. Cette méthode, DMapInteraction, repose sur la distribution proposée par Fearnhead et Donnelly (2001) pour générer plusieurs généalogies qui auraient pu être la source de nos données observées et utilise ensuite des estimations par le maximum de vraisemblance et des statistiques du χ2 pour localiser les couples de SNPs qui ont le plus probablement donné lieu à un certain phénotype. Étant donné que ce sont maintenant des paires de TIMs qui sont recherchés, la complexité de notre algorithme est augmentée d’un facteur exponentiel par rapport à DMap et une partie importante de notre travail a été de viser à diminuer le temps d’exécution.
Les résultats obtenus avec des données simulées dans le chapitre 5 nous ont lancé sur plusieurs pistes de réflexion. On a vu, dans la section 5.3 où on utilise l’arbre généalogique de nos données, que l’utilisation d’un facteur correcteur estimant un échantillonnage aléatoire lorsqu’on emploie un échantillon stratifié, un échantillon plus facile à obtenir dans les études cliniques, nous permet d’améliorer nos détections. On a également remarqué que d’utiliser des tests du χ2 tenant compte du type de phénotype auquel on est confronté nous offre des résultats intéressants tout en respectant mieux les conditions de ce type de test qu’un χ2 plus général, étant donné les dimensions 2x2 du tableau. On peut finalement penser, en comparant les résultats obtenus à la section 5.2, où on simule des ARGs, avec la section 5.3, que cela nous prendrait un nombre de graphes beaucoup plus important pour déterminer correctement la puissance de la capacité de détection de DMapInteraction, ce qui est impossible pour le moment à cause des temps excessifs nécessaires à la complétion d’un seul test. Néanmoins, étant donné que dans certains cas, même le χ2 usuel, une méthode répandue en cartographique génétique, ne réussit à détecter les mutations causales, nous sommes conscients que la compréhension de certains types de maladie est encore à travailler et nous pensons que le fait de considérer la relation entre les individus dans notre méthode pourrait être un apport à la recherche sur ces maladies.
Il pourrait être intéressant pour améliorer la vitesse d’exécution de notre programme de trouver une façon d’introduire une vraisemblance composite à DMa- pInteraction. Ce type de vraisemblance décompose une vraisemblance usuelle en plusieurs, chacune calculée sur des fenêtres de marqueurs au lieu de la séquence complète. La vraisemblance composite a déjà été incorporée à DMap et a permis de réduire considérablement les temps de calcul, ce qui nous laisse croire que l’effet pourrait être le même dans DMapInteraction. On pourrait donc éventuellement avoir la possibilité de simuler plusieurs dizaine de milliers de graphes, comme on le souhaiterait, en un temps raisonnable.