Marie Marie Forest


Cartographie génétique fine simultanée de deux gènes.



Résumé Dans le domaine de la recherche de gènes causaux, il est maintenant connu que plusieurs caractères complexes peuvent en fait être influencés par une multitude de gènes. Dans ce mémoire, nous présentons l’adaptation d’une méthode de cartographie génétique fine à la cartographie de caractère polygénique. Nous présentons tout d’abord un aperçu de certains outils statistiques utilisés en génétique. En particulier, certaines mesures d’association généralement employées en cartographie génétique. Puis, nous présentons la méthode de cartographie que nous souhaitons adapter : méthode qui suppose que le caractère est causé par l’effet d’un seul gène. Nous supposons plutôt que le caractère est causé par la combinaison de deux gènes. Après avoir présenté notre modélisation et les aspects théoriques de l’adaptation proposée, nous utilisons des données simulées pour tester nos développements. Nous comparons aussi nos résultats avec ceux obtenus avec une mesure d’association, ainsi qu’avec la méthode de cartographie dont nous proposons une adaptation. Les résultats démontrent la nécessité de développer des méthodes de cartographie génétique adaptées aux caractères polygéniques ; avec quelques améliorations concernant l’inférence des génotypes aux gènes causaux, notre adaptation devrait offrir de meilleurs résultats que les autres méthodes présentées.
Mots-clés : statistique génétique, cartographie génétique, caractère polygénique, processus de coalescence, arbre de recombinaison ancestral.



.

Introduction

Depuis maintenant une vingtaine d’années, la course aux gènes affectant certains caractères et maladies est ouverte ; de nouvelles technologies permettent le séquençage du génome humain; de grands projets à l’échelle planétaire accumulent les données génétiques. Plusieurs gènes ayant un impact sur certaines maladies ont été découverts à l’aide d’outils statistiques. Mais parfois, ces méthodes échouent face à certaines maladies complexes influencées simultanément par plusieurs gènes. C’est pourquoi le développement de méthodes de cartographie génétique adaptées à cette réalité est souhaitable.

L’objectif de ce mémoire est l’adaptation de la méthode de cartographie génétique fine MapArg (Larribe, Lessard et Schork, 2002 ; Larribe et Lessard, 2008) à la cartographie de caractère polygénique (c’est-à-dire influencé par plusieurs gènes). Nous supposerons que le caractère est causé uniquement par l’effet combiné de deux gènes et qu’il n’est pas influencé par des facteurs environnementaux. Bien que ces hypothèses posées sur la maladie paraîtront possiblement peu réalistes, elles nous permettront de simplifier la modélisation et de vérifier si nous sommes sur la bonne voie.

Pour permettre au lecteur non initié de comprendre les termes spécifiques à la génétique utilisés tout au long de ce mémoire, nous présentons au premier chapitre certains concepts de base de ce domaine. Nous poursuivons ensuite par une description de certains outils statistiques employés généralement en cartographie génétique, ce qui permettra au lecteur d’avoir un aperçu d’où, dans l’univers de la statistique génétique, s’inscrivent la méthode de cartographie MapArg et l’adaptation proposée de celle-ci. MapArg sera présentée en détail au chapitre trois. Suivra la présentation de l’adaptation de cette méthode à la cartographie de deux gènes causant un caractère. Nous terminerons ce mémoire, au chapitre cinq, avec la présentation des résultats obtenus lors de l’analyse de bases de données simulées.

Conclusion

Notre objectif était de proposer une adaptation de la méthode de cartographie génétique fine MapArg à la cartographie de caractère polygénique. Nous souhaitions aussi tester cette adaptation, établir ses limitations et la comparer aux méthodes de cartographie génétique existantes.

MapArg suppose que le caractère est influencé par un seul gène ; en utilisant un échantillon de cas et de contrôles, cette méthode estime la fonction de vraisemblance de la position de ce gène. Pour ce faire, elle doit inférer le génotype au gène cherché, à partir du phénotype, pour chacune des séquences de l’échantillon. Pour simplifier notre adaptation de MapArg à la cartographie de caractère polygénique, nous avons choisi de commencer par supposer que le caractère est influencé par deux gènes et d’utiliser un échantillon d’haplotypes ce qui, comparé aux diploïdes, facilite la modélisation. Nous devions modéliser l’interaction entre les gènes et déterminer comment ils affectent le caractère. De plus, il a fallu décider de la façon dont nous allions inférer les génotypes des TIM1 et TIM2 à partir des phénotypes.

Des ensembles de données ont été simulés pour nous permettre de tester notre adaptation. Une séquence était affectée par le caractère si elle possédait deux allèles mutants, sinon cette séquence n’était pas affectée par le caractère. Pour l’inférence des génotypes à partir des phénotypes, nous avons choisi qu’une séquence affectée possèderait les deux allèles mutants, tandis qu’une séquence non atteinte du caractère possèderait deux allèles sains. Cela revient à supposer que la maladie est doublement récessive et les allèles mutants rares. Nous étions conscients de l’erreur d’inférence, mais nous ne pensions pas qu’elle aurait un impact sur l’estimation de la position des TIM1 et TIM2.

Les résultats obtenus avec la mesure d’association r2 et MapArg pour les ensembles de données simulées, ont montré la nécessité d’adapter les méthodes de cartographie à la réalité des caractères polygéniques, car souvent ces deux méthodes ne trouvaient pas un des deux marqueurs cherchés. Le programme PyArg nous a permis de tester notre adaptation avec des temps de calcul raisonnables. Les premiers résultats obtenus étaient tout de même encourageants, nous arrivions à trouver un des gènes causaux. Nous avons tenté de faire plus de graphes par intervalle, d’utiliser la vraisemblance composite pour tenter de diminuer la variabilité observée en faisant plusieurs répétitions de l’estimation de la vraisemblance.

C’est en utilisant les génotypes aux marqueurs cherchés pour l’inférence que nous avons obtenu les meilleurs résultats. L’erreur faite lors de l’inférence était donc significative. Bien sûr, d’autres facteurs pourraient améliorer notre estimation. L’utilisation d’une meilleure distribution proposée pour la construction des graphes pourrait aider. Mais pour éventuellement utiliser l’adaptation proposée, il faut trouver un moyen d’améliorer l’inférence des génotypes aux gènes causaux. Il faudrait aussi tester l’adaptation de MapArg avec différentes modélisations de l’interaction des gènes causaux.