Marie Forest

Cartographie génétique fine simultanée de deux gènes.

Résumé Dans le domaine de la recherche de gènes causaux, il est maintenant connu que plusieurs caractères complexes peuvent en fait être influencés par une multitude de gènes. Dans ce mémoire, nous présentons l’adaptation d’une méthode de cartographie génétique fine à la cartographie de caractère polygénique. Nous présentons tout d’abord un aperçu de certains outils statistiques utilisés en génétique. En particulier, certaines mesures d’association généralement employées en cartographie génétique. Puis, nous présentons la méthode de cartographie que nous souhaitons adapter : méthode qui suppose que le caractère est causé par l’effet d’un seul gène. Nous supposons plutôt que le caractère est causé par la combinaison de deux gènes. Après avoir présenté notre modélisation et les aspects théoriques de l’adaptation proposée, nous utilisons des données simulées pour tester nos développements. Nous comparons aussi nos résultats avec ceux obtenus avec une mesure d’association, ainsi qu’avec la méthode de cartographie dont nous proposons une adaptation. Les résultats démontrent la nécessité de développer des méthodes de cartographie génétique adaptées aux caractères polygéniques ; avec quelques améliorations concernant l’inférence des génotypes aux gènes causaux, notre adaptation devrait offrir de meilleurs résultats que les autres méthodes présentées.
Mots-clés : statistique génétique, cartographie génétique, caractère polygénique, processus de coalescence, arbre de recombinaison ancestral.

Introduction

Depuis maintenant une vingtaine d’années, la course aux gènes affectant certains caractères et maladies est ouverte ; de nouvelles technologies permettent le séquençage du génome humain; de grands projets à l’échelle planétaire accumulent les données génétiques. Plusieurs gènes ayant un impact sur certaines maladies ont été découverts à l’aide d’outils statistiques. Mais parfois, ces méthodes échouent face à certaines maladies complexes influencées simultanément par plusieurs gènes. C’est pourquoi le développement de méthodes de cartographie génétique adaptées à cette réalité est souhaitable.

L’objectif de ce mémoire est l’adaptation de la méthode de cartographie génétique fine MapArg (Larribe, Lessard et Schork, 2002 ; Larribe et Lessard, 2008) à la cartographie de caractère polygénique (c’est-à-dire influencé par plusieurs gènes). Nous supposerons que le caractère est causé uniquement par l’effet combiné de deux gènes et qu’il n’est pas influencé par des facteurs environnementaux. Bien que ces hypothèses posées sur la maladie paraîtront possiblement peu réalistes, elles nous permettront de simplifier la modélisation et de vérifier si nous sommes sur la bonne voie.

Pour permettre au lecteur non initié de comprendre les termes spécifiques à la génétique utilisés tout au long de ce mémoire, nous présentons au premier chapitre certains concepts de base de ce domaine. Nous poursuivons ensuite par une description de certains outils statistiques employés généralement en cartographie génétique, ce qui permettra au lecteur d’avoir un aperçu d’où, dans l’univers de la statistique génétique, s’inscrivent la méthode de cartographie MapArg et l’adaptation proposée de celle-ci. MapArg sera présentée en détail au chapitre trois. Suivra la présentation de l’adaptation de cette méthode à la cartographie de deux gènes causant un caractère. Nous terminerons ce mémoire, au chapitre cinq, avec la présentation des résultats obtenus lors de l’analyse de bases de données simulées.

Conclusion

Notre objectif était de proposer une adaptation de la méthode de cartographie génétique fine MapArg à la cartographie de caractère polygénique. Nous souhaitions aussi tester cette adaptation, établir ses limitations et la comparer aux méthodes de cartographie génétique existantes.

MapArg suppose que le caractère est influencé par un seul gène ; en utilisant un échantillon de cas et de contrôles, cette méthode estime la fonction de vraisemblance de la position de ce gène. Pour ce faire, elle doit inférer le génotype au gène cherché, à partir du phénotype, pour chacune des séquences de l’échantillon. Pour simplifier notre adaptation de MapArg à la cartographie de caractère polygénique, nous avons choisi de commencer par supposer que le caractère est influencé par deux gènes et d’utiliser un échantillon d’haplotypes ce qui, comparé aux diploïdes, facilite la modélisation. Nous devions modéliser l’interaction entre les gènes et déterminer comment ils affectent le caractère. De plus, il a fallu décider de la façon dont nous allions inférer les génotypes des TIM1 et TIM2 à partir des phénotypes.

Des ensembles de données ont été simulés pour nous permettre de tester notre adaptation. Une séquence était affectée par le caractère si elle possédait deux allèles mutants, sinon cette séquence n’était pas affectée par le caractère. Pour l’inférence des génotypes à partir des phénotypes, nous avons choisi qu’une séquence affectée possèderait les deux allèles mutants, tandis qu’une séquence non atteinte du caractère possèderait deux allèles sains. Cela revient à supposer que la maladie est doublement récessive et les allèles mutants rares. Nous étions conscients de l’erreur d’inférence, mais nous ne pensions pas qu’elle aurait un impact sur l’estimation de la position des TIM1 et TIM2.

Les résultats obtenus avec la mesure d’association r2 et MapArg pour les ensembles de données simulées, ont montré la nécessité d’adapter les méthodes de cartographie à la réalité des caractères polygéniques, car souvent ces deux méthodes ne trouvaient pas un des deux marqueurs cherchés. Le programme PyArg nous a permis de tester notre adaptation avec des temps de calcul raisonnables. Les premiers résultats obtenus étaient tout de même encourageants, nous arrivions à trouver un des gènes causaux. Nous avons tenté de faire plus de graphes par intervalle, d’utiliser la vraisemblance composite pour tenter de diminuer la variabilité observée en faisant plusieurs répétitions de l’estimation de la vraisemblance.

C’est en utilisant les génotypes aux marqueurs cherchés pour l’inférence que nous avons obtenu les meilleurs résultats. L’erreur faite lors de l’inférence était donc significative. Bien sûr, d’autres facteurs pourraient améliorer notre estimation. L’utilisation d’une meilleure distribution proposée pour la construction des graphes pourrait aider. Mais pour éventuellement utiliser l’adaptation proposée, il faut trouver un moyen d’améliorer l’inférence des génotypes aux gènes causaux. Il faudrait aussi tester l’adaptation de MapArg avec différentes modélisations de l’interaction des gènes causaux.