Gabrielle Gabrielle Boucher


Intégration de la réalité diploïde et des modèles de pénétrance à une méthode de cartographie génétique fine.



Résumé Nous présentons dans ce mémoire des outils permettant de généraliser une méthode de cartographie génétique fine. Nous y résumons les concepts de base de la statistique génétique et y décrivons aussi la méthode de cartographie génétique fine que nous cherchons à généraliser en permettant l’utilisation de génotypes plutôt que d’haplotypes. Pour ce faire, nous comparons diverses méthodes reconnues d’estimation d’haplotypes. Le développement nouveau de ce travail consiste en un algorithme EM conditionnel aux phénotypes permettant d’estimer les haplotypes associés à un échantillon de génotype, ainsi que le statut au gène causal du caractère étudié. Nous généralisons la méthode de cartographie par l’ajout d’étapes au modèle d’échantillonnage pondéré. Nous effectuons finalement quelques tests par simulation.
Mots-clés : algorithme EM, cartographie génétique, coalescence, diplotype, échantillonnage pondéré, estimation, génotype, gène causal, haplotype, modèle de pénétrance, phénotype, vraisemblance composite.



.

Introduction

Depuis plusieurs années, on note un intérêt marqué pour l’étude de la grammaire de la vie, la génétique. Un des objectifs de cette vaste discipline est d’établir une carte des gènes impliqués dans la transmission des caractères héréditaires. L’évolution des connaissances et des outils technologiques dans ce domaine va de pair avec l’élaboration d’outils statistiques permettant d’analyser les données recueillies en laboratoire. Ainsi, plusieurs méthodes statistiques de cartographie génétique ont été développées. Certaines d’entre elles reposent toutefois sur des hypothèses peu réalistes quant à la forme que prennent les échantillons ou les modèles biologiques impliqués.

Ce mémoire a pour objectif de généraliser une méthode de cartographie génétique fine, MapArg (Larribe, Lessard et Schork, 2002), afin de permettre l’intégration de la réalité diploïde et des modèles de pénétrance. Cette généralisation est importante, puisqu’elle permettrait éventuellement l’application de la méthode à des échantillons provenant de populations humaines.

Dans le premier chapitre, nous présenterons les concepts de base de la statistique génétique, de manière à familiariser le lecteur avec les termes et modèles nécessaires à la compréhension du sujet traité. Le second chapitre portera quant à lui sur la méthode de cartographie que nous cherchons à généraliser. Nous résumerons au troisième chapitre les principales méthodes d’estimation des haplotypes, en présentant les avantages et limites de chacune. Au quatrième chapitre, nous développerons une nouvelle méthode d’estimation, conditionnelle aux phénotypes. Le cinquième chapitre mettra les pièces en place, en intégrant la réalité diploïde à la méthode de cartographie. Finalement, nous présenterons au sixième chapitre quelques résultats de simulations.

Conclusion

Nous avions pour objectif de généraliser une méthode de cartographie génétique fine afin d’intégrer la réalité diploïde, de manière à permettre son application directe à des échantillons de génotypes et phénotypes humains, plutôt qu’à des haplotypes uniquement. Par ailleurs, nous voulions permettre son application à une vaste gamme de modèles de pénétrance. Il s’agit d’un pas important, puisque la méthode originale était restreinte à des conditions d’application particulières et contraignantes. La méthode généralisée devrait quant à elle pouvoir être utilisée pour la cartographie génétique d’un plus vaste ensemble de caractères héréditaires, en plus d’être directement applicable aux échantillons de génotypes obtenus en laboratoire.

La méthode originale vise à estimer la position d’une mutation causale d’un caractère héréditaire par la simulation de graphes de recombinaison ancestraux. Celle-ci supposait toutefois un échantillon de séquences haploïdes pour lesquelles le statut au gène causal est connu, ce qui est rarement possible. Afin de généraliser la méthode, nous avons d’abord mis en évidence le modèle d’échantillonnage pondéré de celle-ci. Nous avons ensuite exploré différentes solutions au problème de l’estimation des haplotypes. Par la suite, nous avons développé un nouvel algorithme EM prenant en considération les phénotypes et le modèle de pénétrance. Cet algorithme permet d’estimer les distributions d’haplotypes parmi les séquences porteuses et non porteuses de la population. Il devient alors possible d’estimer les séquences haploïdes correspondant au génotype d’un individu, ainsi que le statut au gène causal. Nous avons finalement intégré la réalité diploïde par l’ajout d’étapes au modèle d’échantillonnage pondéré de la méthode. Des tests par simulation nous ont permis de constater dans un premier temps que l’algorithme EM que nous avons développé estimait plutôt bien les fréquences d’haplotypes. L’application de l’algorithme est toutefois limitée à une taille de fenêtre restreinte,puisque le nombre de paramètres à estimer croît de fa ̧con exponentielle avec le nombre de marqueurs impliqués. Nos tests laissent supposer que la taille optimale se situe entre quatre et six marqueurs. De ce fait, l’application de la méthode MapArg généralisée est aussi limitée à l’utilisation de fenêtres de cette taille. L’utilisation de la vraisemblance composite permet toutefois de couvrir l’ensemble de la séquence, par petites fenêtres consécutives. La performance de la méthode MapArg intégrant la réalité diploïde par l’algorithme EM a aussi été évaluée par simulation. Les résultats sont concluants lorsque le modèle de pénétrance est supposé connu. Nous avons comparé des tailles de fenêtres de quatre et six marqueurs. Il semblerait que des tailles de six marqueurs soient préférables. Nous avons aussi effectué quelques tests en utilisant des modèles de pénétrance estimés. Dans ce cas, les résultats obtenus varient beaucoup. E ́videmment, la performance est meilleure lorsque le modèle est connu.

Nous avons choisi d’utiliser un algorithme EM afin d’estimer les haplotypes à partir des génotypes des individus. Il serait toutefois intéressant de tenter d’intégrer la réalité diploïde en appliquant une autre méthode, telle une variante de Phase. Il serait aussi souhaitable de travailler davantage la problématique des modèles de pénétrance inconnus, que nous n’avons que survolée. Par exemple, il serait possible de considérer un grand nombre de modèles, en supposant une distribution a priori sur ceux-ci. Enfin, davantage de tests devraient être effectués. Il serait entre autre essentiel d’évaluer les performances de la méthode généralisée à des échantillons d’ADN humain, plutôt qu’à des données simulées selon le processus de coalescence.

UQAM Icon