Marie-Hèlène Descary

DMAP : une nouvelle méthode de cartographie génétique fine adapteé à des modèles génétiques complexes.

Résumé Dans ce mémoire, nous présentons une nouvelle méthode de cartographie génétique fine ayant comme particularité de pouvoir être utilisée dans le cadre de modèles génétiques complexes. Nous présentons tout d’abord quelques concepts de génétique et de statistique génétique, avec une emphase particulière sur le processus de coalescence qui est à la base de notre travail. Par la suite, trois méthodes de cartographie génétique déjà existantes sont présentées; notre nouvelle méthode contient des éléments de chacune d’entre elles. Nous décrivons ensuite la nouvelle méthode proposée dans ce mémoire. Finalement, nous testons notre nouvelle approche à l’aide de simulations; nous comparons par la suite les résultats obtenus avec notre méthode à ceux obtenus par des tests d’association classiques, et par deux des trois méthodes présentées au début du mémoire. Les résultats nous laissent croire que notre méthode est performante autant dans des cas de modèles génétiques simples que complexes, contrairement à la plupart des méthodes existantes.
Mots-clés : cartographie génétique, processus de coalescence, arbre de recombinaison ancestral, arbre partiel, distribution proposée, fonction de pénétrance.

Introduction

Depuis quelques années, grâce à une technologie en constante évolution, le séquen ̧cage du génome humain est devenu une pratique couramment employée afin d’obtenir des données génétiques des plus complètes. L’accessibilité à ces immenses bases de données a favorisé le développement de plusieurs nouvelles méthodes statistiques afin d’extraire les informations pertinentes contenues dans ces données. Par exemple, dans les deux dernières décennies, plusieurs nouvelles méthodes de cartographie génétique ont vu le jour. Ces méthodes ont pour but d’identifier les gènes influen ̧cant des caractères d’intérêt sur un chromosome ; la connaissance de tels gènes est très importante à la compréhension des mécanismes des maladies génétiques et par le fait même, à la recherche de traitements contre celles-ci.

Le but de ce mémoire est de développer une nouvelle méthode de cartographie génétique fine, que nous avons nommé DMap, permettant d’estimer la position sur une séquence génétique d’une mutation influen ̧cant une maladie d’intérêt. La méthode DMap se distingue des méthodes déjà existantes par sa capacité à considérer des modèles génétiques complexes et par la rapidité de son exécution.

Le premier chapitre de ce mémoire contient une présentation des concepts de base en génétique qui seront essentiels à la compréhension des modèles statistiques présentés dans les chapitres subséquents. La théorie de la coalescence est présentée au second chapitre ; la méthode DMap s’appuie sur cette théorie afin de modéliser l’évolution des séquences génétiques dans le temps. Au chapitre trois, nous présentons trois méthodes de cartographie génétique fine qui nous ont inspirés lors de l’élaboration de la méthode DMap. Le chapitre quatre contient la description détaillée de la nouvelle méthode (DMap) que nous proposons dans ce mémoire. Finalement, le dernier chapitre contient la présentation de résultats obtenus avec des données simulées.

Conclusion

L’objectif de ce mémoire était de développer une nouvelle méthode de cartographie génétique fine, DMap, ayant la particularité de pouvoir être utilisée et d’être e cace en présence de modèles génétiques complexes. Nous voulions de plus tester la perfor- mance de notre nouvelle méthode et la comparer à la performance de quelques méthodes similaires de cartographie génétique . Nous avons tout d’abord étudié trois méthodes de cartographies génétiques fine et nous avons ensuite utilisé ce qui nous semblait être les meilleurs éléments de chaque méthode afin de créer la méthode DMap. Similairement à la méthode MapARG, notre nouvelle méthode permet d’approximer la fonction de vraisemblance d’un paramètre de position (cT) à l’aide de la théorie de la coalescence. Similiairement à la méthode Margarita, l’inférence du génotype à un marqueur donné se fait en ajoutant une mutation sur l’arbre partiel du marqueur donné. Finalement, le calcul de la probabilité du vecteur contenant les phénotypes des séquences d’un échantillon se fait similairement à la méthode LATAG.

Nous avons de plus créé un programme en langage C++ permettant d’exécuter notre nouvelle méthode d’une fac ̧on rapide et e cace. Il nous est donc possible de faire des simulations en considérant plusieurs marqueurs par séquence sans avoir recours à l’usage de fenêtres de marqueurs, contrairement à la méthode MapARG.

Afin d’évaluer notre nouvelle méthode, nous l’avons comparée aux méthodes MapARG, Margarita et Chi2. Pour cela, nous avons simulé 800 échantillons provenant de 200 différentes populations de séquences génétiques. Pour chacun de ces échantillons, nous avons calculé le biais des estimations fournies par les différentes méthodes à comparer et nous avons ensuite illustré la distribution de ces biais à l’aide de diagrammes en boîtes et de fonctions de répartition estimées. Les résultats obtenus sont encourageants ; DMap donne de bons résultats en présence de modèles génétiques simples et malgré le fait que les résultats ne sont pas tout à fait satisfaisants en présence de modèles génétiques complexes, ils sont du moins en général meilleurs que ceux obtenus avec d’autres méthodes similaires de cartographie génétique. Nous semblons donc être sur la bonne voie afin développer un outil performant de cartographie génétique fine.