Rééchantillonnage de graphes de recombinaison ancestraux : aspects algorithmiques et statistiques.
La question pratique est d’identifier le site d’une mutation qui est responsable d’une maladie, à partir d’un échantillon de séquences provenant de sujets malades et sains. La méthodologie est largement une suite des travaux de Larribe et al. (2002). L’idée est d’insérer la maladie (virtuellement) à des sites spécifiques sur les séquences, de simuler un grand nombre de graphes ARG qui relient les séquences de l’échantillon, et de calculer la position la plus probable de la mutation d’intérêt. Ces simulations sont très coûteuses en temps d’exécution et en espace mémoire. De plus, il arrive qu’un assez grand nombre de graphes s’avère peu informatif.
Ainsi, le but de ce mémoire est de proposer une variante des algorithmes déjà connus, afin de mieux répondre aux problèmes mentionnés plus haut. Nous allons introduire préalablement plusieurs autres variantes que nous avons explorées avant de détailler celle que nous avons retenue. L’idée centrale a été suggérée par Liu (2000, 2005), soit d’éliminer tôt (bien avant d’arriver à l’ancêtre commun) les graphes qui apportent peu d’information. Nous avons proposé des solutions nouvelles en ce qui concerne le critère de choix des meilleurs graphes ainsi que pour l’implantation informatique. L’algorithme de base et ses variantes sont présentés aux chapitres 4 et 5, tandis que les autres chapitres introduisent d’une façon non technique les concepts probabilistes et biologiques qui sont nécessaires à la compréhension des algorithmes.
Mots-clés : Graphe de recombinaison ancestral, algorithme, rééchantillonnage, cartographie génétique, processus de coalescence.
Bien que Kingman, en 1982, introduit la théorie de la coalescence pour la première fois, celle-ci fut découverte en parallèle par Hudson et Tajima (1983). Les premiers chercheurs qui s’intéressent aux processus évolutifs, entre autres Fisher (1922) et Wright (1931), tentent de comprendre et d’étudier le futur des populations, les changements possibles dans le génome. Plus tard, dans les années 1970, d’autres auteurs portent leur attention sur l’évolution des populations, entre autres Ewens (1972) et Watterson (1975). Peu à peu, les chercheurs définissent des théories biologiques et mathématiques et posent des hypothèses pour expliquer les phénomènes de sélection, de mutation et de dérive génétique. Des modèles sont proposés, de plus en plus fidèles à la réalité de l’évolution.
En 1994, Griffiths et Tavaré proposent un premier modèle de coalescence incluant un processus de mutation ainsi qu’un algorithme de simulation permettant d’obtenir des inférences sur le taux de mutation noté θ. En 1983, Hudson introduit le concept de graphe de recombinaison ancestral, ARG, qui généralise l’arbre de coalescence introduit par Kingman (1982), pour le cas où nous tenons compte de la recombinaison. Quelques années plus tard, en 1997, de nouvelles méthodes d’analyse de données pour les graphes de recombinaison ancestraux, sont introduites par Griffiths et Marjoram. Les méthodes de simulation de ces auteurs sont améliorées constamment; en particulier, Liu (2000) a proposé une méthode de rééchantillonnage qui est développée dans ce mémoire.
Dans ce travail, nous cherchons à identifier une position probable d’une mutation causant une maladie. La recherche de cette position se limite à un segment du génome dans laquelle nous savons, par hypothèse, que la maladie se trouve. Nous disposons d’un échantillon de m séquences de nucléotides provenant de nm malades et ns = m − nm personnes saines. Pour identifier l’emplacement de la maladie, nous nous basons sur une méthode proposée par Larribe (2003) et Larribe et al. (2002), qui fait appel au concept de graphe de recombinaison ancestral (ARG), (Griffiths et Marjoram, 1996). L’idée est de placer la maladie à diverses positions sur le segment de génome étudié, de reconstruire l’évolution de la population d’où provient l’échantillon en question, conditionnellement à la position de la mutation. Nous supposons que la maladie est causée par une mutation ponctuelle, donc d’un seul site. Techniquement, cela revient à simuler un grand nombre de graphes pour chacune des positions. Chacun de ces graphes décrit une (histoire) (scénario) possible de l’évolution de la maladie dans la population. En particulier, nous retraçons le moment où la mutation responsable de la maladie a été introduite dans la population. Une fois les graphes simulés, nous attribuons des poids (probabilités) aux graphes, en fonction de la position supposée de la mutation d’intérêt. Finalement, nous retenonsle(scénario) deplushauteprobabilité(lesgrapheslesplusvraisemblables,si nous regardons nos données ). Le scénario retenu correspond à un emplacement précis de la ( maladie ) (c’est-à-dire de la mutation sur la séquence).
Le mémoire est composé de 5 chapitres. Le chapitre 1 est une introduction aux différents concepts de biologie qui sont rencontrés dans notre travail, tandis que le chapitre 2 présente des concepts biologiques et mathématiques décrivant l’évolution de population de gènes. Dans les deux cas, la présentation se veut une introduction non technique. Le chapitre 3 est un des piliers de ce mémoire et présente la construction du modèle mathématique de Griffiths et Tavaré. Par contre, la présentation est origi- nale dans le sens qu’elle est faite dans la perspective informatique afin d’introduire les algorithmes présentés aux chapitres 4 et 5. Le chapitre 4 décrit en détail l’algorithme original (Larribe et al., 2002), tandis que le chapitre 5 présente les algorithmes nou- veaux, qui sont des variantes de cet algorithme. Les variantes que nous proposons dans le chapitre 5 nous permettent de réduire la variabilité des résultats que l’on obtient de notre premier algorithme. Nous voulons stabiliser la vraisemblance dans nos calculs en optimisant les simulations. Finalement, à la fin du chapitre 5, nous discutons des problèmes que nous avons rencontrés dans la conception (aspect statistique) et dans l’implantation (aspect informatique) du second algorithme.
Dans cet ouvrage, nous avons travaillé sur un sujet actuel, en génétique des popula- tions, qui suscite beaucoup de recherches. Dans un modèle qui incorpore la coalescence, la mutation et la recombinaison, nous voulons déterminer la position la plus vraisem- blable d’une mutation d’intérêt.
Nous avons d’abord implanté, comme première version, l’algorithme original de simulation proposé par Griffiths et Marjoram (1996). Par la suite, nous avons implanté une seconde version de l’algorithme, celle-ci proposée par Chen et Liu (2000). Dans cette seconde version, une étape de rééchantillonnage permet d’améliorer les calculs de vraisemblance.
Nous avons rencontré beaucoup de défis dans l’implantation du second algorithme, tant au niveau des calculs statistiques que de la performance informatique. Nous avons créé plusieurs algorithmes différents pour enfin obtenir une version que nous considérons optimale d’un point de vue informatique, en temps et en espace, et efficace au niveau des calculs.
Le type de simulation que nous utilisons est polyvalent. En effet, Chen et Liu (2005) l’utilisent dans plusieurs contextes qui nécessitent des calculs approximatifs. Puisqu’il est encore difficile de déterminer quel est l’algorithme le plus performant, beaucoup de travail reste à faire sur le sujet.