Renaud Alie

Le p-coalescent : un modèle probabiliste intégrant la génétique familiale au processus de coalescence

Résumé L'objectif central de ce mémoire est de présenter une approche qui permet d'inclure les contraintes relevant de la génétique familiale et des pedigrees dans un modèle de génétique des populations inspiré du processus de coalescence. Ce modèle est formulé en termes de graphes dirigés acycliques et, plus précisément, d'arbres appelés généalogies. Quelques notions fondamentales concernant le modèle de Wright-Fisher et la génétique familiale sont d'abord formulées. Le modèle proposé, le p-coalescent, est ensuite présenté avec quelques résultats concernant le comportement des distances sur le graphe et la relation qui existe entre la taille de la généalogie et le nombre de mutations observées.
Mots-clés : génétique, graphes, généalogie, processus de coalescence, pedigree.

Introduction

L’hérédité de certains caractères chez les espèces vivantes est un phénomène connu depuis longtemps. Par exemple, elle est nécessaire à la théorie de l’évolution proposée par Darwin (1883) même si ce dernier n’a pas détaillé le mécanisme par lequel les individus héritait des attributs de leurs ancêtres. Les expériences de fertilisation sur les plantes de Mendel (1865) ont suggéré que les caractères étaient passés aux progénitures par l’entremise d’un ensemble d’unités héréditaires aujourd’hui appelés gènes. La génétique est devenue un domaine de recherche en mathématiques au début des années 1900, culminant notamment avec l’ouvrage de Fisher (1930). Aujourd’hui, la génétique mathématique est un domaine en plein essor, en particulier son aspect statistique avec l’analyse de données génomiques de plus en plus précises et volumineuses. Ce mémoire est un essai de génétique mathématique abstraite concernant la modélisation de la transmission de matériel génétique. Sa lecture ne présuppose aucune connaissance préalable en génétique médicale ; des références à des termes spéciﬁques concernant l’aspect biologique ou moléculaire sont glissées pour le lecteur familier avec le domaine, mais peuvent être ignorées sans conséquences pour la compréhension générale. Principalement, ce sont les concepts de base en probabilités et en processus stochastiques qui sont utiles. Le but principal de ce mémoire est de proposer un premier modèle intégrant des éléments de la génétique familiale dans une approche de génétique des populations. Les ﬁgures présentées font partie de la narration ; elles sont toutes faites sur mesure aﬁn de faciliter la compréhension. Les dérivations mathématiques sont inspirées de la littérature pour les résultats connus, mais elles sont toutes originales et dans une forme aussi complète que possible. C’est le concept de généalogie qui est au centre des préoccupations de chacun des chapitres. Il s’agit d’une représentation sous forme d’arbre donnant l’ensemble des relations ancestrales entre plusieurs gènes. Un «arbre» familial où sont détaillées les relations de parenté ne constitue pas une généalogie au sens entendu dans ce mémoire. Le terme employé dans la littérature de génétique mathématique pour l’ensemble des relations de parenté entre plusieurs individus est pedigree ; le concept de pedigree sera aussi discuté de manière extensive dans ce mémoire. En génétique mathématique, la généalogie décrit plutôt les relations d’hérédité au niveau du gène. Même si un individu possède deux parents, si l’attention est restreinte à un seul de ses gènes, celui-ci est hérité d’un seul des deux parents. Lequel des deux parents est l’unique ancêtre du gène est une question importante pour construire une généalogie ; il s’agit cependant d’une variable inconnue. Cet exemple motive une interprétation probabiliste du concept de généalogie. En dehors du cadre familial, il existe une autre approche de modélisation en génétique : la génétique des populations. Cette dernière modélise les généalogies d’un point de vue plus macroscopique. Elle permet, entre autres, d’expliquer les liens d’hérédité entre les membres d’une population à un niveau qui excède les relations de parenté connues en imaginant des généalogies très grandes qui permettent de relier des gènes à leur distant ancêtre commun. Le déﬁ du projet de recherche qui a conduit à ce mémoire est de proposer une nouvelle approche en génétique des populations capable de modéliser, pour un ensemble de gènes, à la fois les relations de parenté fortes et les relations ancestrales plus distantes. Une des principales diﬃcultés rencontrées est de travailler avec les deux échelles de temps diﬀérentes sur lesquelles sont construites les généalogies en génétique familiale et en génétique des populations. Les chapitres 1 à 3 introduisent des concepts fondamentaux tirés de la littérature dans une notation uniﬁée à travers les diﬀérents domaines. Le premier chapitre exprime l’hérédité génétique en termes de graphes dirigés acycliques et quelques résultats de base y sont démontrés. Le second chapitre expose le modèle de WrightFisher en génétique des populations et l’approche à rebours qui en découle : le processus de coalescence. Au troisième chapitre, les bases de la génétique familiale sont discutées dans un langage permettant de faire le lien avec les deux premiers chapitres. Le chapitre 4 constitue le cœur du mémoire. Il est entièrement original et présente le nouveau paradigme de modélisation proposé : le p-coalescent. Au dernier chapitre, le phénomène de mutation en génétique est intégré au modèle du chapitre 4 comme un premier exemple illustrant la nature particulière de cette nouvelle approche.

Conclusion

L’objectif du projet de recherche qui a conduit à ce mémoire était de développer un nouveau cadre théorique permettant d’intégrer les principes de la génétique familiale dans un modèle de génétique des populations, par exemple le modèle de Wright-Fisher. Premièrement, une représentation formelle du phénomène d’hérédité est décrite au chapitre 1 en termes de graphes dirigés. Les notions de base qui y sont énoncées ont permis de présenter les chapitres subséquents dans un même langage mathématique. Ensuite, le modèle de Wright-Fisher a été présenté au chapitre 2. Ce modèle de population a été choisi pour sa simplicité et parce qu’il a été étudié en profondeur et depuis longtemps par plusieurs mathématiciens. Le processus de coalescence est aussi étudié au chapitre 2 ; il permet de penser le modèle de Wright-Fisher en termes de généalogies évoluant du présent vers le passé. Au chapitre 3, les principes fondamentaux de la génétique familiale sont présentés avec une approche originale inspirée du processus de coalescence. En eﬀet, la construction de généalogies sur un pedigree est la question d’intérêt dans ce chapitre. Tout cela mène vers le cœur du mémoire : le chapitre 4 où le modèle hybride, le p-coalescent, est présenté. L’eﬀet des relations familiales sur la taille d’une généalogie y est décrit en détails en considérant diﬀérentes échelles de temps pour la génétique familiale et le modèle de Wright-Fisher. Finalement, le chapitre 5 présente une approche originale pour construire un modèle de mutation à partir de graphes. L’objectif est de démontrer en quoi le modèle est équivalent à ce qui se retrouve dans la littérature concernant le modèle de Wright-Fisher et d’illustrer certaines particularités lorsqu’il est appliqué à un modèle tenant compte des relations familiales. Le développement de cette nouvelle approche, s’il est d’intérêt, est à un stade encore très jeune. Un phénomène lié à la génétique des organismes diploïdes reste à être développé : les recombinaisons. L’approche de Hudson (1983) basée sur le processus de coalescence pourrait possiblement être généralisée au p-coalescent. Ensuite, une théorie statistique pour les estimateurs de maximum de vraisemblance sous le p-coalescent constituerait une suite logique. Il est présentement diﬃcile, mais intriguant, de voir comment adapter une démarche comme celle de Griﬃths et Marjoram (1996) par exemple. Pour ﬁnir, le p-coalescent a été développé en ayant toujours à l’esprit des possibles applications en génétique médicale, par exemple la cartographie génétique. Cependant, l’absence de précédent a conduit à développer en premier le formalisme du modèle. Ce modèle a le potentiel d’être adapté pour être appliqué en recherche médicale dans une certaine forme étant donné que les données génomiques provenant d’individus reliés par des pedigrees sont abondantes.