Sadoune Aït Kaci Azzou

Estimation de l'historique démographique d'une population de virus à partir de séquences d'adn par la théorie de coalescence

Résumé L'évolution de la taille d'une population peut être retracée à partir d'un échantillon de séquences d'ADN. Dans cette thèse, nous proposons une nouvelle méthodologie non paramétrique basée sur une stratégie d'échantillonnage pondéré (Importance Sampling) qui permet d'explorer de tels historiques démographiques. L'essence de la méthode est de simuler un grand nombre de généalogies en utilisant le processus de coalescence, où l'information fournie par ces généalogies est combinée en utilisant les poids de cet échantillonnage pondéré. En premier, nous proposons la méthode skywis plot qui débute par l'estimation de la taille de la population e ective pour chaque généalogie, pour chaque intervalle de temps prédé ni, appelé époque ; ensuite, une moyenne pondérée de ces tailles de population estimées est calculée. Ainsi, les généalogies qui sont le plus en accord avec les données ont un poids plus élevé. Nous avons aussi généralisé notre méthodologie au cas d'un échantillonnage en série. Cela a nécessité la mise en ÷uvre d'une stratégie d'échantillonnage e cace qui permet de tenir compte de cette réalité qui est très utilisée, notamment dans le cas de virus qui évoluent rapidement comme le VIH. Ensuite, nous proposons d'améliorer la performance de la méthode skywis plot à travers une procédure itérative appelée iterative calibrated skywis plot ; la taille de la population e ective est approximée par une fonction en escalier, qu'on réestime après chaque itération en utilisant la méthode calibrated skywis plot. Ces fonctions en escalier sont utilisées pour générer les temps d'attente d'un processus de Poisson non homogène (coalescence avec mutation) sous un modèle avec une taille de population variable. Cela nous a aussi amené à adapter la distribution proposée de Stephens et Donnelly (2000).
Mots-clés : historique démographique, échantillonnage pondéré, processus de coalescence, skywis plot, échantillonnage hétérochrone, processus non homogène.

Introduction

Les séquences d'ADN contiennent de l'information sur l'historique démographique de la population où les séquences ont été échantillonnées. Ainsi, avec la disponibilité de séquences complètes de plusieurs génomes de virus, le problème de l'estimation de la taille de la population est devenu un sujet important en statistique génétique, avec des applications pratiques qui permettent, par exemple, de prédire l'évolution des virus, d'étudier le lien entre les événements démographiques et climatiques, ou encore retracer la transmission et la propagation des virus. Dans cette thèse, nous proposons une nouvelle méthodologie non paramétrique exible où la connaissance de la fonction analytique qui régit la taille de la population e ective n'est pas nécessaire. Dans le premier chapitre, nous présentons les concepts de base de la biologie moléculaire, dont le but est de familiariser le lecteur avec les termes nécessaires à la compréhension des mécanismes d'évolution virale, comme la mutation qui est au c÷ur du sujet traité. Nous décrivons ensuite au chapitre 2 la théorie de coalescence, en commençant par le processus de coalescence classique qui suppose, entre autres, que la taille de la population reste constante à travers le temps. Cette hypothèse est ensuite levée en présentant le processus de coalescence dans le cas où la taille de population e ective est variable, ainsi qu'en présence de la recombinaison. Au chapitre 3, on s'intéresse aux méthodes qui permettent d'approximer la vraisemblance L(θ) en utilisant l'échantillonnage pondéré. En particulier, on décrit en détails la distribution proposée par Stephens et Donnelly (2000), qui permet de simuler des généalogies de manière e cace. Le chapitre 4, quant à lui, décrit les méthodes non paramétriques appelées skyline plot qui permettent d'estimer la taille de la population e ective. En e et, notre méthodologie peut être considérée comme une amélioration de la méthode skyline plot classique. Les chapitres 5 et 6 sont constitués de deux articles scienti ques en langue anglaise, qui présentent nos nouvelles méthodes. Le chapitre 5 décrit la méthode skywis plot qui s'appuie sur la simulation d'un grand nombre de généalogies en utilisant un échantillonnage pondéré. Ainsi, la taille de la population e ective est d'abord estimée pour chacune des généalogies sur un nombre donné d'époques ; ces époques sont obtenues par cumul de temps de coalescence. Ensuite, une moyenne pondérée des estimés de la taille de la population e ective est calculée pour chacune des époques, où les poids utilisés sont issus de l'échantillonnage pondéré. Notre méthode permet notamment d'a ecter un plus grand poids aux généalogies les plus vraisemblables avec les séquences échantillonnées. De plus, notre méthodologie est généralisée au cas d'un échantillonnage hétérochrone. À cet e et, une nouvelle fonction d'importance est proposée a n de simuler des généalogies dans un cadre où les séquences étudiées sont échantillonnées à des intervalles de temps assez importants. Ainsi, nous montrons par simulation qu'un échantillonnage hétérochrone permet d'améliorer la qualité de l'estimation de l'historique démographique quand on se rapproche de l'ancêtre commun. Notons que cet article a été publié dans la revue Frontiers in Genetics, section Evolutionary and Population Genetics. Le chapitre 6 décrit, à travers un deuxième article scienti que qui a été soumis, la méthode appelée iterative calibrated skywis plot ; cette méthode permet d'améliorer la performance du skywis plot dans le cas d'une évolution très rapide de la taille de la population e ective. Cela est réalisé en approximant au préalable la taille de la population par un modèle où la taille de population est variable, mais constante par intervalle. Dans ce cas, le taux de coalescence est di érent d'un intervalle à un autre, ce qui a nécessité d'adapter la fonction d'importance de Stephens et Donnelly (2000) à cette problématique où le processus d'arrivée des événements (coalescence ou mutation) devient non-homogène.

Conclusion

En nous basant sur la théorie de coalescence, nous avons proposé une nouvelle méthode non paramétrique, le skywis plot, qui permet d'explorer l'historique démographique d'un échantillon de séquences d'ADN. La méthode du skywis plot est basée sur la simulation d'un grand nombre de généalogies en utilisant un échantillonnage pondéré, où les poids résultants sont utilisés pour le calcul d'une moyenne pondérée des tailles de population e ective par époque ; cela permet de produire de bons estimés qui détectent bien la tendance évolutive de la taille de population e ective à travers le temps. La performance de la méthode skywis plot pour la capture du signal démographique contenu dans les séquences contemporaines d'ADN, a été illustrée par simulation, en utilisant plusieurs scénarios démographiques pour lesquels la taille de la population e ective varie de manière modérée . Il s'est avéré que le skywis plot permet de reconstruire correctement l'historique démographique récent des séquences selon plusieurs scénarios démographiques proposés. En particulier, notre méthode permet de capter les points de changement de la taille de la population e ective. De plus, on a trouvé que la performance du skywis plot est comparable à la méthode skyline plot bayésien qui utilise des techniques phylogénétiques et un échantillonnage MCMC. La méthode a été ensuite généralisée au cas d'un échantillonnage hétérochrone, où, en plus d'introduire le cadre méthodologique adéquat en adaptant la fonction d'importance de Stephens et Donnelly (2000), il a été illustré par simulation qu'il est possible, en présence de telles séquences hétérochrones, d'améliorer la performance du skywis plot dans le cas d'une croissance exponentielle de la taille de la population e ective. Cela est encore plus marquant à l'approche du temps de l'ancêtre commun, puisque cela permet l'ajout d'information qui est béné que à la méthode au moment de la reconstruction des généalogies qui se fait, rappelons-le, du présent vers le passé. La méthode skywis plot permet de bien reconstruire l'historique démographique dans des cas où le changement de la taille de la population n'est pas brutal. Par contre, cette approche très exible n'arrive pas à bien capter une forte augmentation/réduction de la taille d'une population. Cela nous a amené à développer une seconde méthode, qui est étudiée dans la suite de la thèse. Nous avons donc proposé d'améliorer la performance de la méthode skywis plot, en supposant d'abord la disponibilité d'information supplémentaire sur l'estimé de la taille de la population relative à di érents instants. Techniquement, cela rend le processus du nombre d'événements (coalescence ou mutation) non-homogène et a une incidence majeure sur la méthodologie utilisée pour la simulation des généalogies. Plus particulièrement, la simulation du temps du prochain événement, ainsi que la fonction d'importance utilisée, sont très a ectées. Cette nouvelle méthode a été appelée, calibrated skywis plot, car l'estimation de la taille de la population relative aux temps d'échantillonnage nous permet de simuler di éremment les temps entre deux événements en opérant un calibrage sur chaque intervalle inter-échantillonal. L'hypothèse de l'existence d'une estimation au préalable de la taille de la population relative à di érents moments a été ensuite levée, en proposant une procédure itérative, iterative calibrated skywis plot. Dans cette méthode, la taille de la population e ective est ainsi approximée par une fonction en escalier, où les estimés sont réestimés après chaque itération en utilisant la méthode calibrated skywis plot. Ces fonctions en escalier sont utilisées pour générer les temps d'attente d'un processus de Poisson non homogène (coalescence avec mutation) sous un modèle avec une taille de population variable. Cela nous a amené à adapter la distribution proposée de Stephens et Donnelly (2000). Comme illustration, nous avons appliqué la méthode iterative calibrated skywis plot sur un ensemble de données simulées à partir d'un modèle où la taille de la population e ective évolue de manière exponentielle, à croissance rapide. Nous avons montré que la nouvelle méthode améliore nettement le résultat trouvé par la méthode skywis plot. Dans le futur, nous prévoyons généraliser notre ensemble de méthodes skywis plot en incluant la recombinaison, qui induit une structure de graphe, plutôt que d'arbre. En e et, contrairement aux méthodes basées sur la phylogénétique, cela est possible, puisque les méthodes IS ont été déjà développées dans ce contexte (par exemple, Fearnhead and Donnelly, 2001). De plus, nos méthodes pourraient être appliquées à des modèles de substitution plus complexes, ce qui est plus réaliste, notamment dans le cas de virus ARN qui évoluent rapidement. En n, notons que la méthode skywis plot a fait l'objet d'un article publié dans la revue Frontiers in Genetics (Ait Kaci Azzou et al., 2015), tandis que les méthodes calibrated skywis plot et iterative calibrated skywis plot ont fait l'objet d'un deuxième article soumis.