Hugues Massé

Exploration d'une nouvelle méthode d'estimation dans le processus de coalescence avec recombinaison.

Résumé L’estimation de paramètres génétiques est un problème important dans le domaine de la génétique mathématique et statistique. Il existe plusieurs méthodes s’attaquant à ce problème. Certaines d’entre elles utilisent la méthode du maximum de vraisemblance. Celle-ci peut être calculée à l’aide des équations exactes de Griffiths-Tavaré, équations de récurrence provenant du processus de coalescence.

Il s’agit alors de considérer plusieurs histoires possibles qui relient les données de l’échantillon initial de séquences d’ADN à un ancêtre commun. Habituellement, certaines des histoires possibles sont simulées, en conjonction avec l’application des méthodes Monte-Carlo. Larribe et al. (2002) utilisent cette méthode (voir chapitre IV). Nous explorons une nouvelle approche permettant d’utiliser les équations de Griffiths-Tavaré de fa ̧con différente pour obtenir une estimation quasi exacte de la vraisemblance sans avoir recours aux simulations. Pour que le temps de calcul nécessaire à l’application de la méthode demeure raisonnable, nous devons faire deux compromis majeurs. La première concession consiste à limiter le nombre de recombinaisons permises dans les histoires. La seconde concession consiste à séparer les données en plusieurs parties appelées fenêtres. Nous obtenons ainsi plusieurs vraisemblances marginales que nous mettons ensuite en commun en appliquant le principe de vraisemblance composite. à l’aide d’un programme écrit en C++, nous appliquons notre méthode dans le cadre d’un problème de cartographie génétique fine ou` nous voulons estimer la position d’une mutation causant une maladie génétique simple.

Notre méthode donne des résultats intéressants. Pour de très petits ensembles de données, nous montrons qu’il est possible de permettre un assez grand nombre de recombinaisons pour qu’il y ait convergence dans la courbe de vraisemblance obtenue. Aussi, il est également possible d’obtenir des courbes dont la forme et l’estimation du maximum de vraisemblance sont similaires à celles obtenues avec la méthode de Larribe et al. Cependant, notre méthode n’est pas encore applicable dans son état actuel parce qu’elle est encore trop exigeante en termes de temps de calcul.
Mots-clés : équations exactes de Griffiths-Tavaré, paramètres génétiques, processus de coalescence, vraisemblance composite.

Introduction

En statistique génétique, plusieurs méthodes permettent d’estimer des paramètres génétiques. La méthode du maximum de vraisemblance en est une qui peut bien s’appliquer à ce type de problème. Celle-ci, à son tour, peut s’opérer de différentes fac ̧ons. Entre autres, nous avons le choix d’effectuer les calculs de vraisemblance en considérant les généalogies ou les histoires (Felsenstein et al., 1999, par exemple).

Cette dernière stratégie, effectuer les calculs de vraisemblance à l’aide des histoires, est une méthode courante depuis l’introduction des équations de Griffiths-Tavaré en 1994. Ce sont des équations de récurrence qui expriment la vraisemblance d’un ensemble de données en fonction des vraisemblances des ensembles de données antérieurs. Les équations de Griffiths-Tavaré sont construites à partir d’un modèle d’évolution particulier : le processus de coalescence (Kingman, 1982). Il s’agit d’un processus stochastique servant à décrire l’historique de la transmission de séquences d’ADN dans une population. C’est un processus flexible qui permet d’inclure toutes sortes d’options comme celle qui consiste à considérer les évènements de recombinaison (Hudson, 1983 et Griffiths et Marjoram, 1996).

En 2002, Larribe et al. ont mis au point une méthode de cartographie génétique fine qui permet d’estimer la position d’une mutation causant une maladie génétique simple. C’est une méthode qui tient compte de la recombinaison et qui utilise les équations de Griffiths-Tavaré. Dans leur méthode, Larribe et al. considèrent plusieurs histoires qui relient l’échantillon initial de séquences d’ADN à un ancêtre commun. Ils en simulent un grand nombre et la vraisemblance est estimée à l’aide de méthodes Monte-Carlo. Leur méthode comporte quelques inconvénients : le temps de calcul est assez grand, les courbes de vraisemblance sont différentes d’une simulation à l’autre et l’estimation fournie n’est pas toujours bonne. La recherche d’une méthode alternative est donc tout à fait justifiée. L’objectif principal de ce mémoire est d’explorer une nouvelle approche permettant possiblement d’obtenir de meilleurs résultats.

Cette approche consiste à considérer toutes les histoires qui relient l’échantillon initial de séquences d’ADN à l’ancêtre commun. Puisque le nombre d’histoires possibles est très grand, nous devons forcément faire des compromis pour que le temps de calcul demeure raisonnable. Ainsi, nous limitons le nombre de recombinaisons permises dans les histoires et nous séparons nos données en plusieurs parties appelées fenêtres. Nous regroupons par la suite les vraisemblances marginales obtenues pour chacune des fenêtres à l’aide du principe de vraisemblance composite (Lindsay, 1988 et Varin et Vidoni, 2005).

Ce mémoire est divisé en cinq chapitres. Les deux premiers chapitres fournissent la théorie nécessaire à l’application des méthodes d’estimation de vraisemblance considérées par la suite. Au chapitre I, nous présentons les notions pertinentes de génétique. Ensuite, au chapitre II, la théorie de la coalescence est expliquée. Plusieurs méthodes d’estimation de vraisemblance sont brièvement présentées au chapitre III. La méthode de Larribe et al. est exposée au chapitre IV. Finalement, au chapitre V, la nouvelle méthode que nous explorons dans ce mémoire est développée.

Conclusion

La recherche présentée dans ce mémoire avait pour but d’explorer une nouvelle méthode de cartographie génétique fine permettant d’estimer la position d’une mutation causant une maladie génétique simple. Tout comme la méthode de Larribe et al. du chapitre IV, il s’agit d’une approche qui utilise la méthode du maximum de vraisemblance et qui fait appel aux équations de récurrence de Griffiths-Tavaré ainsi qu’au processus de coalescence avec recombinaison et mutations. L’idée nouvelle de notre méthode est d’obtenir une estimation quasi exacte de la courbe de vraisemblance sans avoir recours aux simulations. Pour faire les calculs de vraisemblance, nous avons donc considéré toutes les histoires qui relient l’échantillon initial de séquences d’ADN à l’ancêtre commun. Cependant, nous avons dû faire des compromis pour que le temps de calcul demeure raisonnable. Nous avons limité le nombre de recombinaisons permises dans les histoires et nous avons séparé nos données en plusieurs parties appelées fenêtres. Nous avons par la suite regroupé les vraisemblances marginales obtenues pour chacune des fenêtres à l’aide du principe de vraisemblance composite.

La nécessité d’explorer une nouvelle approche était justifiée par certaines difficultés de la méthode de Larribe et al. En effet, cette méthode ne fournit pas toujours une estimation valable de la position de la mutation, nécessite des temps de calculs élevés et produit des courbes de vraisemblance qui sont différentes d’une simulation à l’autre. En évitant d’avoir recours aux simulations, nous étions au moins certains d’éviter ce dernier problème.

Nous avons obtenu des résultats intéressants avec notre méthode. Premièrement, les graphiques de la figure 5.10 obtenus avec les données “A” illustrent bien la convergence vers laquelle tendent les courbes de vraisemblance au fur et à mesure que nous augmentons. le nombre maximal de recombinaisons permises. C’est un résultat qui était important à illustrer à l’aide d’un exemple : il faut absolument qu’au-delà d’un certain nombre de recombinaisons, la méthode produise toujours les mêmes courbes de vraisemblance. Dans le cas contraire, nous ne pourrions jamais obtenir les bons résultats en des temps de calculs finis ! Ensuite, la forme de la courbe de vraisemblance obtenue avec la méthode de Larribe et al. pour les données “B” et “C” est similaire à notre “meilleure” courbe. De plus, dans les deux cas, les estimations du maximum de vraisemblance sont du même ordre de grandeur. En raison des résultats intéressants que nous avons pu obtenir, nous pensons que notre méthode vaut la peine d’être explorée davantage.

Malheureusement, notre méthode comporte encore un problème de taille : celui des temps de calculs élevés. Nous avons rapidement constaté que la croissance du temps de calcul se fait de fac ̧on exponentielle à mesure que nous augmentons le nombre maximal de recombinaisons permises dans les histoires. Les résultats que nous avons obtenus montrent clairement que, même si nous considérons des ensembles de données avec peu de marqueurs et peu de séquences, nous ne pouvons pas permettre autant de recombinaisons que nous le souhaiterions. Cela implique que nous n’avons pas pu effectuer suffisamment de calculs pour obtenir la “bonne” courbe de vraisemblance (ou du moins pour s’assurer que nous avons obtenu la “bonne” courbe).

Afin d’améliorer notre méthode, il est donc nécessaire de réduire les temps de calculs. à cette fin, nous avons des pistes de solution à proposer. Premièrement, le programme informatique C++ permettant d’appliquer notre méthode pourrait être modifié de fa ̧con de fac ̧on à réduire les temps de calculs. Afin de construire toutes les histoires possibles, nous avons utilisé un algorithme récursif. Malheureusement, la récursion est très coûteuse en temps de calcul. Il serait possible, quoique cela nécessiterait beaucoup de travail, de réécrire l’algorithme qui permet de construire les histoires sans utiliser la récursion. Ensuite, toujours dans le but d’améliorer le programme informatique, il serait intéressant d’utiliser des tables de calcul. Nous pourrions calculer les vraisemblances pour plusieurs petits échantillons de séquences et sauvegarder les résultats dans ces tables. Par la suite, le programme pourrait les utiliser afin d’éviter d’avoir à refaire les mêmes calculs. Dans un autre ordre d’idées, il serait aussi intéressant de changer la concession qui consiste à limiter le nombre de recombinaisons permises dans les histoires pour une autre concession qui nous permettrait de mieux limiter les temps de calculs. Dans cette optique, nous avons essayé de limiter la longueur des histoires, mais sans obtenir de résultats concluants. Il serait néanmoins possible de faire plusieurs autres tests, surtout si l’algorithme permettant de construire toutes les histoires possibles n’est plus récursif. à titre de suggestion, nous proposons de construire seulement les histoires minimales (comme dans Song et Hein, 2005), c’est-à-dire celles qui comportent exactement le nombre minimal d’évènements de recombinaison.