Natalia Natalia Dragieva


Construction d'un intervalle de confiance par la méthode bootstrap et test de permutation.



Résumé Ce mémoire traite d'une application pratique de deux méthodes statistiques non pa­ramétriques : le bootstrap et le test de permutation. La méthode du bootstrap a été proposée par Bradley Efron (1979) comme une alternative aux modèles mathématiques traditionnels dans des problèmes d'inférence complexe; celle-ci fournit plusieurs avantages sur les méthodes d'inférence traditionnelles. L'idée du test de permutation est apparue au début du XXème siècle dans les travaux de Neyman, Fisher et Pitman. Le test de permutation, très intensif quant au temps de calcul, est utilisé pour construire une distribution empirique de la statistique de test sous une hypothèse afin de la comparer avec la distribution de la même statistique sous l'hypothèse alternative.

Notre objectif est de déterminer l'intervalle de confiance pour un estimateur à maxi­ mum de vraisemblance d'une méthode de cartographie génétique existante (MapArg, Larribe et al. 2002) et de tester la qualité de cet estimateur, c'est-à-dire d'établir des seuils de significa­ tion pour la fonction de la vraisemblance. Les deux méthodes utilisent le calcul répétitif d'une même statistique de test sur des échantillons obtenus à partir de l'échantillon initial, soit avec le «bootstrap», soit avec des permutations. Dans un test d'hypothèse, les deux méthodes sont complémentaires.

Le but de ce mémoire est de proposer différentes variantes pour la construction de l'intervalle de confiance, et de tester des hypothèses distinctes, afin de trouver la meilleure solution adaptée pour la méthode MapArg. Pour faciliter la compréhension des décisions prises, un rappel de l'inférence statistique et des tests d' hypothèse est fait dans les chapitres 4 el 5 où la théorie du bootstrap et celle de test de permutation sont présentées. Comme les qualités d'un estimateur dépendent de la méthode utilisée pour le calculer, les chapitres 1 et 2 présentent la base biologique et la base en mathématiques sur lesquelles la méthode MapArg est construite, tandis qu'on trouvera dans le chapitre 3 une explication de la méthode MapArg.XXXXXXX
Mots-clés : mutation, recombinaison, coalescence, cartographie génétique, bootstrap, test de permutation.

Introduction

Un des problèmes importants de la biologie, l'étude de la transmission du matériel héréditaire, est devenu un problème de plus en plus actuel pour les statisticiens. En effet, les scientifiques essayent depuis longtemps de modéliser la transmission du matériel génétique afin d'estimer la position d'une mutation d'intérêt, et de répondre à des questions quant aux mala­ dies causées par un facteur génétique. Différentes méthodes pour estimer la position probable d'une mutation ont été proposées, et fonctionnent avec un certain succès. Notre travail est concentré sur la méthode MapArg (Larribe et al., 2002), une méthode de cartographie génétique fine basée sur la reconstruction de l'histoire de la population (au sens génétique), histoire modélisée par le processus de coalescence avec recombinaison (Griffiths et Marjoram, [996) : le graphe de recombinaison ancestral (ARG). Supposons que la mutation d'intérêt se trouve sur un segment génomique identifié et que l'on dispose de segments d'ADN de membres malades et sains d'une population, on peut alors, en plaçant la mutation en diverses positions sur le segment étudié, reconstruire retrospectivement la généalogie de la population en question, conditionnellement à la position de la mutation, afin d'obtenir un estimateur à maximum de vraisemblance de la position de la mutation. La méthode propose une estimation par intervalle, ce qui reflète l'estimateur obtenu. L'objectif principal de notre projet de recherche est de fournir une méthode pour construire un intervalle de confiance pour l'estimateur obtenu, et de tester la qualité de cet estimateur. Le mémoire est composé de 5 chapitres. Le chapitre 1 introduira les principes biologiques de base concernant la transmission génétique héréditaire, tandis que le chapitre 2 introduira les concepts mathématiques pour modéliser des processus évolutifs. Le chapitre 3 décrit l'idée derrière la méthode MapArg, et les chapitres 4 et 5 discutent différents aspects des méthodes proposées pour tester la confiance et la qualité de l'estimateur de la position probable de la mutation. Notons que les deux méthodes, le «bootstrap» pour un intervalle de confiance, et le «test de permutation» pour la qualité de l'estimateur, sont des méthodes non paramétriques. Des idées nouvelles sont proposées pour les seuils de signification de la fonction de vraisemblance et pour la maximisation de la fonction de vraisemblance.

Conclusion

L'objectif principal de ce projet était de développer des méthodes pertinentes pour obtenir un intervalle de confiance et tester l'estimateur de la position d'une mutation d'intérêt foumi par la méthode MapArg. Le travail a été divisé en deux parties: une partie théorique et une partie pratique. La partie pratique consiste essentiellement à un travail d'algorithmique et de programmation (C++), et fait suite à ce qui a été développé dans la partie théorique.

La construction d'un intervalle de confiance par la méthode du bootstrap, et le test de per­ mutation nécessitent en général une répétition de la méthode MapArg sur des données «boots­ trapées» ou permutées. On a utilisé le code original du programme MapArg comme une base de son extension MapArgBP. Le défi principal était le temps du calcul nécessaire pour un nombre de bootstraps ou de permutations significatif. Par exemple, pour certaines données, le temps du calcul pour 3000 permutations était de 3 mois. D'autre part, les fichiers des résultats numériques des tests perforrnés pendant les 9 demiers mois ont un volume considérable: 25 GB sur l'un d'ordinateurs utilisés et 12 GB sur l'autre. L'estimation par la méthode MapArg pour les petits intervalles semblait instable. L'analyse des graphiques et des résultats numériques nous permet­ tait de trouver la façon correcte de tester l'estimateur obtenu. Pour réduire le temps du calcul, la méthode MapArg utilise des sous-ensembles de séquen­ ces génomiques nommées des fenêtres. D'un point de vu mathématique, pour des petites fenêtres, la comparaison des valeurs de la fonction de la vraisemblance (le problème de maximisation de la fonction de la vraisemblance sur la longueur totale de la séquence) n'est pas correcte. Pour cette raison, un test de la distribution des valeurs de la fonction de la vraisemblance par inter­ valle a été introduit, ce que nous a permis de corriger l'estimateur. Pour des données simulées, nous avons obtenu une très bonne estimation de la position probable de la mutation.

Nous pouvons dire que les problèmes discutés dans cet ouvrage sont complexes et qu'il y a encore beaucoup de travail à faire afin de donner une réponse positive pour des vraies données. Pour améliorer le temps du calcul, une version parallèle du programme est suggérée.