Natalia Dragieva

Construction d'un intervalle de confiance par la méthode bootstrap et test de permutation.

Résumé Ce mémoire traite d'une application pratique de deux méthodes statistiques non paramétriques : le bootstrap et le test de permutation. La méthode du bootstrap a été proposée par Bradley Efron (1979) comme une alternative aux modèles mathématiques traditionnels dans des problèmes d'inférence complexe; celle-ci fournit plusieurs avantages sur les méthodes d'inférence traditionnelles. L'idée du test de permutation est apparue au début du XXème siècle dans les travaux de Neyman, Fisher et Pitman. Le test de permutation, très intensif quant au temps de calcul, est utilisé pour construire une distribution empirique de la statistique de test sous une hypothèse afin de la comparer avec la distribution de la même statistique sous l'hypothèse alternative.

Notre objectif est de déterminer l'intervalle de confiance pour un estimateur à maxi mum de vraisemblance d'une méthode de cartographie génétique existante (MapArg, Larribe et al. 2002) et de tester la qualité de cet estimateur, c'est-à-dire d'établir des seuils de significa tion pour la fonction de la vraisemblance. Les deux méthodes utilisent le calcul répétitif d'une même statistique de test sur des échantillons obtenus à partir de l'échantillon initial, soit avec le «bootstrap», soit avec des permutations. Dans un test d'hypothèse, les deux méthodes sont complémentaires.

Le but de ce mémoire est de proposer différentes variantes pour la construction de l'intervalle de confiance, et de tester des hypothèses distinctes, afin de trouver la meilleure solution adaptée pour la méthode MapArg. Pour faciliter la compréhension des décisions prises, un rappel de l'inférence statistique et des tests d' hypothèse est fait dans les chapitres 4 el 5 où la théorie du bootstrap et celle de test de permutation sont présentées. Comme les qualités d'un estimateur dépendent de la méthode utilisée pour le calculer, les chapitres 1 et 2 présentent la base biologique et la base en mathématiques sur lesquelles la méthode MapArg est construite, tandis qu'on trouvera dans le chapitre 3 une explication de la méthode MapArg.XXXXXXX
Mots-clés : mutation, recombinaison, coalescence, cartographie génétique, bootstrap, test de permutation.

Introduction

Un des problèmes importants de la biologie, l'étude de la transmission du matériel héréditaire, est devenu un problème de plus en plus actuel pour les statisticiens. En effet, les scientifiques essayent depuis longtemps de modéliser la transmission du matériel génétique afin d'estimer la position d'une mutation d'intérêt, et de répondre à des questions quant aux mala dies causées par un facteur génétique. Différentes méthodes pour estimer la position probable d'une mutation ont été proposées, et fonctionnent avec un certain succès. Notre travail est concentré sur la méthode MapArg (Larribe et al., 2002), une méthode de cartographie génétique fine basée sur la reconstruction de l'histoire de la population (au sens génétique), histoire modélisée par le processus de coalescence avec recombinaison (Griffiths et Marjoram, [996) : le graphe de recombinaison ancestral (ARG). Supposons que la mutation d'intérêt se trouve sur un segment génomique identifié et que l'on dispose de segments d'ADN de membres malades et sains d'une population, on peut alors, en plaçant la mutation en diverses positions sur le segment étudié, reconstruire retrospectivement la généalogie de la population en question, conditionnellement à la position de la mutation, afin d'obtenir un estimateur à maximum de vraisemblance de la position de la mutation. La méthode propose une estimation par intervalle, ce qui reflète l'estimateur obtenu. L'objectif principal de notre projet de recherche est de fournir une méthode pour construire un intervalle de confiance pour l'estimateur obtenu, et de tester la qualité de cet estimateur. Le mémoire est composé de 5 chapitres. Le chapitre 1 introduira les principes biologiques de base concernant la transmission génétique héréditaire, tandis que le chapitre 2 introduira les concepts mathématiques pour modéliser des processus évolutifs. Le chapitre 3 décrit l'idée derrière la méthode MapArg, et les chapitres 4 et 5 discutent différents aspects des méthodes proposées pour tester la confiance et la qualité de l'estimateur de la position probable de la mutation. Notons que les deux méthodes, le «bootstrap» pour un intervalle de confiance, et le «test de permutation» pour la qualité de l'estimateur, sont des méthodes non paramétriques. Des idées nouvelles sont proposées pour les seuils de signification de la fonction de vraisemblance et pour la maximisation de la fonction de vraisemblance.

Conclusion

L'objectif principal de ce projet était de développer des méthodes pertinentes pour obtenir un intervalle de confiance et tester l'estimateur de la position d'une mutation d'intérêt foumi par la méthode MapArg. Le travail a été divisé en deux parties: une partie théorique et une partie pratique. La partie pratique consiste essentiellement à un travail d'algorithmique et de programmation (C++), et fait suite à ce qui a été développé dans la partie théorique.

La construction d'un intervalle de confiance par la méthode du bootstrap, et le test de per mutation nécessitent en général une répétition de la méthode MapArg sur des données «boots trapées» ou permutées. On a utilisé le code original du programme MapArg comme une base de son extension MapArgBP. Le défi principal était le temps du calcul nécessaire pour un nombre de bootstraps ou de permutations significatif. Par exemple, pour certaines données, le temps du calcul pour 3000 permutations était de 3 mois. D'autre part, les fichiers des résultats numériques des tests perforrnés pendant les 9 demiers mois ont un volume considérable: 25 GB sur l'un d'ordinateurs utilisés et 12 GB sur l'autre. L'estimation par la méthode MapArg pour les petits intervalles semblait instable. L'analyse des graphiques et des résultats numériques nous permet tait de trouver la façon correcte de tester l'estimateur obtenu. Pour réduire le temps du calcul, la méthode MapArg utilise des sous-ensembles de séquen ces génomiques nommées des fenêtres. D'un point de vu mathématique, pour des petites fenêtres, la comparaison des valeurs de la fonction de la vraisemblance (le problème de maximisation de la fonction de la vraisemblance sur la longueur totale de la séquence) n'est pas correcte. Pour cette raison, un test de la distribution des valeurs de la fonction de la vraisemblance par inter valle a été introduit, ce que nous a permis de corriger l'estimateur. Pour des données simulées, nous avons obtenu une très bonne estimation de la position probable de la mutation.

Nous pouvons dire que les problèmes discutés dans cet ouvrage sont complexes et qu'il y a encore beaucoup de travail à faire afin de donner une réponse positive pour des vraies données. Pour améliorer le temps du calcul, une version parallèle du programme est suggérée.