Mathieu Mathieu Dupont


Cartographie génétique fine : évaluation d’une méthode d’estimation des allèles et du modèle de pénétrance.



Résumé Nous présentons et testons une méthode d’estimation des allèles d’une mutation potentiellement associée à un phénotype ainsi qu’une méthode d’estimation de son modèle de pénétrance. Ces deux méthodes reposent sur un algorithme EM et s’insèrent dans une mé- thode de cartographie génétique fine, MapARG, basée sur le processus de coalescence. La sensibilité des deux méthodes d’estimation aux risques relatifs du modèle de pénétrance réel de la mutation, à la taille des échantillons ainsi qu’à la largeur des fenêtres utilisées est systématiquement évaluée. Les deux méthodes s’avèrent performantes, particulièrement pour des risques relatifs forts. La taille des échantillons exerce peu d’influence, mais des fenêtres plus larges donnent de meilleurs résultats. L’estimation préalable du modèle de pénétrance montre un certain effet bénéfique sur l’estimation subséquente des allèles, comparativement à l’utilisation du vrai modèle connu. Aussi, la méthode d’estimation du modèle de pénétrance, basée sur une distance calculée entre les haplotypes primitifs et mutants, montre en soi un certain potentiel comme méthode de cartographie génétique.
Mots-clés : algorithme EM, cartographie génétique, coalescence, MapARG, modèle de pénétrance, risque relatif, SNP, statistique génétique, vraisemblance composite.



.

Introduction

Bien qu’Homo sapiens pratique la sélection artificielle sur d’autres espèces depuis des millé- naires, parfois consciemment et parfois inconsciemment, ce n’est que depuis tout récemment dans son histoire qu’il en comprend en partie les mécanismes, grâce notamment aux tra- vaux de Darwin (1859) et de Mendel (1865). Aujourd’hui, les bases de données génétiques contiennent des quantités astronomiques de ces données et en reçoivent continuellement de nouvelles. Divers champs de recherche tentent d’extirper des informations pertinentes de toutes ces données, comme la cartographie génétique, qui inclut le développement et la perfection de méthodes servant à identifier des mutations causales de phénotypes.

Un obstacle encore non résolu dans la cartographie génétique est l’ignorance des allèles que portent les individus d’un échantillon, à la mutation recherchée. De plus, le problème est accentué si l’on ignore également le modèle de pénétrance de la mutation en cause. Cet ouvrage a pour objectif de décrire et évaluer une méthode d’estimation des allèles et une méthode d’estimation du modèle de pénétrance, qui s’insèrent toutes deux dans une méthode de cartographie génétique fine, MapARG, développée par Fabrice Larribe et qui repose sur la statistique génétique.

Le chapitre I présente la génétique des populations, en introduisant quelques concepts de génétique et du processus de coalescence, pour finalement y situer la cartographie géné- tique. La méthode de cartographie génétique fine MapARG sera ensuite décrite en détail au chapitre II. Nous décrierons et évaluerons au chapitre III une méthode d’estimation des allèles d’une mutation, en supposant que nous connaissons a priori son modèle de péné- trance. Finalement, au chapitre IV, nous décrierons et évaluerons une méthode d’estimation du modèle de pénétrance, ainsi que son effet sur la méthode d’estimation des allèles.

Conclusion

’objectif du présent ouvrage était de tester l’efficacité et le potentiel de deux méthodes d’estimation, l’une pour estimer l’allèle d’une mutation cherchée sur tous les haplotypes d’un échantillon, et l’autre pour estimer le modèle de pénétrance de cette mutation, toutes deux reposant sur le même algorithme EM. Ces deux méthodes d’estimation s’insèrent dans une méthode de cartographie génétique fine que nous avons décrite en détail au chapitre II. La sensibilité de ces méthodes à quatre facteurs fut mise à l’épreuve, soient les risques relatifs RR1 et RR2, la taille des échantillons disponibles ainsi que la largeur des fenêtres utilisées.

En supposant le modèle de pénétrance connu, la méthode d’estimation des allèles s’avère très efficace à bien estimer les témoins et les cas primitifs au TIM, peu importe la taille de l’échantillon, la largeur des fenêtres et même pour des RRs très faibles. La juste détection des haplotypes mutants (témoins et cas) s’avère toutefois considérablement moins bonne, et significativement plus sensible aux facteurs testés. En particulier, leurs taux de succès périTIM, très faibles avec des RRs faibles, s’améliorent rapidement avec des RRs forts, parti- culièrement avec de larges fenêtres. La taille des échantillons ne semble toutefois pas exercer une grande influence. Une bonne estimation des allèles des haplotypes mutants est cepen- dant peut-être moins importante pour la performance subséquente de MapARG que celle des haplotypes primitifs. En effet, la contamination des vrais mutants d’un échantillon, plus homogènes, par des faux primitifs, plus hétérogènes, est possiblement plus dommageable à la méthode de cartographie.

Le modèle de pénétrance étant plus souvent qu’autrement inconnu, nous avons également testé une méthode pour l’estimer, qui produit une distribution sur un ensemble fini discret de modèles de pénétrance possibles. Cette distribution est basée sur une distance résultante entre les haplotypes estimés primitifs et ceux estimés mutants. L’utilisation subséquente de cette distribution pour estimer le vrai modèle peut prendre diverses formes, et nous en avons décrites trois. La plus performante, aussi la plus variable, est celle consistant à prendre le modèle le plus probable. Elle s’avère cependant peu efficace si les RRs sont très faibles, tout comme les deux autres, qui reposent sur l’espérance de la distribution. Ici encore, la taille des échantillons est peu influente, alors que de larges fenêtres résultent en de bien meilleurs résultats que des petites.

L’estimation subséquente des allèles au TIM en utilisant le modèle estimé (le plus probable) par la méthode fut également comparée à celle utilisant le vrai modèle connu. Il fut d’abord encourageant de constater que les pics des taux de succès autour du TIM étaient toujours présents, et d’intensité quasiment identique. Il fut également observé que les taux de succès des mutants étaient légèrement moins bons qu’avec l’utilisation du vrai modèle, mais que ceux des primitifs étaient plutôt améliorés, particulièrement dans la région périTIM. Si la juste estimation des allèles des primitifs est effectivement plus importante à la méthode MapARG que celle des mutants, l’utilisation du modèle estimé pourrait potentiellement aider la méthode de cartographie, même si elle se fait au détriment de la bonne estimation des mutants. La distribution périTIM des modèles de pénétrance, nettement concentrée autour du vrai modèle, au moins pour des RRs forts, comparativement à la distribution abTIM, pour- rait s’avérer en soi une méthode de cartographie génétique. En effet, les trois méthodes d’estimation du modèle montrèrent un très fort pic de leur espérance exactement sur la position de la mutation recherchée. Une investigation plus élaborée de ce côté pourrait être prometteuse.