La Terre est ronde (p < 5%)

27.11.2013

A quoi servent les statistiques et que veut dire "significativité"? Alors que la statistique du XXe siècle touche à ses limites, les idées d’un prêtre anglais sont de nouveau d’actualité, malgré leurs 250 ans d’âge. De Valentin Amrhein

Comment un médecin s’y prend-il pour poser un diagnostic? Evaluer le risque de développer telle maladie ou le déroulement d’une affection? Il se base sur les données d’anciens patients. "Tous les processus décisionnels cliniques sont fondés sur la statistique", déclare Andreas Papassotiropoulos, chef du département des neurosciences moléculaires à l’Université de Bâle. Avant d’ajouter aussitôt: "Mais chez les médecins, comme chez les chercheurs en biologie et en médecine, les connaissances dans ce domaine recèlent toujours d’effrayantes lacunes." A l’image de ce chercheur qui présentait des mesures réalisées sur une souris génétiquement modifiée et sur une souris normale. Lorsqu’on lui a demandé sur combien de souris il avait effectué ses mesures, le chercheur a répondu: "Juste sur ces deux-là. On voit bien qu’il y a une différence."

Pourquoi aurait-il besoin de se former à la statistique? Prenons un exemple: nous aimerions savoir si, en Suisse, les hommes sont plus grands que les femmes. Le moyen le plus simple d’avoir la réponse, comme dans le cas des souris, consiste à considérer un individu de chaque sexe au sein de la population suisse. Mais il se pourrait que, par hasard, l’homme choisi soit plus petit que la femme sélectionnée. De notre observation, nous conclurions à tort qu’en général les hommes sont plus petits que les femmes. C’est pourquoi, d’ordinaire, les chercheurs se penchent sur des échantillons plus importants, et mesurent, par exemple, la taille de 50 individus de chaque sexe considérés au hasard. Mais comment s’y prendre pour comparer les données issues de ces mesures? Les comparer une à une n’a guère de sens. Nous devons les simplifier, notamment en mettant en parallèle la moyenne des hommes et celle des femmes.

Une moyenne peu significative

La moyenne constitue dès lors un modèle statistique qui ne correspond pas à la réalité. Car aucun individu, en Suisse, n’atteint la taille moyenne au nanomètre près. "On ne peut donc pas dire avec certitude à un patient comment il ira demain, en se basant sur l’évolution moyenne de cas similaires", souligne Andreas Papassotiropoulos.

Gérer ce fait implique une certaine conscience statistique, tant du côté du médecin que du patient. La moyenne est un bon modèle, mais les médecins doivent toujours le compléter avec les données individuelles de chaque patient. Et avec l’avènement de la médecine personnalisée, ces données sont toujours plus nombreuses. La statistique est la compagne permanente de la recherche et de la pratique médicale, et il faut être prêt à se former toute sa vie. Ainsi, le chercheur bâlois estime que dans les hautes écoles et les universités, la formation à la statistique devrait se poursuivre pendant toutes les études.

Statistique inductive

Après tout, on peut même trouver du plaisir à en faire. Un constat qui, dans un projet de recherche, s’impose au plus tard lorsqu’une analyse statistique devient inévitable. Car la statistique est bien davantage que le calcul de statures moyennes et l’art de présenter clairement des données. A côté de cette statistique, dite descriptive, il existe une statistique inductive, qui permet de vérifier des hypothèses scientifiques et de quantifier la "significativité" d’un résultat. Mais que veut dire "significativité statistique"?

Revenons à l’exemple de la taille des gens. Le problème fondamental des échantillons réside dans ce qu’on appelle l’erreur d’échantillonnage. Il se pourrait ainsi que tout à fait par hasard nous n’ayons sélectionné que des hommes de grande taille et des femmes de petite taille. Un simple test statistique permet de voir si la différence entre les valeurs moyennes des 50 femmes et celles des 50 hommes est suffisamment fiable pour qu’il soit effectivement possible de tirer des conclusions sur l’ensemble des personnes en Suisse.

Comprendre le concept de significativité implique un effort intellectuel. Une analyse statistique part de ce qu’on appelle l’hypothèse zéro. Dans notre cas, cette hypothèse zéro serait: les hommes et les femmes ont exactement la même taille. Un modèle statistique permet alors de simuler quelle serait la différence qui apparaîtrait entre les valeurs moyennes des tailles des hommes et des femmes si nous prenions à volonté des échantillons de 50 hommes et de 50 femmes. Si la différence de taille que nous avons effectivement déterminée apparaît dans moins de 5% des cas, on dit que le résultat est significatif: la différence de taille que nous avons trouvée serait très invraisemblable au cas où, dans la réalité, les femmes et les hommes étaient bel et bien de la même taille.

La plupart des études en sciences naturelles, sociales ou économiques, en psychologie ou en médecine n’ont la chance d’être publiées que si les résultats sont significatifs. C’est la raison pour laquelle de nombreux chercheurs considèrent la statistique comme nécessaire. Il n’y a qu’un problème: un résultat significatif ne répond malheureusement pas à la question posée par la recherche. Car avec un test de significativité, nous avons seulement vérifié la probabilité des différences entre les valeurs moyennes, si l’hypothèse zéro est exacte (dans la réalité, les femmes et les hommes ont la même taille). Mais comme pour la plupart des hypothèses zéro, il était d’emblée clair, pour celle-là aussi, qu’elle ne se vérifierait pas: où trouve-t-on en effet deux groupes d’êtres vivants ayant exactement la même taille? D’autre part, ce n’était pas l’hypothèse zéro qui nous intéressait, mais celle qui dit que les hommes sont plus grands que les femmes. Or, malheureusement, la statistique classique de l’hypothèse zéro ne nous fournit aucune information sur la probabilité que cette hypothèse soit correcte.

La valeur de p

Dans la plupart des cas, la statistique déductive ne fait donc pas ce qu’elle devrait. Pourtant, chercheurs et profanes, journalistes et lecteurs sont particulièrement soumis au mot "significatif" et à ce qu’on appelle la valeur de p, qui doit être inférieure à 5% pour être significative (p désigne la probabilité de notre résultat, ou d’un résultat encore plus extrême si l’hypothèse zéro est correcte). La critique du test de l’hypothèse zéro est presque aussi ancienne que la valeur de p, inventée au début du XXe siècle. Jacob Cohen, grand psychologue et statisticien, a fort brillamment pointé son absurdité et la tendance des scientifiques à lui accorder trop d’importance, dans sa publication critique "The earth is round (p < 5%)", parue en 1994 dans la revue American Psychologist.

Trois grands avantages

La statistique classique s’éloigne donc du test de l’hypothèse zéro et se concentre plutôt sur l’identification de schémas au coeur des données pour comprendre les processus qui les gouvernent. Depuis 250 ans environ, il existe une alternative au test de significativité. Elle est l’oeuvre de Thomas Bayes, mathématicien et ecclésiastique anglais. Cette forme de statistique présente trois grands avantages. Premièrement, elle rend possible l’intégration des connaissances préliminaires. Il n’est donc pas nécessaire, à chaque saisie de données, de faire comme si personne n’avait jamais étudié le sujet. Deuxièmement, elle permet d’obtenir ce que l’on veut vraiment, à savoir une indication de la probabilité que notre hypothèse soit exacte.

"Le troisième avantage, explique Penelope Vounatsou, statisticienne à l’Institut tropical et de santé publique suisse à Bâle, c’est que la statistique bayésienne permet de calculer des modèles beaucoup plus complexes que les méthodes statistiques classiques." Les modèles statistiques de l’Institut tropical calculent, par exemple, pour 10 000 villages, combien de personnes contracteront probablement telle maladie à tel moment dans chacun d’entre eux. Une donne face à laquelle les méthodes statistiques classiques seraient dépassées. "Dans les disciplines comme la protéomique ou la génomique, la statistique bayésienne représente l’avenir", poursuit la statisticienne. Ces domaines analysent en effet les fonctions et la synergie de l’ensemble des protéines ou des gènes d’une cellule ou d’un organisme.

Mais pourquoi la statistique bayésienne ne s’est-elle pas imposée voilà 250 ans? Parce que ses modèles sont souvent mathématiquement insolubles en raison de la complexité des intégrales. Ce n’est qu’avec le développement des technologies de simulation, dans les années 1970, couplé à l’avènement d’ordinateurs performants, que les méthodes sont devenues applicables. Certaines d’entre elles font encore débat, comme l’intégration correcte des connaissances préalables dans les calculs. Souvent, il s’agit de méthodes peu standardisées. Il n’existe donc pas de logiciel statistique rendant possible la conduite d’un test bayésien en quelques clics. La question est de savoir si un tel logiciel verra jamais le jour, car pour de nombreuses analyses, des spécialistes sont indispensables. Les chercheurs emmenés par Penelope Vounatsou programment donc eux-mêmes les fonctions informatiques dont ils ont besoin, et ce dans différents langages informatiques. Andreas Papassotiropoulos a lui aussi engagé un mathématicien pour la conduite d’analyses bayésiennes au Département des neurosciences moléculaires. Il conclut néanmoins en ces termes son plaidoyer en faveur d’une formation continue à vie en statistique, pour une frange aussi large que possible de la population: "Même si, à l’avenir, des spécialistes se chargeront des analyses, cela ne dispense pas les chercheurs, les médecins et autres mandataires de comprendre les méthodes. Car au bout du compte, ceux qui interprètent les résultats et doivent prendre des décisions sur cette base, c’est nous."

De "Horizons" 98, septembre 2013