Scepticisme

Simulation de la valeur-p

Le jeu de pile ou face

Fréquemment citée comme critère objectif de résultats significatifs, la valeur-p est un outil statistique souvent utilisé, mais aussi souvent mal compris. Voici une illustration pratique de cette notion à l'aide d’une simulation.

Le jeu de pile ou face peut aider à mieux comprendre l’idée d’une distribution de probabilités qui suit une courbe normale (en forme de cloche), fondamentale au concept de valeur-p. La courbe normale représente un grand nombre de cas statistiques où les valeurs obtenues se répartissent également autour d’une moyenne et deviennent de moins en moins probables à mesure que l’on s’écarte de la moyenne. Nous en verrons quelques exemples.

Pile ou face ?

Je lance une pièce de monnaie 30 fois dans les airs. Si elle tombe sur le côté « pile », j’estime avoir eu un succès. Comme une pièce bien équilibrée a une chance sur deux de tomber sur pile, je m’attends à avoir en moyenne 15 piles sur 30 lancers. Naturellement, dans une série de 30 lancers, je pourrais avoir plus que 15 succès : 16, 17 ou plus ; je pourrais aussi en avoir moins que 15 : 14, 13 ou moins.

Intuitivement, je penserais que plus je m’éloigne de la moyenne de 15 piles dans une série de 30 lancers, moins mes chances sont grandes d’avoir ce score. En fait, on peut calculer qu’on aura exactement 15 piles pour un peu moins de 15 % des lancers et exactement 10 ou exactement 20 piles pour un peu moins de 3 % des lancers.

Lancer 30 pièces de monnaie en l’air et compter le nombre de piles devient rapidement fastidieux. Heureusement, un ordinateur peut simuler en quelques secondes le lancer au hasard d’un grand nombre de pièces et faire un compte du nombre de piles obtenues pour chaque série de 30 lancers.

Le nombre de séries de 30 lancers joue un rôle important dans la distribution du nombre de piles obtenues pour chaque série. Par exemple, 100 séries de 30 lancers pourraient sembler constituer un nombre suffisant. Toutefois, le hasard pour 100 séries pourrait nous donner plus de cas de 13 succès que de cas de 15 succès, alors que nous nous attendrions à un maximum de cas pour 15 piles sur 30. L’expérience montre que la distribution du nombre de piles obtenues par hasard se stabilise autour de 10 000 séries et qu’elle est encore plus stable à 100 000 séries.

Résultats de la simulation

La figure 1 représente les résultats d’une telle simulation pour 100 000 séries de 30 lancers. La première colonne de ce tableau donne le nombre de succès (N) possibles (de 0 à 30), soit le nombre de piles d’une série de 30 lancers. La deuxième colonne donne la fréquence d’avoir précisément ce nombre de piles pour 100 000 lancers simulés. Ainsi, la simulation a compté 14 439 séries (ligne encadrée) qui ont eu exactement 15 piles sur les 30 piles possibles. Cela donne un ratio de 14 439 séries sur 100 000 ou 0,14439. C’est ainsi que l’on calcule la troisième colonne (ratio), dont le total donne 100 000 sur 100 000, soit 1.

La quatrième colonne donne le résultat d’une distribution binomiale, qui en théorie décrit notamment celle d’un lancer de pièce à deux faces équiprobables. La cinquième colonne montre que la distribution normale calculée avec ces mêmes paramètres suit de près la distribution binomiale et le ratio obtenu par simulation. Contrairement au ratio qui est le résultat précis et particulier d’une simulation, les probabilités binomiales et normales proviennent de l’équation de leur distribution théorique respective.

L’histogramme horizontal à droite du tableau représente le nombre de séries qui ont chacune eu un nombre précis de piles relatif à la fréquence maximale (14 439) de la valeur moyenne de succès (15). C’est une représentation graphique des résultats de la simulation.

On note que la forme générale de l’histogramme ressemble à une courbe normale en forme de cloche. Elle obéit au théorème de la limite centrale : si certaines conditions préalables sont respectées, les résultats moyens de nombreux échantillons vont tendre à se distribuer selon une courbe normale ; et cela, même si les données individuelles dans la population ne se distribuent pas selon une courbe normale. La proportion des lancers de pile ou face pour une série de lancers en est un exemple.

La distribution d’un lancer de pièce est uniforme : on a 50 % de chance de tomber pile et 50 % de chance de ne pas tomber pile. Toutefois, la proportion des piles pour un nombre particulier de séries de lancers suivra une distribution normale. Plus le nombre de séries testées sera grand, meilleure sera l’approximation à la distribution normale. On constate que 100 000 séries de lancers donnent une très bonne approximation.

Ce théorème de la limite centrale s’applique à toutes sortes de distributions probabilistes dont les variables sont indépendantes. Dans l’exemple du lancer de pièces, un lancer particulier ne dépend pas du résultat du lancer précédent : il est donc une variable indépendante.

Courbe normale et histogramme binomial

Rappelons la définition de la valeur-p : c’est la probabilité qu’une série d’observations donne par hasard un résultat statistique si improbable qu’il nous fait douter de la justesse d’une hypothèse courante considérée comme vraie. L’hypothèse alternative (soutenue par les observations) devient alors l’une des candidates à une évaluation positive.

Dans l’exemple précédent, l’hypothèse considérée comme vraie est que la pièce de monnaie est parfaite et que le lancer est sans biais — aucun des deux côtés ne serait favorisé. Les hypothèses alternatives candidates à une évaluation positive sont que la pièce de monnaie est déséquilibrée ou encore que des lancers biaisés favorisent un côté particulier de la pièce ou que le lanceur est un magicien, etc.

Ce résultat statistique improbable pourrait être la probabilité d’obtenir au moins 20 piles sur 30 lancers. En se référant à la cinquième colonne de la figure 1 (l’approximation normale), le calcul approprié serait l’addition des probabilités d’avoir exactement 20, 21, 22, … , ou 30 piles (0,02751 + 0,01322 + 0,00556 + … = 0,049), ce qui donne approximativement 0,05 ou 5 %. C’est un résultat relativement improbable puisqu’on a 1 chance sur 20 (5 %) qu’il se produise par hasard.

La distribution normale est symétrique autour de sa moyenne, comme on peut le constater à la figure 1 et à la figure 2. Cette dernière montre la courbe continue normale avec moyenne (MU) de 15 succès et écart-type (SIGMA) de 2,74 succès. Il s’y trouve aussi l’histogramme discret des résultats de la simulation (et de la binomiale), qui s’y accorde assez bien. La somme de toutes les probabilités sous la courbe est égale à 1, comme elle l’est pour toutes les distributions de probabilité.

Il revient à l’analyste de fixer (avant l’étude) le niveau de confiance au-delà duquel il serait prêt à rejeter l’hypothèse de base considérée comme vraie (ou l’hypothèse nulle – voir le paragraphe suivant). La figure 2 montre que ce niveau a été fixé à 5 %. Cela représente la surface sous la courbe de 20 à 30 lancers inclusivement. Étant donné que la courbe normale est symétrique, la probabilité d’obtenir de 0 à 10 piles serait aussi de 5 %.

Hypothèse nulle et hypothèse alternative

Dans un contexte statistique, la situation actuelle ou commune représente souvent ce qu’on appelle l'« hypothèse nulle ». D’autre part, on nomme « hypothèse alternative » une thèse concurrente que l’on veut examiner.

Ainsi, dans une population de personnes souffrant de haute tension artérielle, la situation actuelle (hypothèse nulle) pourrait être la moyenne de la mesure de la tension des personnes composant cette population, qui pourrait comprendre des milliers, voire des millions de personnes. Par exemple, cette mesure pourrait être de 150 (mmHg).

D’autre part, la thèse concurrente (hypothèse alternative) pourrait être la moyenne d’un petit groupe de cette population à qui on aurait donné un médicament visant à réduire la tension artérielle des membres de cette population. La moyenne de la tension artérielle de ce groupe test ayant pris le nouveau médicament pourrait être de 140 (mmHg).

Une valeur-p inférieure au degré de confiance requis (5 %, par exemple) ne prouve pas que la thèse alternative est vraie à au moins 95 % ou à quelque autre degré de certitude. Elle indique que l’on peut rejeter l’hypothèse courante (nulle), puisque les résultats que l’on a obtenus ont 5 % ou moins de chance de s’être produits par hasard.

La score-z et la valeur-p

Le théorème de la limite centrale s’applique à des mesures (notamment des proportions ou des moyennes) provenant d’échantillons obéissant à toutes sortes de distributions probabilistes dont les variables sont indépendantes. Ces mesures suivent une distribution normale avec une moyenne et un écart-type particuliers. Pour faciliter leur analyse, les statisticiens transforment cette distribution normale particulière en une distribution normale standard dont la moyenne est fixée à 0 et l’écart-type à 1.

Cette transformation crée une nouvelle statistique appelée la score-z. Des tables pour divers degrés de confiance les relient à des notes z précises (figure 3). Ainsi, pour l’exemple des séries de 30 lancers d’une pièce de monnaie (moyenne = 15, écart-type (1) = 2,74), la score-z à 5 % de confiance est estimée à 1,65 par ce calcul : (moyenne recherchée – moyenne de la population) divisé par l’écart-type de l’échantillon = (19,5 – 15) / 2,74 = 1,65 (approximativement).

Ainsi, une score-z de 1,65 correspond à une valeur-p de 5 %. Pour respecter ce niveau significatif, le nombre de piles pour 30 lancers commence à 20 si l’on se fie à l’histogramme discret de la figure 2. Mais, il est de 19,5 en utilisant l’approximation de la courbe normale qui, elle, est continue. Le rectangle visé de l’histogramme va de 19,5 à 20,5 piles.

La figure 4 montre une courbe normale standard, illustrant une score-z de 1,65 correspondant à une valeur-p de 5 % :

Moyenne (MU) = 0

Écart-type (SIGMA) = 1

Score-z = 1,65

Valeur-p = 0,05 (ou 5 %)

Si on multiplie la score-z par l’écart-type du problème des 30 lancers de pièces, nous obtenons comme résultat que 19,5 ou plus de lancers ont une probabilité de 5 % de survenir par hasard : (x écart-type) + moyenne = (1,65 x 2,74) + 15. Nous devons ajouter la moyenne (15) au total de la multiplication, puisque la moyenne de la courbe non normalisée (à 0) est de 15 lancers.

Exemple avec des proportions

Voici un exemple tiré du domaine de la santé. Une pharmaceutique soutient que son médicament pour soulager les allergies est efficace à 90 % en moyenne pour toute une population qui souffre d’allergies. Dans un échantillon test de 100 (N) sujets, 84 se sont dits soulagés. Les résultats de cet échantillon confirment-ils la prétention de la pharmaceutique ?

Dans cet exemple, l’alternative courante (nulle) est l’affirmation selon laquelle le médicament est efficace à 90 %, soit une proportion de 0,90 (po). Les résultats du test indiquent que seulement 84 personnes ont été soulagées, soit une proportion de 0,84 pour l’hypothèse alternative (pA). Si l’on suppose que l’hypothèse nulle est exacte (soulagement à 90 %), une proportion aussi basse que 84 % (celle de l’échantillon de 100 sujets) peut-elle être un effet du hasard ?

Choisissons le critère de rejet relativement commun de 5 %. Si la proportion de 0,84 est moins probable que 5 %, on arrivera à la conclusion qu’elle ne peut être due au hasard, donc que le taux de soulagement du médicament est probablement inférieur à 90 %. À 5 % de probabilité, on vise une score-z d’au moins –1,65 (voir figure 5). Il est négatif puisque le test a donné une proportion plus basse que celle de l’hypothèse nulle.

La score-z du test donne la solution. Elle est calculée ainsi : z = la différence observée divisée par l’écart-type. La différence observée = (84 – 90) = –6. L’écart-type (2) = 3. La score-z = (-6/3) = –2. Cette score-z (–2) est moindre que celle qui est recherchée (–1,65).

Nous rejetons donc l’hypothèse (nulle) avancée selon laquelle le médicament est efficace à 90 %. Si cette hypothèse était vraie, nous aurions moins de 5 % de chances que les résultats de l’échantillon (84 %) soient dus au hasard (environ 2 % de chance).

Notons que si notre échantillon avait été de 25 au lieu de 100 et que nous avions toujours obtenu seulement 84 % de soulagement pour le test, la score-z aurait été de –1,5 et nous n’aurions pas pu rejeter avec 95 % de certitude l’hypothèse nulle, soit que le médicament est à 90 % efficace. D’autre part, n’importe quel échantillon plus grand que 100 (à soulagement toujours égal à 84 %) donnera une score-z inférieure à –1,65 ; cela nous suggérera de rejeter l’hypothèse nulle. La taille de l’échantillon peut jouer un rôle important.

Propriétés de la courbe normale

En terminant, examinons les propriétés de la distribution de probabilités qu’est la courbe normale (figure 6). La surface sous la courbe est égale à l’unité ou 100 %. Elle est symétrique, 68 % de résultats devraient se trouver à un écart-type de sa moyenne (0). On devrait trouver aussi 96 % des résultats à l’intérieur de deux écarts-types de la moyenne.

Toutes les situations dans lesquelles les statistiques suivent une distribution normale avec leur propre moyenne et leur propre écart-type peuvent se normaliser selon la courbe standard de moyenne 0 et d’écart-type 1. On soustrait la moyenne de la population de la moyenne du test et on divise ce résultat par l’écart-type. Nous avons utilisé l’exemple de séries de lancers de 30 pièces de monnaie pour le démontrer. La fréquence moyenne du nombre de piles pour chaque série (figure 2) a été ramenée à une courbe normale (figure 4).

Un outil limité

Dans le jeu de pile ou face, on a vu que si l’on obtient 20 piles ou plus sur une série de 30 lancers, on pourrait conclure que c’est un résultat improbable qui nous fait douter avec 95 % de certitude que la pièce soit bien équilibrée ou souffre d’un autre biais. Car on a 5 % de chances que cette série donne par hasard 20 piles ou plus.

La valeur-p est un outil assez simple et pratique pour déterminer si les résultats obtenus d’un échantillon relativement petit provenant d’une grande population sont significatifs, mais sa portée est limitée. Il suppose toujours que l’hypothèse nulle est vraie ; il porte un jugement statistique sur la conformité des résultats obtenus à un seuil critique variable et fixé arbitrairement. On ne doit pas non plus lui faire dire ce qu’il n’a pas été conçu pour démontrer. Plusieurs articles de ce numéro en montrent la portée et les limites dans des contextes plus réels que l’exemple du jeu de pile ou face.

2017 - qs094p25