1/
[THREAD]
Aujourd'hui, la p-value !
(parce qu'on m'a un peu cherché avec ça...).
Cette histoire de "résultats significatifs", de "graal" des études ?
On l'utilise partout, parfois sans savoir, même certains chercheurs.
(spoil : va y avoir la grande citation du Raoult)
2/
Si je lance une pièce 4 fois et que je tombe 3 fois sur pile, est-ce qu'elle est truquée ? Réponse : peut-être, on sait pas.
Si je lance une pièce 4000 fois et que je tombe 3000 fois sur pile, est-ce qu'elle est truquée ? Réponse : c'est pas certain, mais presque.
3/
Donc en sciences expérimentales, on ne peut jamais être certain à 100%, mais il y a moyen de quantifier cette incertitude. C'est un peu ça, la p-value: une probabilité de se gourrer (pour les puristes, je préfère expliquer ainsi plutôt qu'en H0 et H1 : précisez si vous voulez)
4/
Plus la p-value est faible, plus la certitude est forte. Mais il n'y a pas de "seuil" naturel. Il faut donc en choisir un quand même (car on ne va pas s'amuser à lancer la pièce de monnaie une infinité de fois, ou on ne va pas tester un traitement sur 6 milliards de patients).
5/
En sciences on fixe souvent ce seuil à 5% se chances de se tromper. C'est arbitraire. En physique des particules, ils sont beaucoup plus exigeants. Ce seuil est devenu un truc trop fort à mon goût (4,95% : je publie, 5,05% : je publie pas, c'est un peu débile). Grand débat.
6/
On peut cependant recalculer la p-value à chaque fois qu'on répète une nouvelle fois l'expérience (ou qu'on inclut un nouveau patient) : ça permet de visualiser la variation de p-value ("fonction de puissance", trop rarement fournie) et de voir si elle atteint un certain seuil
7/
On en vient à la citation du Raoult "c'est contre-intuitif mais moins il y a de patients, plus les résultats sont significatifs". Evidemment non. Mais il s'est repris en disant : "moins il y a de patients, plus quand les résultats sont significatifs, c'est significatif". Ah...
8/
En fait, ce qu'il voulait dire, c'est que si on a besoin de beaucoup de patients pour arriver à une p-value significative, c'est que l'EFFET est faible. Pas besoin d'être allé au-delà de la 3ème, mais bon...
9/
Ce point est très important : on peut avoir un EFFET fort mais très incertain, et un EFFET faible mais presque CERTAIN. toujours regarder la taille d'effet, et pas seulement la p-value.
10/
C'est pour ça que quand les résultats d'une étude clinique se font attendre, ça veut dire que l'effet est faible ou nul (on ne peut pas le savoir à l'avance) et donc qu'il faut inclure davantage de patients pour être sûr du résultat (avoir une bonne p-value). Ex : Discovery.
11/
Comme la p-value est devenue le "graal", certains cherchent après-coup là où elle est "significative". Sauf qu'en multipliant cela vous finirez toujours par trouver un truc qui semble significatif : c'est le p-hacking. Or même au seuil de 5% il y a une chance se de se gourrer
12/
Raison pour laquelle on se méfie quand une étude change son critère de réussite en cours de route, ou quand on analyse les données en sous-groupes après-coup (spéciale dédicace à France-Soir...). DANGER : gros biais de confirmation.
13/
Enfin, un truc que même beaucoup de chercheurs n'ont pas compris : la p-value ne mesure pas le % de chances que la théorie soit vraie, mais elle mesure le % de chances que si la théorie est vraie alors les données collent à la théorie. Ca vous parait fumeux ?
14/
Prenons un exemple. Vous testez l'évolution d'une maladie chez des patients. Votre p-value est bonne : a priori votre hypothèse d'évolution linéaire de la maladie est bonne (la droite, en rouge)
15/
Sauf que cette hypothèse-là : évolution de la maladie qui se stabilise (la courbe, en vert) vous donnerait une p-value tout aussi bonne. Mais les conclusions sont radicalement différentes !
16/
Alors vous me direz : "j'aime mieux la courbe verte". Sauf que non car besoin de davantage de "paramètres de réglage". Or sans données indépendantes permettant de justifier ces paramètres, on prend l'hypothèse la plus simple. Ici, il faut s'en tenir à la droite rouge.
17/
Moralité. 1) regarder d'abord la taille de l'EFFET. 2) Toujours regarder le nuage de points si c'est du quantitatif. 3 ) Et dans ce cas: d'abord le r², puis l'erreur standard des résidus, puis la p-value. Et la p-value est importante mais ne lui faites pas dire n'importe quoi
18/
Comme toujours, je suis pas une "star mondiale" (comme certains...) : précisez, corrigez, tapez dessus... @Juni8T , @T_Fiolet , @Damkyan_Omega et les autres...
19/ (ajout)
J'ai oublié de dire : avec le seuil classique de p-value de 5%, c'est égal à 1/20, donc 1 chance sur 20 de se tromper, donc en moyenne 1 étude sur 20 qui se "tromperait". Donc ne pas "brandir" une seule étude en oubliant les autres (homéopathie?...). Recouper l'info.
20/ (ajout)
Bravo pour vos remarques: contrairement à ce que j'ai écrit, la p-value n'est pas vraiment la "probabilité de se gourer". Je le sais mais c'est dur de faire tenir en un tweet. Mais j'ai précisé les choses en parties 13-14-15 + VOS REPONSES UTILES: à lire. Merci à tous
21/ (ajout)
On me fait remarquer : erreur en partie 6/
On ne recalcule pas la p-value à chaque nouveau patient jusqu'à tomber pile à la bonne p-value, car ce serait du raisonnement biaisé (en gros : attendre le "bon" patient). (j'espère avoir pigé). Merci pour la précision !
22/ (ajout)
Eh ben y a du succès🥳
Faut m'excuser si j'ai plus le temps de répondre à tout le monde : vos remarques ou questions sont hyper-intéressantes👍. Souvent, vous trouverez les réponses dans... les réponses à chaque partie: beaucoup y ont apporté de précieuses précisions.
You can follow @Sonic_urticant.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled: