Home Technologie Remark une tasse de thé a jeté les fondations de l’analyse statistique...

Remark une tasse de thé a jeté les fondations de l’analyse statistique moderne

18
0

Fisher n’a pas bien pris les critiques de Neyman et Pearson. En réponse, il a appelé leurs méthodes «enfantins» et «absurdement académiques». En particulier, Fisher n’était pas d’accord avec l’idée de décider entre deux hypothèses, plutôt que de calculer la «signification» des preuves disponibles, comme il l’avait proposé. Alors qu’une décision est définitive, ses checks de signification n’ont donné qu’une opinion provisoire, qui pourrait être révisée plus tard. Même ainsi, l’attrait de Fisher pour un esprit scientifique ouvert a été quelque peu compromis par son insistance pour que les chercheurs utilisent un seuil de 5% pour une valeur P «significative», et son affirmation selon laquelle il «ignorerait entièrement tous les résultats qui n’atteindront pas ce niveau».

L’acrimonie céderait la place à des décennies d’ambiguïté, automotive les manuels se sont progressivement embrouillés ensemble les checks d’hypothèse nulle de Fisher avec l’approche basée sur la décision de Neyman et Pearson. Un débat nuancé sur la façon d’interpréter les preuves, avec une dialogue sur le raisonnement statistique et la conception des expériences, est devenu un ensemble de règles fixes que les étudiants doivent suivre.

Les recherches scientifiques grand public s’appuyeraient sur des seuils de valeur P simplistes et des décisions vraies-ou-forage concernant les hypothèses. Dans ce monde appris au rôle, des effets expérimentaux étaient soit présents, soit ils ne l’ont pas été. Les médicaments fonctionnaient ou ne l’ont pas fait. Ce ne serait que dans les années 1980 que les principales revues médicales ont finalement commencé à se libérer de ces habitudes.

Ironiquement, une grande partie du changement peut être retracée à une idée que Neyman a inventée au début des années 1930. Avec des économies en difficulté dans la Grande Dépression, il avait remarqué qu’il y avait une demande croissante de connaissances statistiques sur la vie des populations. Malheureusement, il y avait des ressources limitées disponibles pour les gouvernements pour étudier ces problèmes. Les politiciens voulaient des résultats en mois – ou même des semaines – et il n’y avait pas assez de temps ou d’argent pour une étude complète. En conséquence, les statisticiens devaient compter sur l’échantillonnage d’un petit sous-ensemble de la inhabitants. C’était l’event de développer de nouvelles idées statistiques. Supposons que nous voulons estimer une valeur particulière, comme la proportion de la inhabitants qui ont des enfants. Si nous avons échantillonné 100 adultes au hasard et qu’aucun d’entre eux n’est mother and father, qu’est-ce que cela suggère dans le pays dans son ensemble? Nous ne pouvons pas dire définitivement que personne n’a d’enfant, automotive si nous avons échantillonné un autre groupe de 100 adultes, nous pourrions trouver certains mother and father. Nous avons donc besoin d’un moyen de mesurer à quel level nous devons être confiants sur notre estimation. C’est là que l’innovation de Neyman est arrivée. Il a montré que nous pouvons calculer un «intervalle de confiance» pour un échantillon qui nous indique à quelle fréquence nous devons nous attendre à ce que la véritable valeur de la inhabitants se trouve dans une certaine fourchette.

Les intervalles de confiance peuvent être un idea glissant, étant donné qu’ils nous obligent à interpréter des données réelles tangibles en imaginant de nombreux autres échantillons hypothétiques prélevés. Comme ces erreurs de kind I et de kind II, les intervalles de confiance de Neyman répondent à une query importante, juste d’une manière qui perple souvent les étudiants et les chercheurs. Malgré ces obstacles conceptuels, il est utile d’avoir une mesure qui peut saisir l’incertitude dans une étude. Il est souvent tentant – en particulier dans les médias et la politique – pour se concentrer sur une seule valeur moyenne. Une seule valeur peut sembler plus confiante et précise, mais en fin de compte, c’est une conclusion illusoire. Dans une partie de notre analyse épidémiologique orientée publique, mes collègues et moi avons donc choisi de signaler uniquement les intervalles de confiance, pour éviter que l’consideration déplacée ne relève de valeurs spécifiques.

Depuis les années 1980, les revues médicales se concentrent davantage sur les intervalles de confiance plutôt que sur les allégations autonomes de véritable ou de false. Cependant, les habitudes peuvent être difficiles à briser. La relation entre les intervalles de confiance et les valeurs p n’a pas aidé. Supposons que notre hypothèse nulle est qu’un traitement n’a aucun effet. Si notre intervalle de confiance estimé à 95% pour l’effet ne contient pas zéro, alors la valeur p sera inférieure à 5% et sur la base de l’approche de Fisher, nous rejetterons l’hypothèse nulle. En conséquence, les paperwork médicaux sont souvent moins intéressés par l’intervalle d’incertitude lui-même, et plutôt intéressé par les valeurs qu’elle fait – ou ne le contactent pas. La médecine pourrait essayer de dépasser Fisher, mais l’affect de son seuil arbitraire de 5% demeure.

Extrait adapté de Preuve: la science incertaine de la certitude, par Adam Kucharski. Publié par Profile Books le 20 mars 2025 au Royaume-Uni.

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here