Erfahrungsheilkunde 2004; 53(7): 403-413
DOI: 10.1055/s-2004-828270
Originalia

Karl F. Haug Verlag, in: MVS Medizinverlage Stuttgart GmbH & Co. KG

p < 5 Prozent - und nun?

Die Bedeutung der statistischen SignifikanzHans-Hermann Dubben, Hans-Peter Beck-Bornholdt
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
20. Juli 2004 (online)

Zusammenfassung

Zunächst die gute Nachricht: Es besteht Hoffnung, dass in naher Zukunft die gewaltige und üblicherweise ungelesene Flut von mehr als 5000 biomedizinischen Publikationen täglich mit so genannten „signifikanten” Ergebnissen sich zu einem übersichtlichen und lesenswerten Bach gesundschrumpft. Die schlechte Nachricht: Die vorherrschende Interpretation von p-Werten ist unkorrekt und begünstigt die Produktion „statistisch signifikanter”, aber falscher Ergebnisse.

Stellen Sie sich eine perfekt durchgeführte klinische Studie vor. Die experimentelle Therapie zeigt eine höhere Überlebensrate als die Standardtherapie. Sie wissen, dass dieser Vorteil auch in methodisch perfekten Studien durch zufällige Schwankungen der Behandlungsergebnisse zustande gekommen sein kann. Deshalb stellen Sie einem Statistiker die klinisch relevante Frage: „Wie wahrscheinlich ist es, dass ich mich irre, wenn ich die experimentelle Therapie für besser halte?” Nach ein paar Berechnungen kommt die Antwort: „Der beobachtete Unterschied ist statistisch signifikant (p = 0,03).” Damit ist ein wichtiges Kriterium für eine Publikation erfüllt, aber: Was bedeutet dieser Satz?

Die Antwort des Statistikers bedeutet nicht, was die meisten glauben: „Wenn ich die experimentelle Therapie für besser als die Standardtherapie halte, beträgt die Irrtumswahrscheinlichkeit 3 Prozent.” Der p-Wert ist nicht die Antwort auf Ihre Frage! Der p-Wert besagt lediglich: „Wenn beide Therapien in Wirklichkeit gleichwertig sind, dann kann die beobachtete (oder eine größere) Differenz mit 3 Prozent Wahrscheinlichkeit zufällig auftreten.” Der Unterschied dieser beiden Sätze ist keine Haarspalterei, sondern möglicherweise der häufigste und schwerste Irrtum der biomedizinischen Forschung.

Der zugrunde liegende Irrtum wird an einem alltäglichen Beispielen und anhand „statistisch signifikanter” Ergebnisse erläutert. Es wird gezeigt, dass p-Werte allein kein Maß für wissenschaftliche Evidenz sind.

Abstract

First the good news: there is reasonable hope, that in the near future the devastating and usually unread flood of more than 5000 biomedical publications per day with alleged „significant” results will shrink to an easy to survey streamlet. The bad news: the prevailing interpretation of p-values is incorrect, making it easy to obtain „statistically significant” but false findings. Correcting this false interpretation is the key step towards the good news.

Imagine the results of your clinical study (that is methodologically perfect) show higher survival rate in the experimental arm as compared to standard treatment. The observed difference might be a chance result due to random variations in treatment outcome. Therefore you consult your statistician raising the clinically relevant question: „How likely is it that I am wrong, when I consider the experimental therapy to be superior to the standard therapy?” After some calculations he replies: „The difference of your results is statistically significant (p = 0.03).” With this, the most important criterion for publication is fulfilled, but: What does that sentence mean?

The statistician's reply does not mean what most clinicians believe: „When I regard the experimental therapy as superior, the probability of being wrong is only 3 percent.” The p-value is not the answer to your question! In fact it barely means: „If both therapy arms are actually equivalent, the probability to measure a difference as observed or bigger simply by chance is 3 percent.” The difference between this two sentences is not hair-splitting but perhaps the most frequent and most severe error in modern biomedical research.

The basic problem is elucidated with everyday examples and „statistically significant” results. It will be shown that p-values alone are a meaningless measure of evidence.

Literatur

  • 01 Beck-Bornholdt H P, Dubben H H. Is the pope an alien?.  Nature. 1996;  381 730
  • 02 Beck-Bornholdt H P, Dubben H H. Der Hund, der Eier legt - Erkennen von Fehlinformation durch Querdenken. Rowohlt Verlag 2001
  • 03 Beck-Bornholdt H P, Dubben H H. Der Schein der Weisen - Irrtümer und Fehlurteile im täglichen Denken. Rowohlt Verlag 2003
  • 04 Freiman J A, Chalmers T C, Smith H, Kuebler R R. The importance of beta, the type II error, and sample size in the design and interpretation of the randomized controlled trial.  S. 357-373 in: J.C. Bailar III, Mosteller, F. (Hg.): Medical Uses of Statistics. Boston, MA, USA  New England Journal of Medicine Books. 1992; 
  • 05 Pocock S J, Hughes M D, Lee R J. Statistical problems in the reporting of clinical trials. A survey of three medical journals.  New England Journal of Medicine. 1987;  317 426-32
  • 06 Sterne J A C, Smith G D. Sifting the evidence - what's wrong with significance tests?.  British Medical Journal. 2001;  322 226-231

01 Für Insider: Dies gilt für einen einseitigen Signifikanztest, der voraussetzt, dass schwarz nur besser, aber nicht schlechter als weiß sein kann.

02 Genau genommen beträgt es: 1 - 0,95 × 0,95 × 0,95 × 0,95 = 1 - 0,81 = 0,19 = 19 %

Korrespondenzadresse

PD Dr. Hans-Hermann Dubben

Institut für Allgemeinmedizin Universitätsklinikum Hamburg-Eppendorf

Martinistraße 52

20246 Hamburg

eMail: dubben@uke.uni-hamburg.de

    >