Zusammenfassung
Zunächst die gute Nachricht: Es besteht Hoffnung, dass in naher Zukunft die gewaltige
und üblicherweise ungelesene Flut von mehr als 5000 biomedizinischen Publikationen
täglich mit so genannten „signifikanten” Ergebnissen sich zu einem übersichtlichen
und lesenswerten Bach gesundschrumpft. Die schlechte Nachricht: Die vorherrschende
Interpretation von p-Werten ist unkorrekt und begünstigt die Produktion „statistisch
signifikanter”, aber falscher Ergebnisse.
Stellen Sie sich eine perfekt durchgeführte klinische Studie vor. Die experimentelle
Therapie zeigt eine höhere Überlebensrate als die Standardtherapie. Sie wissen, dass
dieser Vorteil auch in methodisch perfekten Studien durch zufällige Schwankungen der
Behandlungsergebnisse zustande gekommen sein kann. Deshalb stellen Sie einem Statistiker
die klinisch relevante Frage: „Wie wahrscheinlich ist es, dass ich mich irre, wenn
ich die experimentelle Therapie für besser halte?” Nach ein paar Berechnungen kommt
die Antwort: „Der beobachtete Unterschied ist statistisch signifikant (p = 0,03).”
Damit ist ein wichtiges Kriterium für eine Publikation erfüllt, aber: Was bedeutet dieser Satz?
Die Antwort des Statistikers bedeutet nicht, was die meisten glauben: „Wenn ich die experimentelle Therapie für besser als die
Standardtherapie halte, beträgt die Irrtumswahrscheinlichkeit 3 Prozent.” Der p-Wert ist nicht die Antwort auf Ihre Frage! Der p-Wert besagt lediglich: „Wenn beide Therapien in Wirklichkeit gleichwertig sind,
dann kann die beobachtete (oder eine größere) Differenz mit 3 Prozent Wahrscheinlichkeit
zufällig auftreten.” Der Unterschied dieser beiden Sätze ist keine Haarspalterei,
sondern möglicherweise der häufigste und schwerste Irrtum der biomedizinischen Forschung.
Der zugrunde liegende Irrtum wird an einem alltäglichen Beispielen und anhand „statistisch
signifikanter” Ergebnisse erläutert. Es wird gezeigt, dass p-Werte allein kein Maß
für wissenschaftliche Evidenz sind.
Abstract
First the good news: there is reasonable hope, that in the near future the devastating
and usually unread flood of more than 5000 biomedical publications per day with alleged
„significant” results will shrink to an easy to survey streamlet. The bad news: the
prevailing interpretation of p-values is incorrect, making it easy to obtain „statistically
significant” but false findings. Correcting this false interpretation is the key step
towards the good news.
Imagine the results of your clinical study (that is methodologically perfect) show
higher survival rate in the experimental arm as compared to standard treatment. The
observed difference might be a chance result due to random variations in treatment
outcome. Therefore you consult your statistician raising the clinically relevant question:
„How likely is it that I am wrong, when I consider the experimental therapy to be
superior to the standard therapy?” After some calculations he replies: „The difference
of your results is statistically significant (p = 0.03).” With this, the most important
criterion for publication is fulfilled, but: What does that sentence mean?
The statistician's reply does not mean what most clinicians believe: „When I regard the experimental therapy as superior,
the probability of being wrong is only 3 percent.” The p-value is not the answer to your question! In fact it barely means: „If both therapy arms are actually equivalent, the probability
to measure a difference as observed or bigger simply by chance is 3 percent.” The
difference between this two sentences is not hair-splitting but perhaps the most frequent
and most severe error in modern biomedical research.
The basic problem is elucidated with everyday examples and „statistically significant”
results. It will be shown that p-values alone are a meaningless measure of evidence.
Schlüsselwörter
Statistik - Signifikanz - p-Wert - klinische Studie
Keywords
Statistic - significance - p-value - clinical study