In jüngster Zeit wird von den maßgeblichen Leitlinien für die Publikation von Studienergebnissen
in medizinischen [1]
[2]
[3]
[4] und psychologischen [5]
[6] Zeitschriften gefordert, das Ergebnis einer statistischen Hypothesenprüfung, oft
kurz Signifikanztest genannt, durch die Angabe der Effektstärke sowie der Präzision,
mit der diese geschätzt werden konnte (Konfidenzintervall), zu ergänzen. Welche Überlegungen
haben zu dieser Forderung geführt? Warum erscheinen die Resultate von Hypothesenprüfungen,
also die bloße Angabe, ob ein Ergebnis statistisch signifikant ist oder nicht, heute
als nicht mehr ausreichend, um die Aussage einer Studie beurteilen zu können? Oder
kurz gefragt: „What's wrong with significance tests?” [7].
Über die Bedeutung des Ausdrucks „statistisch signifikant” sind viele Missverständnisse
im Umlauf.[1] Deshalb soll zuerst noch einmal kurz und mit einfachen Worten erklärt werden, was
es bedeutet, wenn das Ergebnis unserer Studie „statistisch signifikant” ist. Entgegen
verbreiteten Missverständnissen heißt „Das Ergebnis ist signifikant, p < 0,05” nicht,
dass die Nullhypothese (es existiert kein Effekt, also kein Unterschied, kein Zusammenhang
etc.) nur noch eine Wahrscheinlichkeit von 5 % hat; der p-Wert (p = probability),
den ein Signifikanztest erbringt, sagt nichts darüber aus, wie wahrscheinlich die
geprüfte Nullhypothese ist; er ist weder eine Eigenschaft der Nullhypothese noch der
Alternativhypothese, sondern eine Eigenschaft der Daten (genauer: ein Resultat aus
dem in der Stichprobe gemessenen Effekt, der Stichprobengröße und der Verteilungsannahmen)
unserer Stichprobe, unter der Bedingung der Gültigkeit der Nullhypothese: Er gibt
die Wahrscheinlichkeit an, mit welcher die gefundenen (oder extremere) Stichprobenergebnisse
auftreten können, wenn die Nullhypothese gilt (also der untersuchte Effekt in der
Population nicht existiert) [9]
[10]. Der p-Wert wird a posteriori auf der Basis der Daten berechnet, das Alpha-Fehlerrisiko
(Signifikanzniveau), d. h. die Wahrscheinlichkeit, fälschlicherweise einen Effekt
anzunehmen, wo tatsächlich keiner existiert, hingegen a priori, also vor Beginn der
Studie festgelegt.
Am Beispiel des Mittelwerts soll dieser Sachverhalt kurz erläutert werden: Aus dem
zentralen Grenzwerttheorem lässt sich ableiten, wie die Mittelwerte von Stichproben
eines bestimmten Umfangs (n) ausfallen, die aus einer Population mit einem bestimmten
Mittelwert gezogen werden. Die Mittelwerte dieser Stichproben verteilen sich nämlich,
ausreichende Stichprobengröße vorausgesetzt, glockenförmig um den Populationsmittelwert
(Normalverteilung, Gaußsche Glockenkurve). Wir wissen also im Vorhinein, mit welcher
Wahrscheinlichkeit bestimmte Stichprobenmittelwerte auftreten werden: Stichproben
mit Mittelwerten, die in der Nähe des Populationsmittelwerts liegen, kommen häufiger
vor, weiter abweichende Mittelwerte seltener. Ein p-Wert von 0,05 oder 5 % sagt aus,
dass der Mittelwert unserer Stichprobe so weit vom Populationsmittelwert abweicht,
dass er (oder ein extremerer Wert) per Zufall in 5 % aller Stichproben vorkommen würde,
die aus dieser Population gezogen werden. Es hat sich nun im Laufe der Zeit eingebürgert,
diese Wahrscheinlichkeit von 5 % für selten genug zu erachten, um den Schluss zu ziehen,
dass unsere Stichprobe wohl nicht aus einer Population stammt, von der sie so weit
abweicht, dass dies nur in 5 % der Fälle auch zufälligerweise zustande kommen kann.
Analog kann beim Vergleich zweier Untersuchungsgruppen der Unterschied zwischen den
beiden Mittelwerten behandelt werden. Dies leuchtet unmittelbar ein, wenn man den
Kontrollgruppenmittelwert als 0 ansetzt; der Experimentalgruppenmittelwert entspricht
dann der Differenz beider Mittelwerte.
Wir treffen also vor dem Hintergrund unseres Stichprobenwerts die Entscheidung, dass
die Nullhypothese nicht gilt. Dies ist jedoch eine willkürliche Entscheidung auf der
Basis einer Konvention, die sich im Lauf vieler Jahre herausgebildet hat [11]. Ob eine Wahrscheinlichkeit von 5 % wirklich so selten ist, dass man sie vernachlässigen
kann, hängt von der Tragweite der Entscheidung ab, um die es geht: Wenn die Wettervorhersage
die Wahrscheinlichkeit dafür, dass es morgen regnen wird, mit 5 % beziffert, werde
ich wohl den Regenschirm zu Hause lassen. Wenn mein Chirurg dieselbe Wahrscheinlichkeit
von 5 % dafür angibt, dass die geplante Operation tödlich ausgeht, werde ich mir sehr
gut überlegen, ob es nicht auch andere, weniger riskante Behandlungsmöglichkeiten
gibt.
Die Entscheidung, dass ein Ergebnis statistisch signifikant ist, schließt nicht mit
Sicherheit aus, dass die Nullhypothese doch zutrifft. Bei 5 von 100 Testungen kann
ein signifikantes Ergebnis allein durch Zufall zustande kommen: Die Festsetzung des
Signifikanzniveaus (Irrtumswahrscheinlichkeit, Alpha-Fehlerrisiko) auf 5 % impliziert
ja, dass ich bereit bin, mich auf lange Frist in 5 % der Fälle zu irren. Ich kann
also nie sicher wissen, ob nicht gerade mein signifikantes Ergebnis eines von diesen
5 von 100 zufällig signifikanten Ergebnissen ist. Eine Replikation des Befunds macht
ihn verlässlicher. Viel problematischer wird dieser Umstand dann, wenn ich in meiner
Studie nicht nur eine, sondern eine ganze Reihe von Hypothesen teste oder gar ohne
spezifische Hypothese alle möglichen Subgruppenunterschiede oder Merkmalszusammenhänge
prüfe. Die Logik des Signifikanztestens wird durch diese Praxis ad absurdum geführt,
Zufallsbefunde sind nahezu garantiert. Deshalb muss streng zwischen hypothesenprüfenden
und explorativen Auswertungen unterschieden werden.
Die Attraktivität des Signifikanztests rührt daher, dass er ein quasi deterministisches,
mechanisches und objektives Schema liefert, das zu klaren und eindeutigen Ja-Nein-Entscheidungen
führt: Ein Ergebnis ist signifikant (p < 0,05) oder nicht (p ≥ 0,05). Was ist nun
„falsch” am Signifikanztesten? Die Signifikanzprüfung hat mehrere erhebliche Nachteile:
1. Sie setzt ein willkürliches, dichotomes Kriterium; 2. ob dieses Kriterium erfüllt
wird oder nicht, hängt aber sehr wesentlich von der Stichprobengröße ab; 3. sie gibt
uns keine Information über die Größe und 4. über die klinische Bedeutsamkeit eines
Effekts [9]
[10]. Im Gegenteil: Ein und derselbe Effekt kann in der einen Studie signifikant sein,
in einer anderen, bis auf die Stichprobengröße identischen Studie hingegen nicht.
Ein Beispiel: Eine Patientenschulung bringt hinsichtlich eines Ergebniskriteriums
(z. B. Summenwert auf einem Wissensfragebogen) in der Behandlungsgruppe einen um 0,70
Standardabweichungen besseren Mittelwert als in der Kontrollgruppe. (Einen Unterschied
dieser Größe findet man häufig, wenn man eine wirksame Intervention mit keiner Behandlung
vergleicht.) In einer Studie mit n = 10 Teilnehmern in der Behandlungsgruppe und n
= 10 Teilnehmern in der Kontrollgruppe wäre dieser Unterschied nicht signifikant.
Derselbe Unterschied würde jedoch signifikant werden, wenn Experimental- und Kontrollgruppe
aus jeweils 30 Teilnehmern bestehen würden. Kazdin meint dazu: „This is chaos and
not how we want our science to proceed” ([12], S. 376). Dass es so sehr auch von der Stichprobengröße statt von der eigentlich
interessierenden Größe eines Effekts abhängt, ob ein Ergebnis signifikant wird oder
nicht, behindert den systematischen Aufbau von Wissen: Wir können oft nicht unterscheiden,
ob nicht signifikante Ergebnisse bedeuten, dass tatsächlich kein Effekt vorhanden
ist, oder vielmehr, dass ein tatsächlich vorhandener Effekt wegen Schwächen im Design,
wie z. B. eine zu kleine oder zu inhomogene Stichprobe, lediglich nicht entdeckt wurde.
(Diese Schwächen des Designs sind natürlich nicht dem Nullhypothesentest anzurechnen,
sondern dem Forscher, der z. B. nicht vorab den erforderlichen Stichprobenumfang berechnet
hat.)
Gleichwohl werden Erfolg oder Misserfolg einer Behandlung meist mechanisch daran festgemacht,
ob p unter oder über 5 % liegt. Dass es sich bei dem inzwischen nahezu sakrosankten
5 %-Kriterium für die Entscheidung, ob ein Effekt statistisch bedeutsam ist oder nicht,
um eine durchaus willkürliche Festlegung handelt, haben Rosnow u. Rosenthal ([13], S. 1277) in ihrem klassischen Zitat spöttisch folgendermaßen kommentiert: „Surely,
God loves the .06 nearly as much as the .05.” Für den Signifikanztest wird die empirische
Welt aber anhand dieses Kriteriums in „existent/nicht existent” eingeteilt: Ein Effekt
(ein Unterschied, ein Zusammenhang) ist vorhanden oder nicht. Dass sich Wissenszuwachs
entlang derartiger Ja-oder-Nein-Entscheidungen vollzieht, ist wenig plausibel; viel
interessanter ist dagegen die Frage, wie groß ein Unterschied zwischen zwei Gruppen
oder wie stark ein Zusammenhang zwischen zwei Merkmalen ist. Darüber enthält der p-Wert
jedoch keinerlei Information. Er besagt lediglich, dass der Effekt nicht Null ist,
nicht aber, wie groß er ist. „Sehr signifikant” heißt nicht „sehr wichtig”. Vielmehr
hängt es wesentlich von der Größe der untersuchten Stichproben ab, ob ein Unterschied
signifikant wird oder nicht. Dies liegt daran, dass die Mittelwerte größerer Stichproben
sehr viel enger um den Populationsmittelwert schwanken als diejenigen kleiner Stichproben.
Ein abweichender Mittelwert kommt bei größeren Stichproben mit entsprechend geringerer
Wahrscheinlichkeit (p-Wert) vor, deshalb genügt bei größeren Stichproben umgekehrt
schon eine geringere Abweichung vom Populationsmittelwert, ein Ergebnis signifikant
werden zu lassen. Bei sehr kleinen Stichproben muss hingegen ein Effekt schon sehr
groß sein, um signifikant zu werden. Diese unterschiedliche „Fähigkeit”, signifikante
Ergebnisse zu erzielen, wird „Power” (Teststärke) genannt [14]
[15].
Die Abhängigkeit der Signifikanzprüfung von der Stichprobengröße kann also in zwei
Richtungen in die Irre führen. Einerseits werden bei genügend großen Stichproben auch
minimale Unterschiede signifikant, sodass mit Recht gesagt wurde, dass die Nullhypothese
eigentlich nie gelte - nur sind diese Unterschiede trotz der „hohen Signifikanz” möglicherweise
sehr klein und inhaltlich völlig bedeutungslos. Hierzu ein Beispiel: 1986 erschien
in der New York Times die Nachricht, dass eine Studie mit nahezu 14 000 Schulkindern
bewiesen habe, dass ein signifikanter Zusammenhang zwischen Körpergröße und Intelligenz
bestehe, und zwar bei Kontrolle von Alter, Geschlecht, körperlicher Reife, soziodemografischen
Merkmalen und vielen anderen Variablen. Cohen [9], der diesen Artikel las, vermisste darin allerdings eine Angabe über die Stärke
dieses Zusammenhangs. Auf der Basis einer Poweranalyse berechnete er, dass ein Korrelationskoeffizient
bei n = 14 000 und α = 0,001 mindestens r = 0,0278 betragen muss, um signifikant zu
werden. Um, entsprechend der impliziten Kausalhypothese des Journalisten, die Intelligenz
eines Kindes von 100 auf 130 Punkte zu erhöhen, müsste man seine Körpergröße demnach
um 4,20 m steigern; oder, falls die Kausalität in die andere Richtung liefe und man
Basketballspieler heranbilden wollte, so würde eine Größenzunahme um 10 cm einen Intelligenzzuwachs
um 900 Punkte erfordern. (Später recherchierte Cohen den tatsächlichen Korrelationskoeffizienten;
dieser betrug immerhin 0,11, was bedeutet, dass man einen Intelligenzgewinn von 30
Punkten schon mit einem Größenzuwachs um 1,05 m bzw. einen 10-cm-Wachstumsschub schon
mit einer Intelligenzsteigerung um 233 Punkte erzielen würde.) Hoch signifikant heißt
also mitnichten hoch bedeutsam. Die Korrelation im genannten Beispiel ist zwar hoch
signifikant, aber sehr niedrig und in keiner Weise relevant.
Signifikanz sagt also noch nichts über die klinische Bedeutsamkeit oder Relevanz eines
Effekts. Unter der klinischen Bedeutsamkeit versteht man die Auswirkung auf das Alltagsleben
der Patienten [16]. Dies ist ein breiteres Konzept, das sich nicht so einfach operationalisieren lässt
- zumal nicht anhand einer einfachen kriterienbezogenen Entscheidung - wie die statistische
Signifikanz, wenngleich es auch statistische Ansätze zur Definition klinischer Bedeutung
gibt [17]. Deshalb erscheint es angemessen, den Begriff „Signifikanz” für die statistische
Signifikanz zu reservieren und statt von „klinischer Signifikanz” besser von „klinischer
Bedeutsamkeit” oder „Relevanz” zu sprechen. Obwohl sich die Größe eines Effekts und
seine klinische Bedeutung nicht eins zu eins ineinander überführen lassen, stehen
doch beide in einem Zusammenhang miteinander, insofern große Effekte auch eher klinisch
bedeutsam sind als kleine Effekte.
Die zweite Richtung, in die das bloße Signifikanztesten irreführen kann, ist folgende:
Bei kleinen Stichproben haben große, inhaltlich möglicherweise durchaus bedeutsame
Effekte nur eine geringe Chance, signifikant zu werden, mit der Folge, dass realiter
durchaus vorhandene Befunde nicht entdeckt, wissenschaftlich anerkannt und therapeutisch
genutzt werden [18]. Schmidt [19] gibt ein Beispiel eines Forschungsfelds, in welchem viele einzelne Studien jeweils
positive Korrelationen zwischen zwei Merkmalen in substanzieller Höhe gezeigt haben,
die aber fast alle wegen zu kleiner Stichproben nicht signifikant wurden. Die (hybride)
Logik des Signifikanztestens käme in diesem Fall zu dem Schluss, dass der geprüfte
Zusammenhang nicht existiert. Viel plausibler wäre jedoch die Vermutung, dass an dem
Zusammenhang durchaus etwas dran sein könnte und es lediglich ein Resultat der kleinen
Stichprobe ist, dass die Signifikanz „ausbleibt”. Hätte man die Studien ausreichend
dimensioniert und dadurch für die nötige Power gesorgt, wären die substanziellen Korrelationen
möglicherweise signifikant geworden. Die Kombination der einzelnen Studien in einer
Metaanalyse kann schließlich das zutreffende Bild eines tatsächlich vorhandenen und
starken Zusammenhangs aufdecken, das auf der Ebene der einzelnen nicht signifikanten
Ergebnisse verborgen geblieben wäre. Metaanalysen können deshalb die Fehler zu kleiner
Studien manchmal heilen.
Alle genannten Nachteile können aber auch auf der Ebene der einzelnen Studie gemildert
werden, wenn man die Signifikanzprüfung durch die Angabe der Größe eines Effekts (Unterschieds,
Zusammenhangs) und der Präzision seiner Schätzung (Konfidenzintervall) ergänzt [20]. Die Größe eines Effekts wird als Effektstärke bezeichnet. In einem Kontrollgruppendesign
ist dies z. B. der Unterschied zwischen Interventionsgruppe und Kontrollgruppe auf
einem Ergebniskriterium (Outcome). Ein Beispiel: Die Evaluation eines Selbstmanagementprogramms
für Patienten mit hohem Blutdruck habe in der Interventionsgruppe einen mittleren
diastolischen Blutdruck von 90 mm Hg und in der Kontrollgruppe von 95 mm Hg gezeigt.
Die Effektstärke beträgt in diesem Fall 5 mm Hg. Wenn die Skala, auf der der Effekt
dargestellt wird, nicht so unmittelbar verständlich ist wie die Blutdruckskala, ist
es sinnvoll, die Größe des Effekts in Einheiten der Standardabweichung auszudrücken
und dadurch unterschiedliche Skalierungen miteinander vergleichbar zu machen. So ist
Cohens d, ein gebräuchliches Maß der Effektstärke, definiert als Mittelwertsunterschied
dividiert durch die (gepoolte) Standardabweichung [14]
[15]. (Gepoolt heißt, dass aus den Standardabweichungen von Interventions- und Kontrollgruppe
unter Berücksichtigung der Größe der beiden Gruppen ein gemeinsamer Wert berechnet
wird, zur Formel siehe [14].) Für einen auf diese Weise standardisierten Mittelwertsunterschied hat Cohen [14]
[15] folgende Bewertung vorgeschlagen, die inzwischen allgemein akzeptiert wird: d =
0,2 kleiner Effekt, d = 0,5 mittlerer Effekt, d = 0,8 großer Effekt. Das gebräuchlichste
Maß der Effektstärke für einen Zusammenhang zwischen zwei intervallskalierten Variablen
ist der Produkt-Moment-Korrelationskoeffizient. Hierfür schlägt Cohen [14]
[15] folgende Bewertung vor: r = 0,1 kleiner Effekt, r = 0,3 mittlerer Effekt, r = 0,5
großer Effekt.
Angenommen, ein Schulungsprogramm hat zu einem signifikanten Unterschied zwischen
Interventionsgruppe und Kontrollgruppe in der Rate von Rehospitalisierungen geführt.
Dies allein sagt mir, wie erwähnt, noch nichts darüber, wie groß dieser Unterschied
ist. Als geeignetes Maß für die Größe des Unterschieds, die Effektstärke, könnte in
diesem Fall ein Häufigkeitsunterschied angegeben werden, der 20 % betragen sollte.
Ein Unterschied von dieser Größe erscheint durchaus relevant. Der in der Studienstichprobe
erzielte Effekt stellt aber nur einen ungefähren Schätzwert für den Effekt in der
Population dar, aus der die Stichprobe stammt und für die auf der Basis der Studie
eine Aussage getroffen werden soll. Die Präzision dieser Schätzung lässt sich jedoch
bestimmen, und zwar durch das 95 %-Konfidenzintervall. Dieses gibt, kurz gesagt, den
Bereich an, in dem der Effekt in der Population mit 95 %iger Sicherheit liegt. (Genauer
gesagt: Berechnet man eine Serie von Konfidenzintervallen in unterschiedlichen Stichproben
aus derselben Population, dann überdecken 95 % dieser Konfidenzintervalle den Effekt
in der Population.) Angenommen, in der erwähnten Studie liegt das 95 %-Konfidenzintervall
zwischen 6 und 34 %. Dies bedeutet, dass der wahre Effekt mit 95 %iger Sicherheit
zwischen 6 und 34 % liegt. (Werte darunter oder darüber sind allerdings nicht völlig
ausgeschlossen.) Eine Reduktion um 34 % wäre natürlich klinisch noch bedeutsamer als
eine Reduktion um 20 %. Ob dagegen 6 % noch relevant sind, müsste diskutiert werden.
Werte am Rande des Konfidenzintervalls sind jedoch weniger wahrscheinlich, und die
beste Schätzung des Populationseffekts ist 20 %, der Stichprobenwert. Ein anderes
Beispiel: Eine Selbstmanagementprogramm für Patienten mit Hypertonie habe zwischen
Behandlungs- und Kontrollgruppe einen mittleren Unterschied von 5 mm Hg im diastolischen
Blutdruck gebracht, mit einem 95 %-Konfidenzintervall von 1 - 9 mm Hg. Das Ergebnis
der Studie ist also konsistent mit einem relativ breiten Bereich, der klinisch bedeutsame
Werte bis hin zu beträchtlichen 9 mm Hg, aber auch eine sehr geringe Verminderung
des Blutdrucks um nur 1 mm Hg umschließt.
Wichtig ist, dass das Konfidenzintervall bei einem Kontrollgruppendesign für den Unterschied
zwischen Experimental- und Kontrollgruppe berechnet werden muss, nicht für jede Gruppe
getrennt. 95 %-Konfidenzintervalle geben nun nicht nur einen Hinweis für die Größe
des Effekts und die Bandbreite, in welcher der Populationseffekt mit einer bestimmten
Wahrscheinlichkeit liegt, sondern sie beantworten nebenbei auch noch die Frage nach
der statistischen Signifikanz: Wenn der Wert Null außerhalb des 95 %-Konfidenzintervalls
liegt, so ist das Ergebnis auf dem 5 %-Niveau signifikant; wenn er innerhalb des Intervalls
liegt, nicht. Wenn in einer kleinen Studie (kleines n) das 95 %-Konfidenzintervall
sowohl große Effekte als auch den Wert Null einschließt („nicht signifikant”), so
heißt dies, dass das Ergebnis sowohl mit dem Vorhandensein klinisch bedeutsamer Effekte
als auch mit der Gültigkeit der Nullhypothese konsistent ist [7]. Welche von beiden Möglichkeiten letztlich zutrifft, muss die Replikation in weiteren
Studien und deren Synthese in einer Metaanalyse entscheiden. Zusätzlich zum Konfidenzintervall
sollte immer der genaue p-Wert angegeben werden, nicht nur, ob p oberhalb oder unterhalb
einer willkürlichen Schwelle liegt. Die Präsentation von Konfidenzintervallen, d.
h. der Bandbreite der Effektstärke, mit der das Studienergebnis kompatibel ist, gehört
inzwischen zum Standard der Präsentation quantitativer Ergebnisse.[2]