Zusammenfassung
Über die Bedeutung von „statistischer Signifikanz” sind viele Missverständnisse im
Umlauf. Oft wird ein Studienergebnis als „hoch signifikant” bezeichnet, als würde
man damit implizieren, dass es auch „hoch bedeutsam” sei. Statistisch signifikant
heißt aber lediglich, dass ein Studienergebnis mit einer definierten Wahrscheinlichkeit
(meist auf 5 % festgelegt) auch dann auftreten kann, wenn in der erforschten Population
die Nullhypothese gilt, der in der Stichprobe gefundene Effekt also gar nicht vorhanden
ist. Ob ein Ergebnis signifikant wird oder nicht, hängt in hohem Maße auch von der
Größe der untersuchten Stichprobe ab. So können bei einer großen Stichprobe auch minimale,
inhaltlich unbedeutende Effekte signifikant werden, während bei einer kleinen Stichprobe
auch große, inhaltlich bedeutsame Effekte die Signifikanz verfehlen können. Deshalb
sollten bei der Darstellung von Studienergebnissen immer auch die Größe eines Effekts
(Effektstärke) und die wahrscheinliche Bandbreite des Effekts in der Population (Konfidenzintervall)
berichtet werden.
Abstract
The term „statistical significance” is often misunderstood. The result of a study
may be labelled to be „highly significant” as if implying „highly important”. Statistically
significant, however, does only mean that a study result might have been found with
a predefined probability (conventionally set at 5 %) even when the null hypothesis
is true in the population, i. e. the effect found in the study sample does not exist
in reality. Whether a result proves to be significant or not largely depends on sample
size. Thus, in a large sample minimal effects of no practical relevance may turn out
significant whereas in a small sample even large, important effects may fail to reach
the significance level. As a consequence, when presenting the results of a study the
effect size should be reported together with a confidence interval indicating the
probable range that contains the population effect.
Schlüsselwörter
Signifikanz - Effektstärke - Konfidenzintervall
Key words
Significance - effect size - confidence interval
Literatur
1
Moher D, Schulz K F, Altman D G. for the CONSORT Group .
The CONSORT statement: revised recommendations for improving the quality of reports
of parallel-group randomised trials.
Lancet.
2001;
357
1191-1194
2
Altman D G, Schulz K F, Moher D, Egger M, Davidoff F, Elbourne D, Gotzsche P C, Lang T.
for the CONSORT Group .
The revised CONSORT statement for reporting randomized trials: explanation and elaboration.
Ann Intern Med.
2001;
134
663-694
3 Sackett D L, Straus S E, Richardson W S, Rosenberg W, Haynes R B. Evidence-based
medicine. 2. Aufl. Edinburgh; Churchill Livingstone 2000
4 Altman D G, Gore S M, Gardner M J, Pocock S J.
Statistical guidelines for contributors to medical journals. In: Altman DG, Machin D, Bryant TN, Gardner MJ (eds) Statistics with confidence. London;
BMJ Books 2000: 171-190
5
Thompson B.
AERA editorial policies regarding statistical significance testing: Three suggested
reforms.
Educational Researcher.
1996;
25
26-30
6
Wilkinson L. and the Task Force on Statistical Inference, APA Board of Scientific
Affairs .
Statistical methods in psychology journals.
American Psychologist.
1999;
54
594-604
7
Sterne J AC, Davey Smith G.
Sifting the evidence - what's wrong with significance tests?.
BMJ.
2001;
322
226-231
8 Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Krueger L. The empire of
chance: how probability changed science and everyday life. Cambridge; Cambridge University
Press 1989
9
Cohen J.
Things I have learned (so far).
American Psychologist.
1990;
45
1304-1312
10
Cohen J.
The earth is round (p < .05).
American Psychologist.
1994;
49
997-1003
11 Cowles M, Davis C.
On the origins of the .05 level of statistical significance. American Psychologist
1982; 37: 553 - 558, wiederabgedruckt. In: Kazdin AE (ed) Methodological issues and strategies in clinical research. 2.
Aufl. Washington, DC; American Psychological Association 1998: 291-300
12 Kazdin A E. Research design in clinical psychology. 3. Aufl. Needham Heights, MA;
Allyn and Bacon 1998
13
Rosnow R L, Rosenthal R.
Statistical procedures and the justification of knowledge in psychological science.
American Psychologist.
1989;
44
1276-1284
14 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale,
NJ; Lawrence Erlbaum 1988
15
Cohen J.
A power primer.
Psychological Bulletin.
1992;
112
155-159
16
Kazdin A E.
The meanings and measurement of clinical significance.
J Consult Clin Psychol.
1999;
67
332-339
17
Jacobson N S, Truax P.
Clinical significance: A statistical approach to defining meaningful change in psychotherapy
research.
J Consult Clin Psychol.
1991;
59
12-19
18
Collins R, MacMahon S.
Reliable assessment of the effects of treatment on mortality and major morbidity,
I: clinical trials.
Lancet.
2001;
357
373-380
19
Schmidt F L.
Statistical significance testing and cumulative knowledge in psychology: Implications
for training of researchers.
Psychological Methods.
1996;
1
115-129
20 Altman D G, Machin D, Bryant T N, Gardner M J. Statistics with confidence. London;
BMJ Books 2000
1 Dazu mag beigetragen haben, dass es streng genommen nicht nur ein, sondern drei Konzepte
der Signifikanztestung gibt: ein frühes und ein spätes von R. A. Fisher sowie eines
von J. Neyman und E. Pearson. Die beiden Konzepte von Fisher beinhalten lediglich
die Nullhypothese, die anhand eines vorab definierten Signifikanzkriteriums (frühes
Konzept) oder unter Angabe eines datenabhängigen p-Werts (spätes Konzept) falsifiziert
werden soll. Neyman und Pearson erweiterten dieses Modell um die Alternativhypothese,
die einen Effekt von einer bestimmten Größe postuliert. Zum Fehler erster Art, die
Nullhypothese fälschlich abzulehnen, dessen Wahrscheinlichkeit durch das Alpha-Fehlerrisiko
bestimmt wird, kommt nun ein Fehler zweiter Art, nämlich die Alternativhypothese fälschlich
abzulehnen, hinzu, dessen Wahrscheinlichkeit durch das Beta-Fehlerrisiko bestimmt
wird. Aus didaktischen Gründen wird diese Differenzierung in der vorliegenden Arbeit
jedoch nicht durchgeführt, sondern es wird die Praxis des Signifikanztestens so dargestellt,
wie sie derzeit allgemein üblich ist: als eine Mischung aus den drei Konzepten [8 ].
2 Eine einfache Anleitung zur Berechnung von Konfidenzintervallen für alle gängigen
Kennwerte (Mittelwertsunterschiede, Häufigkeitsunterschiede, Korrelationen etc.) sowie
ein entsprechendes, leicht zu bedienendes Computerprogramm bieten Altman et al. [20 ].
Prof. Dr. med. Dr. phil. Hermann Faller
Institut für Psychotherapie und Medizinische Psychologie
Klinikstraße 3
97070 Würzburg
Email: h.faller@mail.uni-wuerzburg.de