Zusammenfassung
Der vorliegende Artikel behandelt die statistische Validität bei der Wirksamkeitsprüfung
von Interventionen anhand des in der Evaluationspraxis typischen Designs mit zwei
Gruppen und zwei Messzeitpunkten. Infolge kleiner Untersuchungsgruppen ist im klinischen
Setting häufig eine mangelhafte statistische Validität zu beobachten. Zur Lösung dieses
Problems wird eine an Hager angelehnte Strategie vorgeschlagen, in der sowohl Signifikanztests
als auch Effektgrößen systematisch in den Entscheidungsprozess einbezogen werden.
Anhand eines Beispiels wird möglichst praxisnah in die Problematik der Teststärke
eingeführt und werden Methoden zur Erhöhung der Teststärke diskutiert. Zentral sind
hierbei die Kompromisspoweranalyse von Erdfelder (Bestimmung des α-Niveaus nach einem
zuvor festgelegten Verhältnis von β- zu α-Fehler), die Verminderung der Anzahl an
Testinstrumenten durch Datenreduktion und das verbesserte Aufdecken vorhandener Effekte
durch Methoden zur Reduktion der Fehlervarianz. Es zeigt sich u. a., dass Signifikanztests
bei geringen Stichprobenumfängen und kleinen Effekten nicht sinnvoll sind und in solchen
Fällen andere Verfahren vorgezogen werden sollten.
Abstract
This article deals with the issue of statistical validity when evaluating interventions.
The most common study design with two groups and two points of measurement is discussed.
In clinical research settings, unsatisfactory statistical validity is often seen due
to small sample sizes. In order to resolve this problem, a strategy based on an approach
by Hager is proposed which takes both significance testing and effects sizes systematically
into account. Using an example from clinical research practice the problematic issue
of statistical power is introduced and methods to increase the power of tests are
discussed. Within this framework, Erdfelder's compromise power analysis (computing
alpha levels according to a predetermined β/α error ratio) is crucial as well as a
lowering of the number of applied tests by data reduction and the improved detection
of potential effects by methods to reduce error variance. The results show that significance
tests should not be used in case of small sample and effect sizes. In these cases
different approaches should be used.
Key words
Statistical validity - Statistical power - Effect size - Evaluation - Pre-post-design
Literatur
1
Metzler P, Krause B.
Methodischer Standard bei Studien zur Therapieevaluation.
Methods of psychological research.
1997;
2 (2)
, URL: http://www.mpr-online.de/
2 Hager W, Patry J-L, Brezing H. Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen;
Huber 2000
3 Cook T D, Campbell D T. Quasi-experimentation. Design and analysis issues for field
settings. Boston, MA; Houghton-Mifflin 1979
4 Hager W.
Zur Wirksamkeit von Interventionsprogrammen: Allgemeine Kriterien der Wirksamkeit
von Programmen in einzelnen Untersuchungen. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen;
Huber 2001: 153-168
5 Hager W.
Wirksamkeits- und Wirksamkeitsunterschiedshypothesen, Evaluationsparadigmen, Vergleichsgruppen
und Kontrolle. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen;
Huber 2001: 180-201
6 Hager W.
Planung und Untersuchung zur Prüfung von Wirksamkeits- und Wirksamkeitsunterschiedshypothesen. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen;
Huber 2001: 202-239
7 Cohen J. Statistical power analysis for the behavioral sciences (rev ed). New York;
Academic Press 1988
8 Manz R, Junge I, Margraf J. Prävention von Angst und Depression bei Jugendlichen
- Ergebnisse einer Follow-Up-Untersuchung nach 6 Monaten. Z Gesundheitspsychol 2001
9 (4): 168-179
9
Böhme H, Finke J, Teusch L.
Effekte stationärer Gesprächspsychotherapie bei verschiedenen Krankheitsbildern: 1-Jahres-Katamnese.
Psychother Psychosom med Psychol.
1998;
47
20-29
10
Holm-Hadulla R, Kiefer L, Sessar W.
Zur Effektivität tiefenpsychologisch fundierter Kurz- und Psychotherapien.
Psychother Psychosom med Psychol.
1997;
47
271-278
11
Priebe S, Sinning U.
Effekte einer kurzen paartherapeutischen Intervention in der Koronarrehabilitation.
Psychother Psychosom med Psychol.
2001;
51
276-280
12
Erdfelder E.
Zur Bedeutung und Kontrolle des Beta-Fehlers bei der inferenzstatistischen Prüfung
von log-linearen Modellen.
Z Sozialpsychol.
1984;
15
18-32
13
Hager W.
Eine Strategie zur Entscheidung über psychologische Hypothesen.
Psychol Rundsch.
1992;
44 (2)
116-117
14
Hager W, Westermann R.
Entscheidung über statistische und wissenschaftliche Hypothesen: Probleme bei mehrfachen
Signifikanztests zur Prüfung einer wissenschaftlichen Hypothese.
Z Sozialpsychol.
1983;
14
106-117
15 Mittag W, Jerusalem M. Evaluation von Präventionsprogrammen. In: Schwarzer R: Gesundheitspsychologie. Göttingen;
Hogrefe 1997: 595-611
16
Rosenthal R, Rubin D B.
A simple, general purpose display of magnitude of experimental effect.
J Educ Psychol.
1982;
74 (2)
166-169
17 Winer B J. Statistical principles in experimental design. New York; McGraw Hill
1962
18
Erdfelder E.
Zur Bedeutung und Kontrolle des Beta-Fehlers bei der inferenzstatistischen Prüfung
von log-linearen Modellen.
Z Sozialpsychol.
1984;
15
18-32
19 Bortz J. Statistik für Sozialwissenschaftler. Berlin; Springer 1993
20 Bredenkamp J. Theorie und Planung psychologischer Experimente. Darmstadt; Steinkopff
1980
21 Faul F, Erdfelder E. GPOWER: A priori, post-hoc and compromise power analyses for
MS-DOS (Computer program). Bonn; University, Dep. of Psychology 1992
22
Erdfelder E, Faul F, Buchner A.
GPOWER: A general power analysis program.
Behav Res Methods Instrum Comput.
1996;
28 (1)
1-11
23 Fishman D B. Transcending the efficacy versus effectiveness research debate: Proposal
for a new, electronic „Journal of Pragmatic Case Studies”. Prevention & Treatment
2000 URL: http://journals.apa.org/prevention/volume3/pre0030008a.html
24
Hager W.
Zur Validität pädagogisch-psychologischer Versuche.
Empirische Pädagogik.
1998;
12 (2)
167-201
25
Sedlmeier P.
Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen.
Methods of Psychological Research-online.
1996;
1 (4)
, URL: http://www.mpr-online.de/
26
Manz R, Henningsen C, Rudolf G.
Methodische und statistische Aspekte der Therapieevaluation am Beispiel der Berliner
Psychotherapiestudie.
Psychother Psychosom med Psychol.
1995;
45
52-59
27
Huberty C J, Morris J D.
Multivariate analysis versus multiple univariate analyses.
Psychol Bull.
1989;
105 (2)
302-308
28
Gottman J M, Rushe R H.
The Analysis of Change: Issues, Fallacies and New Ideas.
J Consult and Clin Psychol.
1993;
61 (6)
907-910
29 Hays W L. Statistics. London; Holt, Rinehart and Winston 1963
30
Maier-Riehle B, Zwingmann C.
Effektstärken beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung.
Psychother Psychosom med Psychol.
1997;
47
271-278
1 Abweichend von Hager, der sich lediglich auf psychologische Hypothesen (PH) und Vorhersagen
(PV) bezieht, sollen hier sämtliche inhaltliche Hypothesen und Vorhersagen einbezogen
werden.
2 Häufig werden stattdessen für sEG
und sKG
die Standardabweichungen der Präwerte oder auch jeweils die über Prä- und Postwerte
gepoolten Standardabweichungen verwendet [30 ]. Die Effektgröße wird dann mit dem Index db
für dbetween
versehen. Allerdings wird bei dieser Berechnungsweise die Korrelation zwischen Prä-
und Postwerten vernachlässigt.
3 Für die Berechnung des BESD kann ebenfalls auf r zurückgegriffen werden. Die Erfolgsrate der Experimentalgruppe ergibt sich durch
ErfolgEG = 0,50 + r /2, die für die Kontrollgruppe durch ErfolgKG = 0,50 - r /2 ([16 ], S. 167).
4 Die umgekehrte Situation ergibt sich bei einer strengen Entscheidungsregel, wenn
also die statistische Vorhersage nur dann angenommen wird, wenn jede der abgeleiteten Nullhypothesen ihrerseits verworfen wird. In diesem Fall kumuliert
anstelle des α-Fehlers der β-Fehler! Die Formel entspricht der oben dargestellten
Formel für die Kumulation des α-Fehlers. Ebenso entspricht auch die in diesem Fall
anstelle einer α-Fehler-Adjustierung durchzuführende β-Fehler-Adjustierung der oben erwähnten Bonferoni-Korrektur [14 ].
5 Die Faktorwerte ergeben sich durch die Linearkombination der an den Faktorkoeffizienten
(auch bekannt als Gewichtungskoeffizient [19 ], S. 485) gewichteten z-standardisierten Fragebogenwerte des entsprechenden Faktors.
Sie können bei den meisten Statistikpaketen als neue Variable ausgegeben werden.
Dipl.-Psych. Johannes Müller
Institut für Klinische, Diagnostische und Differentielle Psychologie · Technische
Universität Dresden
Zellescher Weg 17
01069 Dresden