Was tun, wenn die Teststärke zu gering ist?

Johannes Müller; Rolf Manz; Jürgen Hoyer

doi:10.1055/s-2002-34288

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000060.xml

Share / Bookmark

Facebook Linkedin Weibo

Download PDF

Psychother Psychosom Med Psychol 2002; 52(9/10): 408-416
DOI: 10.1055/s-2002-34288

Originalarbeit

Was tun, wenn die Teststärke zu gering ist?

Eine praktikable Strategie für Prä-Post-DesignsWhat to do if Statistical Power is Low?A Practical Strategy for Pre-Post-DesignsJohannes Müller¹ , Rolf Manz² , Jürgen Hoyer¹

¹Institut für Klinische, Diagnostische und Differentielle Psychologie, Technische Universität Dresden
²Forschungsverbund Public Health Sachsen

Wir danken den anonymen Gutachtern für wertvolle Hinweise und Ergänzungen

Further Information

Publication History

Eingegangen: 6. September 2001

Angenommen: 27. März 2002

Publication Date:
23 September 2002 (online)

Also available at

Abstract
Full Text
References

Permissions and Reprints

Zusammenfassung

Der vorliegende Artikel behandelt die statistische Validität bei der Wirksamkeitsprüfung von Interventionen anhand des in der Evaluationspraxis typischen Designs mit zwei Gruppen und zwei Messzeitpunkten. Infolge kleiner Untersuchungsgruppen ist im klinischen Setting häufig eine mangelhafte statistische Validität zu beobachten. Zur Lösung dieses Problems wird eine an Hager angelehnte Strategie vorgeschlagen, in der sowohl Signifikanztests als auch Effektgrößen systematisch in den Entscheidungsprozess einbezogen werden. Anhand eines Beispiels wird möglichst praxisnah in die Problematik der Teststärke eingeführt und werden Methoden zur Erhöhung der Teststärke diskutiert. Zentral sind hierbei die Kompromisspoweranalyse von Erdfelder (Bestimmung des α-Niveaus nach einem zuvor festgelegten Verhältnis von β- zu α-Fehler), die Verminderung der Anzahl an Testinstrumenten durch Datenreduktion und das verbesserte Aufdecken vorhandener Effekte durch Methoden zur Reduktion der Fehlervarianz. Es zeigt sich u. a., dass Signifikanztests bei geringen Stichprobenumfängen und kleinen Effekten nicht sinnvoll sind und in solchen Fällen andere Verfahren vorgezogen werden sollten.

Abstract

This article deals with the issue of statistical validity when evaluating interventions. The most common study design with two groups and two points of measurement is discussed. In clinical research settings, unsatisfactory statistical validity is often seen due to small sample sizes. In order to resolve this problem, a strategy based on an approach by Hager is proposed which takes both significance testing and effects sizes systematically into account. Using an example from clinical research practice the problematic issue of statistical power is introduced and methods to increase the power of tests are discussed. Within this framework, Erdfelder's compromise power analysis (computing alpha levels according to a predetermined β/α error ratio) is crucial as well as a lowering of the number of applied tests by data reduction and the improved detection of potential effects by methods to reduce error variance. The results show that significance tests should not be used in case of small sample and effect sizes. In these cases different approaches should be used.

Key words

Statistical validity - Statistical power - Effect size - Evaluation - Pre-post-design

Literatur

1 Metzler P, Krause B. Methodischer Standard bei Studien zur Therapieevaluation. Methods of psychological research. 1997; 2 (2) , URL: http://www.mpr-online.de/

MissingFormLabel
PubMed Search in Google Scholar
2 Hager W, Patry J-L, Brezing H. Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2000

MissingFormLabel

Search in Google Scholar
3 Cook T D, Campbell D T. Quasi-experimentation. Design and analysis issues for field settings. Boston, MA; Houghton-Mifflin 1979

MissingFormLabel

Search in Google Scholar
4 Hager W. Zur Wirksamkeit von Interventionsprogrammen: Allgemeine Kriterien der Wirksamkeit von Programmen in einzelnen Untersuchungen. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2001: 153-168

MissingFormLabel

Search in Google Scholar
5 Hager W. Wirksamkeits- und Wirksamkeitsunterschiedshypothesen, Evaluationsparadigmen, Vergleichsgruppen und Kontrolle. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2001: 180-201

MissingFormLabel

Search in Google Scholar
6 Hager W. Planung und Untersuchung zur Prüfung von Wirksamkeits- und Wirksamkeitsunterschiedshypothesen. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2001: 202-239

MissingFormLabel

Search in Google Scholar
7 Cohen J. Statistical power analysis for the behavioral sciences (rev ed). New York; Academic Press 1988

MissingFormLabel

Search in Google Scholar
8 Manz R, Junge I, Margraf J. Prävention von Angst und Depression bei Jugendlichen - Ergebnisse einer Follow-Up-Untersuchung nach 6 Monaten. Z Gesundheitspsychol 2001 9 (4): 168-179

MissingFormLabel

Search in Google Scholar
9 Böhme H, Finke J, Teusch L. Effekte stationärer Gesprächspsychotherapie bei verschiedenen Krankheitsbildern: 1-Jahres-Katamnese. Psychother Psychosom med Psychol. 1998; 47 20-29

MissingFormLabel
PubMed Search in Google Scholar
10 Holm-Hadulla R, Kiefer L, Sessar W. Zur Effektivität tiefenpsychologisch fundierter Kurz- und Psychotherapien. Psychother Psychosom med Psychol. 1997; 47 271-278

MissingFormLabel
PubMed Search in Google Scholar
11 Priebe S, Sinning U. Effekte einer kurzen paartherapeutischen Intervention in der Koronarrehabilitation. Psychother Psychosom med Psychol. 2001; 51 276-280

MissingFormLabel
PubMed Search in Google Scholar
12 Erdfelder E. Zur Bedeutung und Kontrolle des Beta-Fehlers bei der inferenzstatistischen Prüfung von log-linearen Modellen. Z Sozialpsychol. 1984; 15 18-32

MissingFormLabel
PubMed Search in Google Scholar
13 Hager W. Eine Strategie zur Entscheidung über psychologische Hypothesen. Psychol Rundsch. 1992; 44 (2) 116-117

MissingFormLabel
PubMed Search in Google Scholar
14 Hager W, Westermann R. Entscheidung über statistische und wissenschaftliche Hypothesen: Probleme bei mehrfachen Signifikanztests zur Prüfung einer wissenschaftlichen Hypothese. Z Sozialpsychol. 1983; 14 106-117

MissingFormLabel
PubMed Search in Google Scholar
15 Mittag W, Jerusalem M. Evaluation von Präventionsprogrammen. In: Schwarzer R: Gesundheitspsychologie. Göttingen; Hogrefe 1997: 595-611

MissingFormLabel

Search in Google Scholar
16 Rosenthal R, Rubin D B. A simple, general purpose display of magnitude of experimental effect. J Educ Psychol. 1982; 74 (2) 166-169

MissingFormLabel
Crossref PubMed Search in Google Scholar
17 Winer B J. Statistical principles in experimental design. New York; McGraw Hill 1962

MissingFormLabel

Search in Google Scholar
18 Erdfelder E. Zur Bedeutung und Kontrolle des Beta-Fehlers bei der inferenzstatistischen Prüfung von log-linearen Modellen. Z Sozialpsychol. 1984; 15 18-32

MissingFormLabel
PubMed Search in Google Scholar
19 Bortz J. Statistik für Sozialwissenschaftler. Berlin; Springer 1993

MissingFormLabel

Search in Google Scholar
20 Bredenkamp J. Theorie und Planung psychologischer Experimente. Darmstadt; Steinkopff 1980

MissingFormLabel

Search in Google Scholar
21 Faul F, Erdfelder E. GPOWER: A priori, post-hoc and compromise power analyses for MS-DOS (Computer program). Bonn; University, Dep. of Psychology 1992

MissingFormLabel

Search in Google Scholar
22 Erdfelder E, Faul F, Buchner A. GPOWER: A general power analysis program. Behav Res Methods Instrum Comput. 1996; 28 (1) 1-11

MissingFormLabel
Crossref PubMed Search in Google Scholar
23 Fishman D B. Transcending the efficacy versus effectiveness research debate: Proposal for a new, electronic „Journal of Pragmatic Case Studies”. Prevention & Treatment 2000 URL: http://journals.apa.org/prevention/volume3/pre0030008a.html

MissingFormLabel

Search in Google Scholar
24 Hager W. Zur Validität pädagogisch-psychologischer Versuche. Empirische Pädagogik. 1998; 12 (2) 167-201

MissingFormLabel
PubMed Search in Google Scholar
25 Sedlmeier P. Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen. Methods of Psychological Research-online. 1996; 1 (4) , URL: http://www.mpr-online.de/

MissingFormLabel
PubMed Search in Google Scholar
26 Manz R, Henningsen C, Rudolf G. Methodische und statistische Aspekte der Therapieevaluation am Beispiel der Berliner Psychotherapiestudie. Psychother Psychosom med Psychol. 1995; 45 52-59

MissingFormLabel
PubMed Search in Google Scholar
27 Huberty C J, Morris J D. Multivariate analysis versus multiple univariate analyses. Psychol Bull. 1989; 105 (2) 302-308

MissingFormLabel
Crossref PubMed Search in Google Scholar
28 Gottman J M, Rushe R H. The Analysis of Change: Issues, Fallacies and New Ideas. J Consult and Clin Psychol. 1993; 61 (6) 907-910

MissingFormLabel
PubMed Search in Google Scholar
29 Hays W L. Statistics. London; Holt, Rinehart and Winston 1963

MissingFormLabel

Search in Google Scholar
30 Maier-Riehle B, Zwingmann C. Effektstärken beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung. Psychother Psychosom med Psychol. 1997; 47 271-278

MissingFormLabel
PubMed Search in Google Scholar

1 Abweichend von Hager, der sich lediglich auf psychologische Hypothesen (PH) und Vorhersagen (PV) bezieht, sollen hier sämtliche inhaltliche Hypothesen und Vorhersagen einbezogen werden.

2 Häufig werden stattdessen für s_EG und s_KG die Standardabweichungen der Präwerte oder auch jeweils die über Prä- und Postwerte gepoolten Standardabweichungen verwendet [30]. Die Effektgröße wird dann mit dem Index d_b für d_between versehen. Allerdings wird bei dieser Berechnungsweise die Korrelation zwischen Prä- und Postwerten vernachlässigt.

3 Für die Berechnung des BESD kann ebenfalls auf r zurückgegriffen werden. Die Erfolgsrate der Experimentalgruppe ergibt sich durch Erfolg_EG = 0,50 + r/2, die für die Kontrollgruppe durch Erfolg_KG = 0,50 - r/2 ([16], S. 167).

4 Die umgekehrte Situation ergibt sich bei einer strengen Entscheidungsregel, wenn also die statistische Vorhersage nur dann angenommen wird, wenn jede der abgeleiteten Nullhypothesen ihrerseits verworfen wird. In diesem Fall kumuliert anstelle des α-Fehlers der β-Fehler! Die Formel entspricht der oben dargestellten Formel für die Kumulation des α-Fehlers. Ebenso entspricht auch die in diesem Fall anstelle einer α-Fehler-Adjustierung durchzuführende β-Fehler-Adjustierung der oben erwähnten Bonferoni-Korrektur [14].

5 Die Faktorwerte ergeben sich durch die Linearkombination der an den Faktorkoeffizienten (auch bekannt als Gewichtungskoeffizient [19], S. 485) gewichteten z-standardisierten Fragebogenwerte des entsprechenden Faktors. Sie können bei den meisten Statistikpaketen als neue Variable ausgegeben werden.

Dipl.-Psych. Johannes Müller

Institut für Klinische, Diagnostische und Differentielle Psychologie · Technische Universität Dresden

Zellescher Weg 17

01069 Dresden