Psychother Psychosom Med Psychol 2002; 52(9/10): 408-416
DOI: 10.1055/s-2002-34288
Originalarbeit
© Georg Thieme Verlag Stuttgart · New York

Was tun, wenn die Teststärke zu gering ist?

Eine praktikable Strategie für Prä-Post-DesignsWhat to do if Statistical Power is Low?A Practical Strategy for Pre-Post-DesignsJohannes  Müller1 , Rolf  Manz2 , Jürgen  Hoyer1
  • 1Institut für Klinische, Diagnostische und Differentielle Psychologie, Technische Universität Dresden
  • 2Forschungsverbund Public Health Sachsen
Wir danken den anonymen Gutachtern für wertvolle Hinweise und Ergänzungen
Further Information

Publication History

Eingegangen: 6. September 2001

Angenommen: 27. März 2002

Publication Date:
23 September 2002 (online)

Zusammenfassung

Der vorliegende Artikel behandelt die statistische Validität bei der Wirksamkeitsprüfung von Interventionen anhand des in der Evaluationspraxis typischen Designs mit zwei Gruppen und zwei Messzeitpunkten. Infolge kleiner Untersuchungsgruppen ist im klinischen Setting häufig eine mangelhafte statistische Validität zu beobachten. Zur Lösung dieses Problems wird eine an Hager angelehnte Strategie vorgeschlagen, in der sowohl Signifikanztests als auch Effektgrößen systematisch in den Entscheidungsprozess einbezogen werden. Anhand eines Beispiels wird möglichst praxisnah in die Problematik der Teststärke eingeführt und werden Methoden zur Erhöhung der Teststärke diskutiert. Zentral sind hierbei die Kompromisspoweranalyse von Erdfelder (Bestimmung des α-Niveaus nach einem zuvor festgelegten Verhältnis von β- zu α-Fehler), die Verminderung der Anzahl an Testinstrumenten durch Datenreduktion und das verbesserte Aufdecken vorhandener Effekte durch Methoden zur Reduktion der Fehlervarianz. Es zeigt sich u. a., dass Signifikanztests bei geringen Stichprobenumfängen und kleinen Effekten nicht sinnvoll sind und in solchen Fällen andere Verfahren vorgezogen werden sollten.

Abstract

This article deals with the issue of statistical validity when evaluating interventions. The most common study design with two groups and two points of measurement is discussed. In clinical research settings, unsatisfactory statistical validity is often seen due to small sample sizes. In order to resolve this problem, a strategy based on an approach by Hager is proposed which takes both significance testing and effects sizes systematically into account. Using an example from clinical research practice the problematic issue of statistical power is introduced and methods to increase the power of tests are discussed. Within this framework, Erdfelder's compromise power analysis (computing alpha levels according to a predetermined β/α error ratio) is crucial as well as a lowering of the number of applied tests by data reduction and the improved detection of potential effects by methods to reduce error variance. The results show that significance tests should not be used in case of small sample and effect sizes. In these cases different approaches should be used.

Literatur

  • 1 Metzler P, Krause B. Methodischer Standard bei Studien zur Therapieevaluation.  Methods of psychological research. 1997;  2 (2) ,  URL: http://www.mpr-online.de/
  • 2 Hager W, Patry J-L, Brezing H. Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2000
  • 3 Cook T D, Campbell D T. Quasi-experimentation. Design and analysis issues for field settings. Boston, MA; Houghton-Mifflin 1979
  • 4 Hager W. Zur Wirksamkeit von Interventionsprogrammen: Allgemeine Kriterien der Wirksamkeit von Programmen in einzelnen Untersuchungen. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2001: 153-168
  • 5 Hager W. Wirksamkeits- und Wirksamkeitsunterschiedshypothesen, Evaluationsparadigmen, Vergleichsgruppen und Kontrolle. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2001: 180-201
  • 6 Hager W. Planung und Untersuchung zur Prüfung von Wirksamkeits- und Wirksamkeitsunterschiedshypothesen. In: Hager W, Patry J-L, Brezing H Handbuch Evaluation psychologischer Interventionsmaßnahmen. Göttingen; Huber 2001: 202-239
  • 7 Cohen J. Statistical power analysis for the behavioral sciences (rev ed). New York; Academic Press 1988
  • 8 Manz R, Junge I, Margraf J. Prävention von Angst und Depression bei Jugendlichen - Ergebnisse einer Follow-Up-Untersuchung nach 6 Monaten. Z Gesundheitspsychol 2001 9 (4): 168-179
  • 9 Böhme H, Finke J, Teusch L. Effekte stationärer Gesprächspsychotherapie bei verschiedenen Krankheitsbildern: 1-Jahres-Katamnese.  Psychother Psychosom med Psychol. 1998;  47 20-29
  • 10 Holm-Hadulla R, Kiefer L, Sessar W. Zur Effektivität tiefenpsychologisch fundierter Kurz- und Psychotherapien.  Psychother Psychosom med Psychol. 1997;  47 271-278
  • 11 Priebe S, Sinning U. Effekte einer kurzen paartherapeutischen Intervention in der Koronarrehabilitation.  Psychother Psychosom med Psychol. 2001;  51 276-280
  • 12 Erdfelder E. Zur Bedeutung und Kontrolle des Beta-Fehlers bei der inferenzstatistischen Prüfung von log-linearen Modellen.  Z Sozialpsychol. 1984;  15 18-32
  • 13 Hager W. Eine Strategie zur Entscheidung über psychologische Hypothesen.  Psychol Rundsch. 1992;  44 (2) 116-117
  • 14 Hager W, Westermann R. Entscheidung über statistische und wissenschaftliche Hypothesen: Probleme bei mehrfachen Signifikanztests zur Prüfung einer wissenschaftlichen Hypothese.  Z Sozialpsychol. 1983;  14 106-117
  • 15 Mittag W, Jerusalem M. Evaluation von Präventionsprogrammen. In: Schwarzer R: Gesundheitspsychologie. Göttingen; Hogrefe 1997: 595-611
  • 16 Rosenthal R, Rubin D B. A simple, general purpose display of magnitude of experimental effect.  J Educ Psychol. 1982;  74 (2) 166-169
  • 17 Winer B J. Statistical principles in experimental design. New York; McGraw Hill 1962
  • 18 Erdfelder E. Zur Bedeutung und Kontrolle des Beta-Fehlers bei der inferenzstatistischen Prüfung von log-linearen Modellen.  Z Sozialpsychol. 1984;  15 18-32
  • 19 Bortz J. Statistik für Sozialwissenschaftler. Berlin; Springer 1993
  • 20 Bredenkamp J. Theorie und Planung psychologischer Experimente. Darmstadt; Steinkopff 1980
  • 21 Faul F, Erdfelder E. GPOWER: A priori, post-hoc and compromise power analyses for MS-DOS (Computer program). Bonn; University, Dep. of Psychology 1992
  • 22 Erdfelder E, Faul F, Buchner A. GPOWER: A general power analysis program.  Behav Res Methods Instrum Comput. 1996;  28 (1) 1-11
  • 23 Fishman D B. Transcending the efficacy versus effectiveness research debate: Proposal for a new, electronic „Journal of Pragmatic Case Studies”. Prevention & Treatment 2000 URL: http://journals.apa.org/prevention/volume3/pre0030008a.html
  • 24 Hager W. Zur Validität pädagogisch-psychologischer Versuche.  Empirische Pädagogik. 1998;  12 (2) 167-201
  • 25 Sedlmeier P. Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen.  Methods of Psychological Research-online. 1996;  1 (4) ,  URL: http://www.mpr-online.de/
  • 26 Manz R, Henningsen C, Rudolf G. Methodische und statistische Aspekte der Therapieevaluation am Beispiel der Berliner Psychotherapiestudie.  Psychother Psychosom med Psychol. 1995;  45 52-59
  • 27 Huberty C J, Morris J D. Multivariate analysis versus multiple univariate analyses.  Psychol Bull. 1989;  105 (2) 302-308
  • 28 Gottman J M, Rushe R H. The Analysis of Change: Issues, Fallacies and New Ideas.  J Consult and Clin Psychol. 1993;  61 (6) 907-910
  • 29 Hays W L. Statistics. London; Holt, Rinehart and Winston 1963
  • 30 Maier-Riehle B, Zwingmann C. Effektstärken beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung.  Psychother Psychosom med Psychol. 1997;  47 271-278

1 Abweichend von Hager, der sich lediglich auf psychologische Hypothesen (PH) und Vorhersagen (PV) bezieht, sollen hier sämtliche inhaltliche Hypothesen und Vorhersagen einbezogen werden.

2 Häufig werden stattdessen für sEG und sKG die Standardabweichungen der Präwerte oder auch jeweils die über Prä- und Postwerte gepoolten Standardabweichungen verwendet [30]. Die Effektgröße wird dann mit dem Index db für dbetween versehen. Allerdings wird bei dieser Berechnungsweise die Korrelation zwischen Prä- und Postwerten vernachlässigt.

3 Für die Berechnung des BESD kann ebenfalls auf r zurückgegriffen werden. Die Erfolgsrate der Experimentalgruppe ergibt sich durch ErfolgEG = 0,50 + r/2, die für die Kontrollgruppe durch ErfolgKG = 0,50 - r/2 ([16], S. 167).

4 Die umgekehrte Situation ergibt sich bei einer strengen Entscheidungsregel, wenn also die statistische Vorhersage nur dann angenommen wird, wenn jede der abgeleiteten Nullhypothesen ihrerseits verworfen wird. In diesem Fall kumuliert anstelle des α-Fehlers der β-Fehler! Die Formel entspricht der oben dargestellten Formel für die Kumulation des α-Fehlers. Ebenso entspricht auch die in diesem Fall anstelle einer α-Fehler-Adjustierung durchzuführende β-Fehler-Adjustierung der oben erwähnten Bonferoni-Korrektur [14].

5 Die Faktorwerte ergeben sich durch die Linearkombination der an den Faktorkoeffizienten (auch bekannt als Gewichtungskoeffizient [19], S. 485) gewichteten z-standardisierten Fragebogenwerte des entsprechenden Faktors. Sie können bei den meisten Statistikpaketen als neue Variable ausgegeben werden.

Dipl.-Psych. Johannes Müller

Institut für Klinische, Diagnostische und Differentielle Psychologie · Technische Universität Dresden

Zellescher Weg 17

01069 Dresden

    >