Rehabilitation (Stuttg) 2004; 43(6): 384-389
DOI: 10.1055/s-2003-814935
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag KG Stuttgart · New York

Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen

Determining the Quality of Rater Judgements Using Intraclass Correlation, and Enhancing Rater JudgementsM.  Wirtz1
  • 1Methodenzentrum des Rehabilitationswissenschaftlichen Forschungsverbundes Freiburg/Bad Säckingen, Freiburg
Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de
Further Information

Publication History

Publication Date:
24 November 2004 (online)

Preview

Zusammenfassung

Einschätzungen durch Ärzte oder Therapeuten zählen zu den wichtigsten Messmethoden in der klinischen Praxis. Es wird gezeigt, wie die Zuverlässigkeit von Beurteilungen mittels Ratingskalen durch statistische Maßzahlen bestimmt werden sollte. Zudem wird verdeutlicht, welche Ursachen mangelnde Zuverlässigkeit von Beurteilungen haben kann. Das Wissen über diese Ursachen kann die Basis für Beurteilertrainings sein, die zur Sicherstellung der Qualität klinischer Einschätzungen genutzt werden können.

Abstract

In clinical practice ratings by physicians and therapists are among the most frequently used assessment procedures. It is shown, which statistical measures should be used to assess the reliability of such ratings. Additionally, potential causes of insufficient reliability are presented. Improvement of rating quality may be achieved by rater training, which is based on an analysis of rating errors.

Literatur

1 Hierfür muss zusätzlich gewährleistet sein, dass jedem Patienten bei jeder Beurteilung genau ein Wert zugeordnet wird: Ein Patient kann nicht mehrere Erstdiagnosen innerhalb desselben Kategoriensystems erhalten. Zudem muss das Kategoriensystem oder die verwendete Ratingskala eine angemessene Abbildung des empirischen Merkmalsspektrums erlauben.

2 Bei psychometrischen Tests gilt diese Beziehung nur eingeschränkt: Sehr hohe Reliabilität und Validität können nicht gleichzeitig erreicht werden (partielle Inkompatibilität der beiden Kardinalkriterien, [11], S. 39). Dieses Problem besteht für die Beurteilerreliabilität nicht: Hier ist eine möglichst hohe Reliabilität immer günstig für die Validität der Beurteilungen ([18], S. 208).

3 Alternative Maße wie z. B. Finns r [15] für intervallskalierte Daten werden in der modernen Literatur nicht mehr diskutiert, da diese kein Reliabilitätsmaß darstellen und gezeigt werden kann, dass trotz unreliabler Beurteilungen hohe Koeffizientenausprägungen resultieren können. Lediglich moderne Latent-trait- oder Latent-class-Ansätze für ordinalskalierte Daten stellen eine Alternative zur ICC als Reliabilitätsmaß dar [1] [17]. Das häufig angewendete Kendalls W für ordinalskalierte Daten ist ein Zusammenhangsmaß, aber kein Reliabilitätsmaß im eigentlichen Sinne [18].

4 Die Bezeichnung „einfaktoriell” ist dadurch begründet, dass varianzanalytisch nur die Unterschiede zwischen den Personen und nicht zwischen den Beurteilern modelliert werden können. Da unterschiedliche Beurteiler die Personen geratet haben, können die Unterschiede zwischen den Beurteilern nicht fehlerfrei bestimmt werden.

5 Die Homogenität der Mittelwerte ist nicht notwendig, wenn eine der justierten ICCs die angemessene Reliabilitätskennziffer ist.

ANHANG

Notation zu den verschiedenen Intraklassenkorrelationskoeffizienten

Bedeutung der Subskripte:
unjust = unjustierte ICC. Die absoluten Messwerte werden unabhängig vom jeweiligen Beurteiler interpretiert oder weiter verwertet.

just = justierte ICC. Das individuelle Mittelwertsniveau der Beurteiler wird bei der Interpretation oder Weiterverwertung der Messwerte berücksichtigt.

einfakt = Die ICC basiert auf dem einfaktoriellen varianzanalytischen Modell.

MW = Es wird die Reliabilität des Mittelwerts aller untersuchten Beurteiler geschätzt.

Eigenschaften der 6 Formen der Intraklassenkorrelation:
Kontrolle von Mittelwertsunterschieden der Beurteiler varianzanalytisches Design Aggregation der Urteile
nein
unjustiert
ja
justiert
einfaktorielles Design zweifaktorielles Design nein
Einzelwerte
ja
Mittelwerte
ICCunjust,einfakt ja ja ja
ICCunjust,einfakt,MW ja ja ja
ICCunjust ja ja ja
ICCunjust,MW ja ja ja
ICCjust ja ja ja
ICCjust,MW ja ja ja

Dr. phil. Dipl.-Psych. Markus Wirtz

Abteilung für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg

Engelbergerstraße 41

79085 Freiburg

Email: wirtz@psychologie.uni-freiburg.de