Zusammenfassung
In der Rehabilitation stellen Beurteilungen eine der wichtigsten Datenerhebungsmethoden
dar. Beispielsweise werden durch Behandler häufig kategoriale Beurteilungen vorgenommen,
die Aufschluss darüber geben sollen, ob ein bestimmtes Merkmal vorliegt oder nicht
(dichotomes Antwortformat) oder welche von mehreren Alternativen für einen Patienten
zutrifft (polytomes Antwortformat). Die Übereinstimmung zwischen verschiedenen Beurteilern
ist eine wichtige Voraussetzung, damit die gewonnenen Daten zuverlässige und aussagekräftige
Informationen über die Patienten enthalten können. Cohens κ (Cohens Kappa) ist das
am häufigsten eingesetzte Maß, wenn diese Übereinstimmung überprüft werden soll. In
diesem Beitrag wird gezeigt, welche Eigenschaften Cohens κ besitzt und unter welchen
Bedingungen es verwendet werden kann. Bei der Interpretation von Cohens κ werden häufig
Probleme dieser Maßzahl nicht berücksichtigt, sodass irreführende Schlussfolgerungen
resultieren können. So kann die Ausprägung von Cohens κ auch von Informationsaspekten
- wie z. B. der Grundhäufigkeit eines Merkmals - beeinflusst werden, die unabhängig
von der Güte der Beurteiler sind. Daher werden für dichotome Antwortformate alternative
Evaluationsstrategien skizziert, die eine differenziertere und aussagekräftigere Analyse
der Beurteilerübereinstimmung ermöglichen. Abschließend wird gezeigt, wie für polytome
Antwortformate durch das gewichtete Cohens κω die Analyse der Beurteilerübereinstimmung erfolgen kann.
Abstract
Within rehabilitation research ratings are one of the most frequently used assessment
procedures. For example, therapists frequently make categorical judgements aiming
to get information whether specific patient characteristics prevail or not (dichotomous
rating format) or which of several alternatives holds for a patient (polytomous rating
format). Interrater agreement is an important prerequisite to ensure that reliable
and meaningful information concerning patients’ state can be inferred from the data
obtained. Cohen's κ (Cohen's kappa) is the most frequently used measure to quantify
interrater agreement. The properties of Cohen's κ are characterized and conditions
for the appropriate application of κ are clarified. Because sometimes specific properties
of κ are not appropriately considered, misleading interpretations of this measure
may easily arise. This is the case because the value of Cohen's κ is affected by information
aspects that are independent of the quality of the rating process. In order to avoid
such misconceptions, alternative evaluation strategies are described for dichotomous
rating formats which enhance agreement analysis and thus ensure a more valid interpretation.
In addition, it is shown how weighted Cohen's κω may be used to analyze polytomous rating formats.
Schlüsselwörter
Beurteilerübereinstimmung - Konkordanzmaße - Cohens Kappa - gewichtetes Cohens Kappa
- Odds Ratio - Yules Y
Key words
interrater agreement - measures of concordance - Cohen's kappa - weighted Cohen's
kappa - Odds Ratio - Yules Y
Literatur
- 1 Bortz J, Döring N.
Forschungsmethoden und Evaluation. 3. Aufl. Berlin: Springer 2001
- 2
Vogel H, Lemisz W, Liebeck H, Palm W.
Zur Bewertung des Gutachterverfahrens für die ambulante Verhaltenstherapie durch die
Gutachterinnen.
Verhaltenstherapie.
2002;
12
228-231
- 3
Wirtz M.
Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation
und Verbesserung von Beurteilereinschätzungen.
Rehabilitation.
2004;
43
384-389
- 4 Wirtz M, Caspar F.
Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe 2002
- 5
Cichetti DV.
Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment
instruments in psychology.
Psychological Assessment.
1994;
6
284-290
- 6
Klauer KC.
Urteilerübereinstimmung bei dichotomen Kategoriensystemen.
Diagnostica.
1996;
42
101-118
- 7
Uebersax JS.
A review of modelling approaches for the analysis of observer agreement.
Investigative Radiology.
1992;
27
738-743
- 8 Wirtz M. Methoden zur Bestimmung der Beurteilerübereinstimmung. In: Petermann F,
Eid M (Hrsg).
Handbuch der Psychologie - Psychologische Diagnostik. Göttingen: Hogrefe 2006: 369-380
- 9
Ulrich R, Wirtz M.
On the correlation of a naturally and an artificially dichotomized variable.
British Journal of Mathematical and Statistical Psychology.
2004;
57
235-252
- 10
Fleiss JL, Cohen J, Everitt BS.
Large sample standard errors of kappa and weighted kappa.
Psychological Bulletin.
1969;
72
323-327
- 11
Fleiss JL, Cohen J.
The equivalence of weighted kappa and the intraclass correlation coefficient as measures
of reliability.
Educational and Psychological Measurement.
1973;
33
613-619
- 12 Nussbeck F. Assessing multimethod association with categorical variables. In: Eid
M, Diener E (Hrsg).
Handbook of multimethod measurement in psychology. Washington: APA 2005: 212-234
- 13 Bortz J, Lienert GA.
Kurzgefasste Statistik für die klinische Forschung. Berlin: Springer 1998
- 14
Valiquette CAM, Lesage AD, Cyr M, Toupin J.
Computing Cohen's kappa coefficients using SPSS MATRIX.
Behavioral Research Methods, Instruments and Computers.
1994;
26
60-61
- 15
Uebersax JS..
, Statistical methods for rater agreement. August 2006 - verfügbar unter URL:
http://ourworld.compuserve.com/homepages/jsuebersax/agree.html
- 16
Lowry R..
, Cohen's unweighted kappa, kappa with linear weighting, kappa with quadratic weighting,
frequencies and proportions of agreement. August 2006 - verfügbar unter
http://faculty.vassar.edu/lowry/kappa.html
- 17
Hoyt WT.
Rater bias in psychological research: when is it a problem and what can we do about
it?.
Psychological Methods.
2000;
5
64-86
1 In den Beispielen A bis C liegt der Wert von ι bei -0,11, 0,52 bzw. 0,60.
2 9,50 ist derjenige Wert, der sich ohne Rundungsungenauigkeiten ergeben würde.
3 Es gilt stets: Y≥κ.
Korrespondenzadresse
Prof. Dr. Markus Wirtz
Institut für Psychologie
Pädagogische Hochschule Freiburg
Kunzenweg 21
79117 Freiburg
Email: markus.wirtz@ph-freiburg.de