Analyse des Informationsgehalts von Merkmalseinschätzungen
                    und Beurteilungsdaten

Nicole Röttele; Markus Antonius Wirtz

doi:10.1055/a-0955-6470

Rehabilitation (Stuttg) 2020; 59(03): 182-192
DOI: 10.1055/a-0955-6470

Methoden in der Rehabilitationsforschung

Analyse des Informationsgehalts von Merkmalseinschätzungen und Beurteilungsdaten

Zur Anwendung der Generalisierbarkeitstheorie in rehabilitationswissenschaftlichen StudienAnalyzing the Informational Content of Observational and Rating DataApplication of Generalizability Theory in Rehabilitation Studies

Authors

Nicole Röttele

¹Medizinische Psychologie und Medizinische Soziologie Albert-Ludwigs-Universität Freiburg
Markus Antonius Wirtz

²Institut für Psychologie, Pädagogische Hochschule Freiburg

Abstract

Full Text

PDF Download

Schlüsselwörter

Beurteilungsdaten - Beurteilungsfehler - Beurteilertraining - Generalisierbarkeitstheorie - Interraterreliabilität

Key words

rating data - rating biases - rater training - generalizability theory - interrater reliability

Einleitung

In einer Studie werde die Kommunikationsfähigkeit von Therapeuten im Beratungsgespräch mit Rehabilitanden untersucht. Jeder Therapeut führt mit mehreren Rehabilitanden jeweils 2 Konsultationen durch. Um das Ausmaß der Kommunikationsfähigkeit der Therapeuten in Beratungsgesprächen ermitteln zu können, wird für jede Einzelkonsultation sowohl vom Therapeuten als auch vom Rehabilitanden die Qualität der Kommunikation in Bezug auf 3 Indikatoren eingeschätzt: Empathische Beziehungsgestaltung, Verständlichkeit der Informationsgabe sowie Partizipative Entscheidungsfindung (Beispiel 1).

Wie kann nun begründet eine Aussage über die allgemeine Kommunikationsfähigkeit der Therapeuten getroffen werden, obwohl sich jedes erhobene Urteil auf eine spezifische Situation mit einem individuellen Rehabilitanden, eine spezifische Beurteilerperspektive (Selbst- vs. Fremdeinschätzung) und einen spezifischen Einzelindikator der Kommunikationsfähigkeit bezieht? Beurteilt der Therapeut sein eigenes Verhalten, so muss erwartet werden, dass sich ein anderer Wert ergibt, als wenn der Rehabilitand ein Urteil angibt. Wird nach einem spezifischen Aspekt des Kommunikationsverhaltens (z. B. Empathische Beziehungsgestaltung) gefragt, werden sich andere Werte ergeben, als wenn die Ausprägung eines anderen Kommunikationsindikators (z. B. Verständlichkeit der Informationsgabe) erhoben wird. In Konsultationen mit verschiedenen Rehabilitanden wird die Kommunikationsqualität desselben Therapeuten ebenfalls variieren.

Solche Erhebungskonstellationen sind in der rehabilitationswissenschaftlichen Forschungs- und Anwendungspraxis üblich: Durch Verwendung eines spezifischen Erhebungsdesigns soll die Ausprägung wichtiger Merkmalsdimensionen zuverlässig und aussagekräftig ermittelt werden. Es wird angestrebt, einen allgemein gültigen Wert verlässlich zu schätzen, obwohl die Messwerte nicht nur zufallsbedingt, sondern in Abhängigkeit von den Erhebungsbedingungen systematisch variieren.

Beispiel 2 – Hygiene in Rehabilitationskliniken: An Rehabilitationskliniken wird eine Hygieneschulung für die Mitarbeitenden durchgeführt. Vor und nach der Schulung beurteilen jeweils 6 Reviewer Hygieneindikatoren mittels einer Checkliste. Jeder Beurteilungswert ist somit spezifisch für eine Klinik, einen Hygieneindikator, einen Reviewer und einen Messzeitpunkt (vor vs. nach der Schulung).

Beispiel 3 – Beeinträchtigungsstatus wieder einzugliedernder Arbeitnehmer: Der arbeitsbezogene Beeinträchtigungsstatus wieder einzugliedernder Arbeitnehmer wird eingeschätzt. Für 3 typische Arbeitssituationen wird beurteilt, in welchem Maße eine Beeinträchtigung bzgl. der 3 Aspekte Körperhaltung, Handlungskoordination und Handlungsschnelligkeit vorliegt. 3 Mitarbeiter des Betrieblichen Gesundheitsmanagements (BGM) schätzen die Indikatoren des Beeinträchtigungsstatus unabhängig ein.

Diese 3 Beispielszenarien verdeutlichen stellvertretend, dass in der Rehabilitation wichtige Entscheidungen aufgrund von Beurteilungen und Einschätzungen durch z. B. Rehabilitanden, Behandler oder Peer-Reviewer getroffen werden. Damit angemessene Entscheidungen getroffen werden können, müssen die Zuverlässigkeit und die Validität solcher Beurteilungen, auf denen die Entscheidungen gründen, sichergestellt werden. Hierzu ist ein möglichst differenziertes Verständnis erforderlich, welche Informationen sich in den Beurteilungsdaten widerspiegeln bzw. zu der eingeschätzten Werteausprägung beitragen.

Die Struktur von Beurteilungsdaten

Die verlässliche Interpretation des Informationsgehalts von Messwerten wird gemäß der Generalisierbarkeitstheorie [1] [2] als Verallgemeinerungs- oder Generalisierungsproblem aufgefasst: Die Generalisierbarkeitstheorie formuliert ein analytisches Rahmenmodell für Beurteilungsdaten, das bedeutsame Einflussgrößen oder Informationskomponenten trennt. Die Anteile aller untersuchten Informationskomponenten an den Beurteilungswerten werden statistisch geschätzt, sodass angegeben werden kann, in welchem Maße die einzelnen Informationskomponenten zu den erhobenen Beurteilungsdaten beitragen. Dies dient zum einen dazu, ein besseres Verständnis dessen zu erlangen, wie Urteile zustandekommen und wie deutlich sich die einzelnen Komponenten in den Daten widerspiegeln (Generalisierbarkeitsaspekt). Zum anderen kann ermittelt werden, welche Informationsaspekte im Sinne des jeweiligen Erhebungsinteresses fundiert berücksichtigt und diagnostisch verwertet werden können (Entscheidungsaspekt).

Die verschiedenen Gegebenheiten, die zur Unterschiedlichkeit der Messwerte führen können, werden in der Generalisierbarkeitstheorie als Facetten bezeichnet. In der rehabilitationswissenschaftlichen Diagnostik sind typischerweise Beurteiler, Methode, Erhebungssituation, Iteminhalte, Erhebungssetting sowie der Messgegenstand selbst, wichtige Facetten [3]. Die möglichen Werte einer Facette stellen Bedingungen oder Facettenausprägungen dar [1]. Mögliche Facettenausprägungen für die 3 Anwendungsbeispiele sind in [Tab. 1] dargestellt.

Tab. 1 Facetten und Facettenausprägungen in den Anwendungsbeispielen.
		Beispiel 1	Beispiel 2	Beispiel 3
Facetten der Messung	Beurteiler	Therapeut Rehabilitand	6 Reviewer	3 BGM-Mitarbeiter
	Methode	Fragebogen	Qualitätscheckliste	Beobachtungsbogen
	Erhebungssituation	Im Anschluss an ein Beratungsgespräch	Vor und nach einer Hygieneschulung der Belegschaft	Bei der Ausführung von Arbeitstätigkeiten
	Iteminhalte	Information Empathie Partizipation	Händedesinfektion Desinfektion von Behandlungsmaterialien	Körperhaltung Handlungskoordination Handlungsschnelligkeit
	Setting	Konsultation	Klinik	Arbeitsplatz
Facetten der Differenzierung	Messgegenstand	Kommunikationsfähigkeit der Therapeuten	Hygienequalität der Kliniken	Beeinträchtigung des Arbeitnehmers

Im ersten Beispiel soll die Kommunikationsfähigkeit eingeschätzt werden. Für die Validität der Beurteilungen ist es wichtig, dass die Kommunikationsfähigkeit der Therapeuten die Messergebnisse wesentlich determiniert. Die Beurteiler, die Methode, die Erhebungssituation, die Iteminhalte und das Erhebungssetting charakterisieren hingegen konkrete Erhebungsbedingungen. Die Erhebungsbedingungen müssen so gewählt werden, dass diese die Validität der Schätzung der Kommunikationsfähigkeit möglichst nicht beeinträchtigen. Systematische Effekte der Erhebungsbedingungen stellen im Sinne der Generalisierbarkeitstheorie Stör- oder Fehlerquellen dar. Die untersuchten Objekte (hier: Therapeuten) dürfen aufgrund ihrer unterschiedlichen Kommunikationsfähigkeit einen großen Beitrag zur Varianz leisten, denn je variabler die Objekte hinsichtlich des untersuchten Merkmals sind, desto besser unterscheidbar sind die Objekte, desto höher ist der Anteil interessierender Merkmalsvarianz und desto reliabler erfolgt die Beurteilung des einzuschätzenden Zielmerkmals im Allgemeinen. Anhand der Urteile sollen Objekte zuverlässig voneinander unterschieden werden: Je unterschiedlicher diese sind und je geringer der überlagernde Effekt störender Erhebungsmerkmale ist bzw. je fehlerfreier die Einschätzung erfolgt, desto besser [1].

Die Generalisierbarkeitstheorie kann als Erweiterung der Klassischen Testtheorie angesehen werden. Die Klassische Testtheorie nimmt an, dass sich eine Beurteilung als Summe der wahren Merkmalsausprägung (z. B. in Beispiel 1: wahre Kommunikationsfähigkeit des Therapeuten) und einer zufälligen Messfehlerkomponente ergibt (für Fragebogendaten: [4]; für Beurteilungsdaten: [5])[1]. Die Generalisierbarkeitstheorie beleuchtet Teilinformationen (z. B. Beurteilerperspektive, Iteminhalte), die bei Anwendung der Klassischen Testtheorie als Teil der Fehlerkomponente aufgefasst würden, genauer. Werden also durch die Generalisierbarkeitstheorie weitere systematische Informationsquellen identifiziert, bedeutet dies, dass die Annahmen der Klassischen Testtheorie nur ein vereinfachendes, bestenfalls angenähertes Modell der Dateninformation zugrunde legen: Systematische Informationen, die sich neben den untersuchten Merkmalsinformationen in den Daten widerspiegeln, „verschwinden“ in der Messfehlerkomponente. Dies geht mit Einschränkungen der Validität der Dateninterpretation einher. Die Generalisierbarkeitstheorie verbessert die Möglichkeiten einer validen Dateninterpretation, da ein differenzierteres Modell des Datengehalts zugrunde liegt. Die bei Anwendung der Klassischen Testtheorie „vergessene“ – überspitzt ausgedrückt: „verleugnete“ – Zusatzinformation wird damit zu diagnostisch erkennbarer oder verwertbarer Information.

Grundlegendes Prinzip der Generalisierbarkeitstheorie: Beurteilungswerte als Komposition überlagernder Effekte

[Tab. 2] zeigt vereinfacht eine Datenverteilung für Beispiel 1 zur Einschätzung der Kommunikationsfähigkeit von Therapeuten in Beratungsgesprächen: Die Kommunikationsfähigkeit dreier Therapeuten sei anhand der Items „Partizipative Entscheidungsfindung“, „Empathische Beziehungsgestaltung“ und „Verständlichkeit der Informationsgabe“ von den Therapeuten selbst und den beratenen Rehabilitanden eingeschätzt worden. Die Einschätzung erfolgte mittels einer Ratingskala, deren Werte als intervallskaliert angenommen werden. Hohe Werte spiegeln eine positive Merkmalsausprägung wider.

Tab. 2 Selbst- und Fremdurteile der Kommunikationsfähigkeit von Therapeuten in Beispiel 1, beurteilt mittels 3 Items zu „Partizipative Entscheidungsfindung“, „Empathische Beziehungsgestaltung“ und „Verständlichkeit der Informationsgabe“. Es handelt sich um fiktive Werte, die die im Text erläuterten Effekte fehlerfrei widerspiegeln. Δ=Abweichung vom Allgemeinen Mittelwert 20.

Im Durchschnitt wurde für die Kommunikationsfähigkeit ein Messwert von 20 vergeben. Ziel der Generalisierbarkeitstheorie ist es nun zu modellieren, welche Einzelkomponenten dazu beitragen, dass und in welchem Maße, einzelne erhobene Beurteilungswerte von diesem allgemeinen Mittelwert abweichen [1]. Das Untersuchungsdesign wurde so gewählt, dass 3 potentielle Informationsquellen systematisch analysiert werden können. Denn jeder gemessene Wert gilt für

einen bestimmten Therapeuten (Zeilen),
einen spezifischen Iteminhalt (Partizipative Entscheidungsfindung, Empathische Beziehungsgestaltung, Verständlichkeit der Informationsgabe; Hauptspalten) sowie
eine spezifische Beurteilungsperspektive (Selbst- und Fremdbeurteilung; Unterspalten).

Die Ausprägung jedes Messwerts wurde so gewählt, dass sich die Haupteffekte des Iteminhalts, der Beurteilerperspektive und der beurteilten Therapeuten eindeutig und fehlerfrei abbilden. [Tab. 3] gibt die Effekte als Abweichung (Δ) vom allgemeinen Mittelwert und deren inhaltliche Bedeutung an.

Tab. 3 Haupteffekte des Iteminhalts, der Beurteilerperspektive und des beurteilten Therapeuten in Beispiel 1.
			MW	Δ	Beispiel für die Bedeutung der Haupteffekte
		Gesamt	20	0	Allgemeiner Mittelwert / Grundniveau der Messwerte
Haupteffekte	Itemschwierigkeit (I)	Partizipative Entscheidungsfindung	17	−3	Partizipation: Partizipation wird am schlechtesten beurteilt. Die Angaben liegen 3 Einheiten unter dem Grundniveau.
		Empathische Beziehungsgestaltung	20	0	Empathie: Empathie wird durchschnittlich bewertet. Die Angaben entsprechen dem Grundniveau.
		Verständlichkeit der Informationsgabe	23	+3	Information: Information wird am besten bewertet. Die Angaben liegen 3 Einheiten über dem allgemeinen Mittelwert.
	Beurteiler-perspektive (P)	Selbst	22	+2	Therapeutenperspektive: Die Therapeutenurteile fallen überdurchschnittlich aus. Die Angaben liegen 2 Einheiten über dem Grundniveau.
	Beurteiler-perspektive (P)	Fremd	18	−2	Rehabilitandenperspektive: Die Rehabilitandenurteile fallen unterdurchschnittlich aus. Die Angaben liegen 2 Einheiten unter dem Grundniveau.
	Beurteilter Therapeut (T)	Therapeut 1	17	−3	Therapeut 1: Therapeut 1 wird unterdurchschnittlich bewertet. Die Angaben liegen 3 Einheiten unter dem Grundniveau.
		Therapeut 2	20	0	Haupteffekt von Therapeut 2: Therapeut 2 wird durchschnittlich bewertet. Die Angaben entsprechen dem Grundniveau.
		Therapeut 3	23	+3	Haupteffekt von Therapeut 3: Therapeut 3 wird überdurchschnittlich bewertet. Die Angaben liegen 3 Einheiten über dem Grundniveau.

Folgende Komponenten sind somit für die Ausprägung der Messwerte in [Tab. 2] verantwortlich: Zunächst werden die Messwerte von dem allgemeinen Grundniveau der Merkmalsausprägungen (MW=20) determiniert. Zusätzlich besitzt jedes Item eine bestimmte Schwierigkeit, d. h. Items werden in unterschiedlichem Maße als zutreffend beurteilt. Außerdem können Beurteiler unterschiedlich streng oder milde urteilen. Je nach Beurteilerperspektive ergeben sich somit höhere oder niedrigere Werte. Zuletzt unterscheiden sich die beurteilten Therapeuten hinsichtlich ihrer Fähigkeit, mit den Rehabilitanden zu kommunizieren.

Zur grundlegenden Veranschaulichung wurden die Daten in [Tab. 2] so gewählt, dass sich die Messwerte komplett durch die Haupteffekte der 3 untersuchten Faktoren Iteminhalt, Beurteilerperspektive und beurteilter Therapeut vorhersagen lassen. Neben diesen Haupteffekten können aber zudem Wechselwirkungen bzw. Interaktionseffekte der Faktoren auftreten. [Tab. 4] verdeutlicht die Bedeutung der möglichen Interaktionseffekte für das Anwendungsbeispiel.

Tab. 4 Interaktionseffekte des Iteminhalts, der Beurteilerperspektive und des beurteilten Therapeuten und ihre inhaltliche Bedeutung für Beispiel 1.
Interaktionseffekt	Bedeutung	Beispiel
Zweifach-Interaktionen
Itemschwierigkeit x Beurteilerperspektive (I x P)	Für die Beurteilerperspektive ergeben sich je nach erfragtem Iteminhalt spezifische Effekte.	Das Selbsturteil der Therapeuten ist nur für Empathie unerwartet positiv (z. B. empathiespezifischer Self-serving bias).
Itemschwierigkeit x beurteilter Therapeut (I x T)	Für die beurteilten Therapeuten ergeben sich je nach Iteminhalt spezifische Effekte (Differential-Item-Functioning; [7]).	Nur für Therapeut 1 fällt das Urteil für Empathie unerwartet negativ aus. Obwohl er gut informiert und den Rehabilitanden mit einbezieht, wird die Empathie als niedrig bewertet. Bei den anderen Therapeuten tritt ein ähnlicher Effekt nicht auf.
Beurteilerperspektive x beurteilter Therapeut (P x T)	Je nach Beurteilerperspektive ergeben sich für die beurteilten Therapeuten spezifische Effekte.	Nur für Therapeut 3 tritt kein Self-serving bias auf. Für diesen Therapeuten fallen Selbst- und Fremdeinschätzung gleich aus.
Dreifach-Interaktion
Itemschwierigkeit x Beurteilerperspektive x beurteilter Therapeut (I x P x T)	Je nach Beurteilerperspektive ergeben sich je nach Item für die beurteilten Therapeuten spezifische Effekte.	Nur für Therapeut 2 tritt kein Self-serving bias für die Items Informationsgabe und Partizipation auf.

Die Generalisierbarkeitstheorie nimmt an, dass sich einzelne Messwerte durch die Summe der Haupteffekte und der Interaktionseffekte (Wechselwirkungen) der untersuchten Einflussfaktoren ergeben. Zudem wird jeder Messwert noch durch einen additiv überlagernden Zufallsfehler mitbestimmt.

Haupt- und Interaktionseffekte im Beispiel 2 „Hygienequalität von Rehabilitationskliniken“

Bei Einschätzung der Hygienequalität können die Reviewer generell unterschiedlich milde oder streng in ihrer Beurteilung sein (Haupteffekt Reviewer), die mittels Items erfragten Hygienekriterien können unterschiedlich gut erfüllt sein (Haupteffekt Items) und nach der Intervention können die Werte systematisch höher ausgeprägt sein, als vor der Intervention (Haupteffekt Messzeitpunkt). Ändern sich nur einige Hygieneindikatoren zwischen den beiden Beurteilungszeitpunkten, während die übrigen Indikatoren unverändert bleiben (Differenzial Item Functioning [7]), so entspräche dies einem Interaktionseffekt von Iteminhalten und Messzeitpunkten [8] [9]. Würden nur 2 der 6 Reviewer die Hygieneindikatoren zum zweiten Messzeitpunkt positiver bewerten als zum ersten Messzeitpunkt, so würde sich dies in einem Interaktionseffekt von Reviewer und Messzeitpunkt widerspiegeln. Bewerten verschiedene Reviewer unterschiedliche Hygieneindikatoren als qualitativ gut vs. defizitär erfüllt (z. B. Reviewer A beurteilt die Praxis Händedesinfektion als sehr positiv und die Hygiene des Behandlungsmaterials als weniger gut, während Reviewer B beides konträr einschätzt), so würden die Facetten Reviewer und Iteminhalt interagieren. Beurteilen 2 der 6 Reviewer lediglich einige Hygieneindikatoren zum zweiten Messzeitpunkt positiver als zum ersten Messzeitpunkt, so würden Reviewer, Iteminhalt und Messzeitpunkt dreifach interagieren: Je nach Reviewer würden dann für verschiedene Hygieneaspekte unterschiedliche Änderungen erkennbar werden.

Varianzen als Maße der Unterschiedlichkeit von Messwerten, g-Koeffizienten als Maße der Zuverlässigkeit von Messwerten

Die beispielhaften Daten in [Tab. 2] stellen eine empirische Situation natürlich nur vereinfacht und besonders plakativ dar. Hier wurde zum Zwecke der anschaulichen Nachvollziehbarkeit vereinfachend davon ausgegangen, dass für alle Messwerte alle Effekte eindeutig und fehlerfrei erkennbar sind. In der empirischen Anwendung werden Messwerte jedoch durch zufällige Fehlerkomponenten überlagert oder „verrauscht“. Werden die Beurteilungsergebnisse durch Zufallsfehler überlagert, können die Messwerte nicht einfach als reine Komposition der unterliegenden Effekte aufgefasst werden. Stattdessen wird die Unterschiedlichkeit der Messwerte über Varianzmaße abgebildet. Jeder Haupt- und Interaktionseffekt wird auf Basis des Ausmaßes, in dem dieser zur Gesamtvariabilität der Messwerte beiträgt, analysiert [1] [10]. Existiert z. B. ein Haupteffekt der Beurteilerperspektive, so unterscheiden sich Werte, die auf Basis von Selbst- vs. Fremdeinschätzung erhoben wurden, grundsätzlich deutlich. Die Beurteilerperspektive erklärt dann einen substantiellen Teil der Unterschiede bzw. der Varianz der erhobenen Beurteilungsdaten.

Eine angemessene Darstellung der statistischen Hintergründe würde diese Einführung deutlich sprengen. Das Prinzip der Datenanalyse kann aber – ohne Rückgriff auf Formeln – wie folgt skizziert werden:

Bestimmung der Gesamtvarianz der Messwerte (VAR_Ges): Die generelle Unterschiedlichkeit bzw. Variabilität der erhobenen Daten wird durch das statistische Maß der Gesamtvarianz repräsentiert.
Zerlegung der Varianz in additive Komponenten: Für jeden potentiellen Haupteffekt (im Beispiel 1: Iteminhalt, Beurteilerperspektive, beurteilter Therapeut) und jeden potentiellen Interaktionseffekt ([Tab. 4]) wird bestimmt, wie stark die Beurteilungsdaten zwischen den Facettenausprägungen der jeweils betrachteten Facette (bei Haupteffekten) oder den Kombinationen von Facettenausprägungen (bei Interaktionseffekten) variieren. VAR_Iteminhalt ist dann z. B. ein Maß der Variabilität der erhobenen Daten, die mit den Iteminhalten korrespondieren (variierende Itemschwierigkeiten). Unterschiede in den Beurteilungsperspektiven werden z. B. durch VAR_{Beurteilungsperspektive} (Variabilität zwischen Selbst- und Fremdurteilen) repräsentiert.
Gemäß dem Grundmodell der Generalisierbarkeitstheorie kann die Gesamtvariabilität VAR_Ges additiv in Varianzanteile, die auf Haupt- und Interaktionseffekte sowie Fehlereffekte zurückzuführen sind, zerlegt werden. Der Anteil einer Varianzkomponente an der Gesamtvarianz entspricht der Reliabilität der entsprechenden Varianzkomponente:

Die empirischen Schätzungen dieser Varianzanteile werden als Generalisierbarkeitskoeffizienten bzw. g-Koeffizienten bezeichnet.

[Abb. 1] zeigt eine entsprechende Ergebnisdarstellung. Neben der unsystematischen Fehlervarianz (Varianzanteil: 25%), ist die Variabilität der Messwerte vor allem auf folgende Komponenten zurückzuführen:

Abb. 1 Varianzzerlegung als Ergebnis einer Generalisierbarkeitsstudie.

Unterschiedliche Fähigkeiten der Therapeuten: Varianzanteil=25%
Unterschiede in der Selbst- vs. Fremdbeurteilung: Varianzanteil=15%
Interaktion von Beurteilungsperspektive und Item (hier: nur für Informationsgabe unterscheiden sich Selbst- und Fremdperspektive nicht): Varianzanteil=16%
Interaktion von Iteminhalt und Therapeut (hier: für die Therapeuten 4, 5 und 6 sind die Empathiewerte unerwartet niedrig ausgeprägt): Varianzanteil=10%

Dass der Varianzanteil, der mit den unterschiedlichen Fähigkeiten der Therapeuten einhergeht, mit 25% vergleichsweise hoch ausfällt, ist im Sinne der Fragestellung wünschenswert. Die Beurteilungsdaten sollen Aufschlüsse über die Kommunikationsfähigkeit der Therapeuten liefern. Je höher der Varianzanteil der Facette Therapeut ist, desto eindeutiger kann von den Daten auf den betreffenden Therapeuten geschlossen werden. Die Reliabilität des Schlusses von einem bestimmten Datenwert auf die Person des Therapeuten ist mit 0,25 jedoch unzureichend, denn im Umkehrschluss sind 75% der Datenvarianz nicht mit der Facette Therapeut verbunden. Erst bei einem Reliabilitätswert ab 0,7 (d. h. 70% systematische Varianz und 30% Fehlervarianz) wäre nach den üblichen diagnostischen Standards der Schluss von den Daten auf die Person des Therapeuten hinreichend zuverlässig [11].

Der hohe Varianzanteil der Interaktion von Beurteilerperspektive und Iteminhalt (16%) ist hingegen als ungünstig anzusehen, wenn die valide Erfassung der Kommunikationsfähigkeit angestrebt wird. Wenn das Selbst- und Fremdurteil je nach erhobenem Indikator in spezifischer Weise divergiert, so deutet dies darauf hin, dass sich die inhaltliche Bedeutung des Urteils je nach Erhebungskonstellation verändert. Wird bspw. die Empathie eines Therapeuten vom Therapeuten selbst und dem Rehabilitanden identisch beurteilt, während das Urteil hinsichtlich der Verständlichkeit der Informationsgabe deutlich unterschiedlich ausfällt, spricht dies gegen die Homogenität der Itemgruppe: Gemäß der Grundannahme sollten beide Items möglichst eindeutige Indikatoren der Kommunikationsfähigkeit sein. Der eindeutige Schluss von den Items auf das Konstrukt Kommunikationsfähigkeit wird erschwert, wenn sich in den Items je nach Beurteilerperspektive andere Effekte abbilden.

Die in [Abb. 1] zugrunde liegenden Daten sowie eine tabellarische Ergebnisdarstellung sind im Anhang beigefügt.

Nutzung der Informationszerlegung einer Generalisierbarkeitsstudie zur Optimierung der Aussagekraft von Beurteilungen in einer Entscheidungsstudie[ 2]

Die in [Abb. 1] dargestellte Varianzzerlegung als Ergebnis einer Generalisierbarkeitsstudie (G-study) liefert einen differenzierten Einblick in die Grundarchitektur der Beurteilungsdaten. Hierbei muss berücksichtigt werden, dass sich die Betrachtungen auf einzelne Messwerte beziehen. In der diagnostischen Anwendung stellen einzelne Beurteilungswerte in der Regel jedoch nicht die tatsächlichen diagnostischen Zielgrößen bzw. Entscheidungsgrundlage dar.

In der Terminologie der Generalisierbarkeitstheorie werden die Fragen der Nutzung der Beurteilungsdaten in einer anschließenden Entscheidungsstudie (D-study) betrachtet. Diese zeigt auf, wie sich Aspekte der Datenauswertung und Änderungen am Erhebungsdesign auf die Informationsanteile und damit die Reliabilität der relevanten Informationskomponenten auswirken. Dadurch liefert sie eine Entscheidungsgrundlage für einen bestimmten Beurteilungsprozess in der Anwendungspraxis [1].

Möchte man den Varianzanteil und damit die Reliabilität der Therapeutenfacette in [Abb. 1] erhöhen, können prinzipiell 3 Grundansätze effektiv sein.

Reduktion des Anteils unerwünschter Varianzkomponenten: In Beispiel 1 ([Abb. 1]) gehen 15% der Varianzanteile auf die unterschiedlichen Perspektiven bzw. 5% auf die unterschiedlichen Schwierigkeiten der Items zurück. Werden (a) Selbst- und Fremdurteile so standardisiert, dass diese denselben Mittelwert besitzen, und (b) die Items so standardisiert, dass die Itemmittelwerte gleich sind, reduziert sich die Gesamtvarianz der Daten von 5,07 auf 5,07–0,75–0,25=4,07. Entsprechend steigt der Varianzanteil oder die Reliabilität der Therapeutenkomponente von 1,26/5,07=0,25 auf 1,26/4,07=0,31.
Erhöhung erwünschter Varianzkomponenten: Angenommen, in der Studie wurden Therapeuten untersucht, die eine ähnliche Kommunikationsfähigkeit im Umgang mit Rehabilitanden haben (z. B. aufgrund ähnlicher Ausbildung), während in der Anwendung von einer heterogeneren Fähigkeitsverteilung ausgegangen werden kann. Dann ließe sich der Effekt der Varianzerhöhung direkt auf Basis der statistischen Modellgrundlagen abschätzen.
Reduktion von Fehlervarianzanteilen und unerwünschter Varianzkomponenten durch Datenaggregation: Die Aggregation (Mittelwerts- oder Summenbildung) von Daten stellt in der Regel das effektivste technische Mittel zur Reliabilitätssteigerung dar. Im Beispiel wurde in der G-Studie die Information der Facette Iteminhalt itemspezifisch betrachtet. Bildet man jedoch den Mittelwert über die 3 Indikatoren der Kommunikationsfähigkeit, erhöht sich damit die Reliabilität aller anderen Varianzfacetten systematisch: Zum einen weil sowohl der Haupteffekt des Iteminhalts, als auch alle mit dem Iteminhalt verbundenen Interaktionseffekte verschwinden; als Haupteffekte verbleiben dann nur noch die Haupteffekte Therapeut und Beurteilerperspektive, als Interaktion verbleibt nur noch der Term Therapeut x Beurteilerperspektive. Die Summe der Haupt- und Interaktionseffekte reduziert sich auf 1,26+0,75 + 0,22=2,23. Wird der gemittelte Wert über die 3 Items zur Kommunikationsfähigkeit des Therapeuten als Beurteilungsergebnis gewertet, so ergibt sich für den Haupteffekt Therapeut ein Varianzanteil von 57% (=(1,26/2,23)*100%). Wird die Antwort auf ein einzelnes Item als Indikator für die Kommunikationsfähigkeit des Therapeuten gewertet, so ergibt sich für den Haupteffekt Therapeut ein Varianzanteil von 33% (=(1,26/3,8)*100%). Der Varianzanteil auf Einzelitemebene ist mit 33% insbesondere deswegen geringer als der Varianzanteil der über die Items gemittelten Antwort (57%) ausgeprägt, weil die Items unterschiedlich schwierig sind: Welcher Beurteilungswert resultiert, ist nur auf Ebene der Einzelitems von der Schwierigkeit des jeweiligen Items abhängig. Deswegen ist für die Interpretation eines Beurteilungsdatums auf Einzelitemebene die Itemschwierigkeit zu berücksichtigen bzw. als systematische Informationsquelle bei der Varianzzerlegung zu werten.

Zum anderen führt die Mittelung der Items zu einer systematischen Reduktion der zufälligen Fehleranteile. Generell kann davon ausgegangen werden, dass eine Verdoppelung der Anzahl der gemittelten Items eine Halbierung des Fehlervarianzanteils nach sich zieht [4].

Dieses Prinzip der Erhöhung der Reliabilität durch Datenaggregation gilt für alle untersuchten Facetten: Die Mittelung innerhalb der Facetten eines Designs, wie z. B. Items, Beurteiler, Messzeitpunkte oder Untersuchungssituationen führt zu einer systematischen Reliabilitätsverbesserung. Betrachtet man z. B. die Anzahl der Beurteiler, so gilt gemäß der Testverlängerungsformel nach Spearman und Brown:

m=Anzahl der Rater

Liegt die Reliabilität eines einzelnen Beurteilers (rel₁) bei 0,3, so kann erwartet werden, dass der Mittelwert von m=4 Beurteilern [(4 ∙ 0,3)/(1+3 ∙ 0,3)]=0,63 beträgt.

Die Rateranzahl, die erforderlich ist, einen Zielwert rel_Soll zu erreichen, kann wie folgt ermittelt werden:

Liegt die Reliabilität eines einzelnen Beurteilers bei rel₁=0,3 und wird eine Reliabilität von ,7 angestrebt, so sollte der Mittelwert von mindestens 6 Beurteilern gebildet werden, da m=[(0,7·(1−0,3))/(0,3.(1−0,7))]= 5,4.

Entscheidungsstudie im Beispiel 2 „Hygieneschulung in Rehabilitationskliniken“

Für die von 6 Reviewern beurteilte Hygienequalität habe sich für die Daten vor und nach der Schulung eine Gesamtvarianz von VAR_Ges = 240 ergeben. Hierbei ist darauf zu achten, dass auch die Varianz des Messzeitpunkts zur Gesamtvarianz beiträgt, obwohl diese ja explizit gewünscht ist: Die Hygienequalität soll nach der Schulung systematisch höher ausfallen als vor der Schulung. Diese messzeitpunktabhängigen Unterschiede dürfen jedoch nicht dazu führen, dass sich diese systematisch erzeugte und wünschenswerte Varianz reliabilitäts-mindernd auswirkt, wenn die Reliabilität der Beurteilung der Hygiene von Kliniken bestimmt werden soll. Im Rahmen der Entscheidungsstudie muss diese Varianz deswegen aus der Gesamtvarianz ausgeschlossen werden. Ist die Varianz für die Facette Messzeitpunkt gleich dem Wert 30, so ergäbe sich eine korrigierte Gesamtvarianz von 240 – 30 = 210. Der mit den Kliniken verbundene Varianzanteil liege bei VAR_Kliniken = 70. Dies entspricht einer korrigierten Reliabilitätsschätzung von rel_{Kliniken,korr} = 70 / 210 = 0,33. Um von einer reliablen Einschätzung der Hygienequalität der Kliniken ausgehen zu können, werde eine Reliabilität von 0,8 angestrebt. Dies kann erreicht werden, wenn jede Klinik von [(0,8∙(1-0,33) )/(0,33∙(1-0,8))]=8 unabhängigen Reviewern beurteilt wird und der Mittelwert der Reviewerurteile als Merkmalsschätzung verwendet wird.

Implikationen der Ergebnisse einer Generalisierbarkeitsstudie für die Inhalte von Beurteilertrainings

Die Entscheidungsstudie liefert also systematische Information, wie die Zuverlässigkeit durch Datenverwertungen oder Designvariationen verbessert werden kann. Dieser technische Zugang sollte aber wenn möglich stets durch ein systematisches Beurteilertraining ergänzt werden. Die gezielte Analyse von Problemen der Übereinstimmung von Beurteilern kann entscheidend dazu beitragen, die inhaltliche Aussagekraft der Beurteilungsdaten differenziert zu verstehen und Ursachen mangelnder Übereinstimmung zu beseitigen. Zu Beginn sollten die Teilnehmenden die Beurteilungsaufgabe durchführen. Im Rahmen des Trainings sollten die den Beurteilungen zugrunde liegenden Wahrnehmungseindrücke und Informationsverarbeitungsprozesse verbalisiert, identifiziert und vergleichend diskutiert werden. Es wird dabei eine Klärung und Vereinfachung der für die Beurteilung erforderlichen Informationsverarbeitungsprozesse angestrebt. Durch die Diskussion und den Austausch der Teilnehmenden soll das geteilte Verständnis der Beurteilungsaufgabe interaktiv gestärkt werden [5]. Zudem ist eine Angleichung des Wissens- und Informationshintergrundes zur angemessenen Ausführung der Beurteilungsaufgabe günstig. Typische Beurteilungsfehler (z. B. Konsistenz-, Erwartungs-, Reihenfolgeeffekte, Halo-Effekt, Pygmalioneffekt, Projektion, Emotionale Beteiligung, Logischer Fehler, Observer drift, Soziale Erwünschtheit, Tendenz zur Mitte / zu Extremwerten, Kontrastbildung, selektive Erinnerung; [12]) sollten auf der Grundlage von Beispielen in der Gruppe der Beurteiler geklärt und hinsichtlich ihrer potentiellen Einflüsse auf das individuelle Beurteilungsverhalten reflektiert werden. Der Erfolg des Trainings sollte an neuen Daten empirisch geprüft werden, bis eine vor dem Hintergrund des Untersuchungsinteresses zufriedenstellende Beurteilerübereinstimmung erreicht wurde. In [Tab. 5] sind für das Beispiel der Beurteilung der Hygienequalität in Rehabilitationskliniken wesentliche Aspekte von Beurteilertrainings in Bezug zu den im Rahmen der Generalisierbarkeitsstudie identifizierten Informationskomponenten exemplarisch aufgeführt.

Tab. 5 Interaktionseffekte des Iteminhalts, der Beurteilerperspektive und des beurteilten Therapeuten und ihre inhaltliche Bedeutung.
Effekt / Bedeutung	Verbesserungsmaßnahmen
Itemschwierigkeit: Unerheblich, wenn Items separat analysiert werden oder der Mittelwert über Items betrachtet wird.	Technisch: Mittelwerte der Items per Standardisierung gleich setzen Homogenisierung der Itemgruppe für jedes Konstrukt; Verwendung des Mittelwerts der Items Mit wachsender Anzahl homogener Items steigt die Reliabilität der gemittelten Iteminformation Vermeidung von Decken- und Bodeneffekten Beurteilertraining: --
Beurteiler: Beurteiler zeigen unterschiedliche Milde vs. Strenge. Unerheblich, wenn die Daten in Bezug auf das individuelle Antwortniveau des Beurteilers adjustiert betrachtet werden.	Technisch: Mittelwerte der Beurteiler per Standardisierung gleich setzen (adjustieren) Beurteilertraining: Rückmeldung des individuellen Antwortniveaus in Referenz zu den übrigen Beurteilern Diskussion und Vereinbarung geteilter Intensitätsindikatoren, ggf. Definition prototypischer Fälle mit niedriger, mittlerer und hoher Merkmalsausprägung Diskussion von Fällen, bei denen Milde- und Strengeeffekte besonders ausgeprägt sind Beispielverankerte, möglichst konkrete Bezeichnung der Ratingwerte
Beurteilte Objekte: Unterschiede sind erwünscht, da Objekte bzgl. der Merkmalsausprägung differenziert werden sollen.	Technisch: Verwendung einer heterogeneren Stichprobe von Objekten Beurteilertraining: --
Itemschwierigkeit x Beurteiler: Variiert die Schwierigkeit der Items zwischen den Beurteilern (z. B. männliche Beurteiler beurteilen die Empathie höher als weibliche), so werden die Iteminhalte von den Beurteilern unterschiedlich interpretiert.	Technisch: Elimination von Items, bei denen die Urteiler unterschiedliche Zustimmungstendenzen aufweisen Elimination einzelner Beurteiler, wenn die Interaktion auf untypische Urteiler zurückgeführt werden kann Aggregation von Items Beurteilertraining: Rückmeldung des individuellen itemspezifischen Antwortniveaus in Referenz zu den übrigen Beurteilern Konsensuelle Klärung der Merkmalsbedeutung: Diskussion und Vereinbarung geteilter itemspezifischer Intensitätsindikatoren; ggf. Definition prototypischer Fälle mit niedriger, mittlerer und hoher Merkmalsausprägung Diskussion „schwieriger“ Fälle, bei denen itemspezifische Abweichungen besonders ausgeprägt sind Beispielverankerte, möglichst konkrete Bezeichnung der Ratingwerte Untergliederung eines Merkmals in konkretere Teilaspekte Verwendung neutralerer, weniger beurteilersensitiver Items
Itemschwierigkeit x beurteiltes Objekt: Variiert die Itemschwierigkeit je nach beurteiltem Objekt (z. B. nur die Empathie wird bei Frauen höher eingeschätzt als bei Männern), so werden die Iteminhalte für unterschiedliche Objekte unterschiedlich interpretiert.	Technisch: Elimination von schwer zu beurteilenden Objekten Elimination von Items, bei denen die Urteiler objektspezifisch unterschiedliche Zustimmungstendenzen aufweisen Aggregation von Items Beurteilertraining: Rückmeldung des item- und objektspezifischen Antwortniveaus in Referenz zu den übrigen Beurteilern Konsensuelle Klärung der Merkmalsbedeutung: Diskussion und Vereinbarung geteilter objektunabhängiger und -spezifischer Aspekte des Itemverständnisses; ggf. Definition prototypischer Fälle mit niedriger, mittlerer und höher Merkmalsausprägung Diskussion von „schwierigen“ Fällen, bei denen itemspezifische Abweichungen von Objekten besonders ausgeprägt sind Beispielverankerte, möglichst konkrete Bezeichnung der Ratingwerte Untergliederung eines Merkmals in konkretere Teilaspekte Ersetzen von Items durch neutralere, weniger objektsensitive Items
Beurteiler x beurteiltes Objekt: Reagieren Beurteiler in spezifischer Weise auf bestimmte Objekte (z. B. männliche Urteiler bewerten im Vergleich zu weiblichen Urteilern Frauen anders als Männer), so ist die Fairness aufgrund objektspezifischer Auslegung der Beurteilungsaufgabe verletzt.	Technisch: Elimination von: „schwierigen“ Beurteilern oder Objekten Beurteilertraining Rückmeldung des objektspezifischen Antwortniveaus in Referenz zu den übrigen Beurteilern Konsensuelle Klärung der Merkmalsbedeutung: Diskussion und Vereinbarung geteilter objektunabhängiger Merkmalsaspekte; ggf. Definition prototypischer Fälle mit niedriger, mittlerer und hoher Merkmalsausprägung Diskussion von „schwierigen“ Fällen, bei denen beurteilerspezifische Aspekte besonders ausgeprägt sind Beispielverankerte, möglichst konkrete Bezeichnung der Ratingwerte Bewusstmachen von stereotypen Beurteilungen
Itemschwierigkeit x Beurteiler x beurteiltes Objekt	s. Maßnahmen für die Zweifachinteraktionen

Technische Umsetzung einer Generalisierbarkeitsstudie

In der bisherigen Darstellung wurde die grundlegende Modellvorstellung der Generalisierbarkeitstheorie skizziert. Dass die Generalisierbarkeitstheorie trotz dieser im Prinzip gut nachvollziehbaren Grundlogik des additiven Varianzzerlegungsmodells ([Abb. 1]) in der Praxis selten angewendet wird und auch in einführenden Lehrbüchern kaum Erwähnung findet, ist insbesondere dadurch begründet, dass die im Modell definierten Varianzkomponenten nicht direkt ermittelt werden können. Um Schätzungen der Varianzkomponenten in Form von g-Koeffizienten ermitteln zu können, müssen sich Anwender mit den statistischen Modellgrundlagen auseinandersetzen. Die Auswahl und Festlegung des Erhebungsdesigns erfordern ein klares Verständnis der realisierbaren Auswertungsstrategien [1] [13]. Die Varianzschätzungen basieren auf dem Modell der Varianzanalyse [14]: Die untersuchten Modellfacetten (z. B. Item, Beurteilungsperspektive, Messzeitpunkt, Beurteilungsobjekt) werden als varianzanalytische Faktoren (unabhängige Variablen) definiert, die die von den Beurteilern vergebenen Ratings als abhängige Variablen vorhersagen. Ob die interessierenden Varianzkomponenten erwartungstreu geschätzt werden können, hängt insbesondere davon ab, ob ein angemessenes Erhebungsdesign gewählt wurde. Deswegen ist es unabdingbar, die Analyseziele in der Phase der Studienkonzeption genau zu formulieren: Welche Informationsfacetten sind für die Beurteilung vor dem Hintergrund welcher Studienziele bedeutsam? Um ein Grundverständnis entsprechender Entscheidungen zur Planung, Durchführung und Auswertung einer Generalisierbarkeitsstudie zu ermöglichen, sollen die wichtigen Unterscheidungen gekreuzte vs. geschachtelte Designs sowie feste vs. zufällige Effekte kurz erläutert werden:

Gekreuzte vs. geschachtelte Designs: Liegt für jede mögliche Kombination von Facettenausprägungen zweier Facetten eine Beurteilung vor, so sind diese Facetten gekreuzt, ist dies nicht der Fall, sind die Facetten geschachtelt [1]. Beurteilen bspw. alle Beurteiler alle Objekte, so handelt es sich um ein gekreuztes Design. Gekreuzte Designs bieten grundsätzlich eine günstigere Basis für die Schätzung aller Varianzkomponenten. In der Praxis sind jedoch oftmals keine vollständig gekreuzten Designs realisierbar: Im einführenden Beispiel 1 zur Beurteilung der Kommunikationsfähigkeit von Therapeuten wird jeder Therapeut von sich selbst und einem anderen Rehabilitanden eingeschätzt. Hier ist also prinzipiell kein vollständiges Design möglich, da gemäß Fragestellung überhaupt keine Beurteilung aller Beurteilungsobjekte durch alle Beurteiler erfolgen kann. Zudem wäre es durchaus denkbar, dass jeder Therapeut sein Kommunikationsverhalten nicht gegenüber einem, sondern gegenüber mehreren Rehabilitanden einschätzt und entsprechend von mehreren Rehabilitanden beurteilt wird. Da mehrere Rehabilitanden denselben Therapeuten beurteilen, sind diese statistisch nicht mehr als unabhängig zu betrachten: Es handelt sich dann um ein geschachteltes bzw. genestetes Design. Im Beispiel 3 zum Beeinträchtigungsstatus von wiedereinzugliedernden Arbeitsnehmern würde ein gekreuztes Design vorliegen, wenn alle Arbeitnehmer durch dieselben 3 BGM-Mitarbeiter beurteilt würden. Findet die Datenerhebung hingegen in verschiedenen Betrieben statt und wird der Beeinträchtigungsstatus durch jeweils 3 betriebseigene BGM-Mitarbeiter eingeschätzt, so würde es sich um ein genestetes Design handeln: Jede Gruppe von Urteilern würde eine andere Gruppe von Arbeitnehmern beurteilen.

In genesteten Designs sind Interaktionseffekte in der Regel nicht begründet abschätzbar bzw. getrennt von den Haupteffekten zu bestimmen. Im Beispiel weiß man nicht, wie die BGM-Mitarbeiter eines Betriebs die Mitarbeiter des anderen Betriebs beurteilt hätten. Werden Mitarbeiter in Betrieb A grundsätzlich als weniger beeinträchtigt eingeschätzt als in Betrieb B, dann ist keine analytische Grundlage vorhanden, zu entscheiden, ob die Beurteiler in Betrieb A weniger streng sind oder die Arbeitnehmer tatsächlich weniger belastet sind. Entsprechend haben geschachtelte Designs eine geringere Aussagekraft als gekreuzte, da die Haupteffekte der geschachtelten Facetten und ihre Interaktionseffekte nicht gesondert betrachtet werden können [15].

Zufällige und feste Facetten: Die Ausprägungen einer Facette werden als zufällig (random) bezeichnet, wenn diese als Zufallsrepräsentanten einer größeren Gruppe (Population) betrachtet werden können. Das Ziel der Studie besteht dann nicht darin, zu bestimmen, wie zuverlässig die an der Studie tatsächlich teilnehmenden Urteiler sind, sondern wie zuverlässig die Population aller potentiellen Urteiler ist. Werden Reviewer der Klinikqualität aus einem Pool von Reviewern bestimmt und soll das Urteil der Reviewer als zuverlässiges Maß der Klinikqualität dienen, so sind die Reviewer als zufällige Facetten anzusehen. Würden alle Kliniken von denselben Urteilern beurteilt (gekreuztes Design) und ist lediglich das Urteil dieser Beurteilergruppe von Interesse, würde es sich um eine feste (fixed) Facettenausprägung handeln. Werden die Items zur Partizipativen Entscheidungsfindung, Empathischen Beziehungsgestaltung und Verständlichkeit der Informationsgabe als repräsentative Aspekte eines größeren Pools von Indikatoren des Konstrukts Kommunikationsfähigkeit betrachtet und soll ein Schluss auf die generelle Kommunikationsfähigkeit erfolgen, so handelt es sich ebenfalls um eine zufällige Facette. Kann hingegen angenommen werden, dass genau diese 3 Teilaspekte das Konstrukt angemessen und vollständig repräsentieren, so wären die Iteminhalte als fest zu definieren. Zwei Messzeitpunkte können als fest angesehen werden, wenn genau diese beiden Messzeitpunkte betrachtet werden. Dies wäre z. B. der Fall, wenn die Merkmalsausprägung vor einer Intervention mit der Merkmalsauprägung nach einer Intervention verglichen wird. Soll jedoch die Veränderung oder die Stabilität einer Merkmalausprägung im Zeitverlauf betrachtet werden und werden zu diesem Zwecke mehrere Messzeitpunkte ausgewählt, die einen Einblick in den unterliegenden allgemeinen zeitabhängigen Verlauf geben sollen, so sind die Messzeitpunkte als zufällig anzusehen.

Die Facettenausprägungen eines Zufallsfaktors sind prinzipiell durch andere Bedingungen, die die Facette valide repräsentieren, austauschbar. Feste Facettenausprägungen sind nur bzgl. ihrer konkreten Ausprägungen interpretierbar und sind nicht austauschbar. Die Definition als fest bzw. zufällig hat wichtige Implikationen dafür, für welche Haupt- und Interaktionseffekte solide Reliabilitätsschätzungen möglich sind bzw. dafür, wie die bestimmbaren Reliabilitätsschätzungen interpretiert werden dürfen. Damit eine G-Studie überhaupt durchgeführt werden kann, muss das Studiendesign mindestens eine zufällige Facette beinhalten [13].

Für die konkrete Festlegung sowohl des Untersuchungsdesigns als auch der Definition einer adäquaten statistischen Modellgleichung zur Modellierung der Beurteilungsdaten sind also pragmatische, statistische und interpretative Aspekte zu berücksichtigen. Insbesondere das Standardwerk von Brennan [1] liefert die Basis, um alle studienbezogenen Entscheidungen angemessen treffen zu können. Zur konkreten Anwendung in empirischen Studien können die Arbeiten von Hoyt [15], Trost und Bungard [16] sowie Wasserman, Levy und Loken [17] empfohlen werden.

Bezüglich der Stichprobengröße existiert bisher noch keine einheitliche Empfehlung. Smith [18] empfiehlt mindestens 800 Beobachtungen. Bei 3 Items und 2 Beurteilern entspräche dies einer Stichprobengröße von mindestens 134 Personen (3×2×134=804). Würde hingegen z. B. die Anzahl der Items auf 10 erhöht werden, wäre bereits eine Stichprobe von N=40 (10×2×40=800) ausreichend.

Für die statistische Datenanalyse stehen inzwischen sehr gute und anwenderfreundliche Softwaretools zur Verfügung, die insbesondere die g-Koeffizienten bestimmen und die Varianzkomponentenverteilungen grafisch, z. B. in Form von Venn-Diagrammen veranschaulichen. EduG (Swiss Society of Research in Education Working Group, [19]) oder GENOVA [20] sind frei verfügbare stand-alone Programme. Für die Standardsoftwarepakete SPSS oder SAS kann unter https://people.ok.ubc.ca/brioconn/gtheory/kostenfrei eine Syntax heruntergeladen werden.

Kernbotschaft

In rehabilitationswissenschaftlichen Anwendungsgebieten werden Beurteilungen häufig eingesetzt, um z. B. behandlungsrelevante Merkmalsausprägungen von Rehabilitanden oder Merkmale von Versorgungsstrukturen, -prozessen und -ergebnissen zu bestimmen. Solche Beurteilungen sollten die festzustellenden Merkmalsausprägungen möglichst genau und aussagekräftig repräsentieren. In der praktischen Anwendung muss jedoch berücksichtigt werden, dass die Messwerte systematisch von Merkmalen der Erhebungssituation überlagert sein können. Die Generalisierbarkeitstheorie bietet einen Ansatz, mittels dessen die Informationsquellen identifiziert werden können, die die Ausprägung der Beurteilungsdaten mitbestimmen und folglich für eine valide Dateninterpretation berücksichtigt werden müssen. Gelingt es für Beurteilungsdaten in der Rehabilitation, potentiell wichtige und verzerrende Einflussquellen zu identifizieren und Einflussquellen im Rahmen einer empirischen Generalisierbarkeitsstudie systematisch in ihrem Zusammenwirken zu untersuchen, so kann ein sehr differenziertes Bild des Beurteilungsprozesses und der Aussagekraft der Beurteilungsdaten ermittelt werden. Diese Informationen bilden die Basis, um Beurteilungsprozesse fundiert hinsichtlich Reliabilität und Validität der Befunde bestmöglich realisieren zu können.

References

Literatur
1 Brennan RL. Generalizability theory. New York, NY: Springer; 2001
2 Cronbach LJ, Rajaratnam N, Gleser GC. Theory of generalizability: A liberalization of reliability theory. Br J Math Stat Psychol 1963; 16: 137-163. doi:10.1111/j.2044-8317.1963.tb00206.x
3 Cone JD. The relevance of reliability and validity for behavioral assessment. Behav Ther 1977; 8: 411-426. doi:10.1016/S0005-7894(77)80077-4
4 Lienert GA, Raatz U. Testaufbau und Testanalyse. Weinheim: Beltz; 1994
5 Wirtz MA, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe; 2002
6 Wirtz MA. Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen. Rehabilitation 2004; 43: 384-389 doi:10.1055/s-2003-814935
7 Wirtz MA, Böcker M. Das Rasch-Modell – Eigenschaften und Nutzen für die diagnostische Praxis. Rehabilitation 2007; 46: 238-245 doi:10.1055/s-2007-971068
8 Schuler M, Jelitte M. Messen wir bei allen Personen das Gleiche? Zur Invarianz von Messungen und Response Shift in der Rehabilitation - Teil 1. Rehabilitation 2012; 51: 332-339 doi:10.1055/s-0031-1291313
9 Jelitte M, Schuler M. Messen wir immer das Gleiche? Zur Invarianz von Messungen und Response-Shift in der Rehabilitation – Teil 2. Rehabilitation 2012; 51: 415-423. doi:10.1055/s-0031-1295447
10 Gleser GC, Cronbach LJ, Rajaratnam N. Generalizability of Scores Influenced by Multiple Sources of Variance. Psychometrika 1965; 30: 395-418 doi:10.1007/BF02289531
11 Wirtz MA, Bengel J. Assessment in der Rehabilitation.In Hornke L, Amelang M, Kersting M, (Hrsg.). Enzyklopädie der Psychologie, Psychologische Diagnostik. Band 1 Göttingen: Hogrefe. 2011: 441–477
12 Greve W, Wentura D. Wissenschaftliche Beobachtung. Weinheim: Beltz; 1997
13 Shavelson RJ, Webb NM. Generalizability theory: A primer. Newbury Park. CA. Sage; 1991
14 Eid M, Gollwitzer M, Schmitt M. Statistik und Forschungsmethoden. Beltz; Weinheim: 2015
15 Hoyt WT. Rater bias in psychological research: When is it a problem and what can we do about it?. Psychol Methods 2000; 5: 64-86 doi:10.1037/1082-989X.5.1.64
16 Trost A, Bungard W. Die Interraterreliabilität von Ergebnissen in Mitarbeiterbefragungen. Z Arb Organ 2004; 48: 122-131 doi:10.1026/0932-4089.48.3.122
17 Wasserman RH, Levy KN, Loken E. Generalizability theory in psychotherapy research: The impact of multiple sources of variance on the dependability of psychotherapy process ratings. Psychoth Res 2009; 19: 397-408 doi:10.1080/10503300802579156
18 Smith PL. Sampling Errors of Variance Components in Small Sample Multifacet Generalizability Studies. J Educ Stat 1978; 3: 319-346 doi:10.3102/10769986003004319
19 Swiss Society for Research in Education Working Group. EDUG user guide. Neuchatel: IRDP 2006
20 Crick JE, Brennan RL. GENOVA: A generalized analysis of variance system [Computer software and manual]. Iowa City: University of Iowa; 1983

Figures

Abb. 1 Varianzzerlegung als Ergebnis einer Generalisierbarkeitsstudie.

Supplementary Material

Ergänzendes Material (PDF)