Einleitung
In einer Studie werde die Kommunikationsfähigkeit von Therapeuten im
Beratungsgespräch mit Rehabilitanden untersucht. Jeder Therapeut
führt mit mehreren Rehabilitanden jeweils 2 Konsultationen durch. Um das
Ausmaß der Kommunikationsfähigkeit der Therapeuten in
Beratungsgesprächen ermitteln zu können, wird für jede
Einzelkonsultation sowohl vom Therapeuten als auch vom Rehabilitanden die
Qualität der Kommunikation in Bezug auf 3 Indikatoren eingeschätzt:
Empathische Beziehungsgestaltung, Verständlichkeit der Informationsgabe
sowie Partizipative Entscheidungsfindung (Beispiel 1 ).
Wie kann nun begründet eine Aussage über die allgemeine
Kommunikationsfähigkeit der Therapeuten getroffen werden, obwohl sich jedes
erhobene Urteil auf eine spezifische Situation mit einem individuellen
Rehabilitanden, eine spezifische Beurteilerperspektive (Selbst- vs.
Fremdeinschätzung) und einen spezifischen Einzelindikator der
Kommunikationsfähigkeit bezieht? Beurteilt der Therapeut sein eigenes
Verhalten, so muss erwartet werden, dass sich ein anderer Wert ergibt, als wenn der
Rehabilitand ein Urteil angibt. Wird nach einem spezifischen Aspekt des
Kommunikationsverhaltens (z. B. Empathische Beziehungsgestaltung) gefragt,
werden sich andere Werte ergeben, als wenn die Ausprägung eines anderen
Kommunikationsindikators (z. B. Verständlichkeit der
Informationsgabe) erhoben wird. In Konsultationen mit verschiedenen Rehabilitanden
wird die Kommunikationsqualität desselben Therapeuten ebenfalls
variieren.
Solche Erhebungskonstellationen sind in der rehabilitationswissenschaftlichen
Forschungs- und Anwendungspraxis üblich: Durch Verwendung eines spezifischen
Erhebungsdesigns soll die Ausprägung wichtiger Merkmalsdimensionen
zuverlässig und aussagekräftig ermittelt werden. Es wird angestrebt,
einen allgemein gültigen Wert verlässlich zu schätzen,
obwohl die Messwerte nicht nur zufallsbedingt, sondern in Abhängigkeit von
den Erhebungsbedingungen systematisch variieren.
Beispiel 2 – Hygiene in Rehabilitationskliniken: An
Rehabilitationskliniken wird eine Hygieneschulung für die Mitarbeitenden
durchgeführt. Vor und nach der Schulung beurteilen jeweils 6 Reviewer
Hygieneindikatoren mittels einer Checkliste. Jeder Beurteilungswert ist somit
spezifisch für eine Klinik, einen Hygieneindikator, einen Reviewer und
einen Messzeitpunkt (vor vs. nach der Schulung).
Beispiel 3 – Beeinträchtigungsstatus wieder
einzugliedernder Arbeitnehmer: Der arbeitsbezogene
Beeinträchtigungsstatus wieder einzugliedernder Arbeitnehmer wird
eingeschätzt. Für 3 typische Arbeitssituationen wird beurteilt,
in welchem Maße eine Beeinträchtigung bzgl. der 3 Aspekte
Körperhaltung, Handlungskoordination und Handlungsschnelligkeit
vorliegt. 3 Mitarbeiter des Betrieblichen Gesundheitsmanagements (BGM)
schätzen die Indikatoren des Beeinträchtigungsstatus
unabhängig ein.
Diese 3 Beispielszenarien verdeutlichen stellvertretend, dass in der Rehabilitation
wichtige Entscheidungen aufgrund von Beurteilungen und Einschätzungen durch
z. B. Rehabilitanden, Behandler oder Peer-Reviewer getroffen werden. Damit
angemessene Entscheidungen getroffen werden können, müssen die
Zuverlässigkeit und die Validität solcher Beurteilungen, auf denen
die Entscheidungen gründen, sichergestellt werden. Hierzu ist ein
möglichst differenziertes Verständnis erforderlich, welche
Informationen sich in den Beurteilungsdaten widerspiegeln bzw. zu der
eingeschätzten Werteausprägung beitragen.
Die Struktur von Beurteilungsdaten
Die verlässliche Interpretation des Informationsgehalts von Messwerten
wird gemäß der Generalisierbarkeitstheorie [1 ]
[2 ] als Verallgemeinerungs- oder
Generalisierungsproblem aufgefasst: Die Generalisierbarkeitstheorie formuliert
ein analytisches Rahmenmodell für Beurteilungsdaten, das bedeutsame
Einflussgrößen oder Informationskomponenten trennt. Die Anteile
aller untersuchten Informationskomponenten an den Beurteilungswerten werden
statistisch geschätzt, sodass angegeben werden kann, in welchem
Maße die einzelnen Informationskomponenten zu den erhobenen
Beurteilungsdaten beitragen. Dies dient zum einen dazu, ein besseres
Verständnis dessen zu erlangen, wie Urteile zustandekommen und wie
deutlich sich die einzelnen Komponenten in den Daten widerspiegeln
(Generalisierbarkeitsaspekt). Zum anderen kann ermittelt werden, welche
Informationsaspekte im Sinne des jeweiligen Erhebungsinteresses fundiert
berücksichtigt und diagnostisch verwertet werden können
(Entscheidungsaspekt).
Die verschiedenen Gegebenheiten, die zur Unterschiedlichkeit der Messwerte
führen können, werden in der Generalisierbarkeitstheorie als
Facetten bezeichnet. In der rehabilitationswissenschaftlichen Diagnostik sind
typischerweise Beurteiler, Methode, Erhebungssituation, Iteminhalte,
Erhebungssetting sowie der Messgegenstand selbst, wichtige Facetten [3 ]. Die möglichen Werte einer Facette
stellen Bedingungen oder Facettenausprägungen dar [1 ]. Mögliche Facettenausprägungen
für die 3 Anwendungsbeispiele sind in [Tab.
1 ] dargestellt.
Tab. 1 Facetten und Facettenausprägungen in den
Anwendungsbeispielen.
Beispiel 1
Beispiel 2
Beispiel 3
Facetten der Messung
Beurteiler
6 Reviewer
3 BGM-Mitarbeiter
Methode
Fragebogen
Qualitätscheckliste
Beobachtungsbogen
Erhebungssituation
Im Anschluss an ein Beratungsgespräch
Vor und nach einer Hygieneschulung der
Belegschaft
Bei der Ausführung von Arbeitstätigkeiten
Iteminhalte
Information
Empathie
Partizipation
Körperhaltung
Handlungskoordination
Handlungsschnelligkeit
Setting
Konsultation
Klinik
Arbeitsplatz
Facetten der Differenzierung
Messgegenstand
Kommunikationsfähigkeit der Therapeuten
Hygienequalität der Kliniken
Beeinträchtigung des Arbeitnehmers
Im ersten Beispiel soll die Kommunikationsfähigkeit eingeschätzt
werden. Für die Validität der Beurteilungen ist es wichtig, dass
die Kommunikationsfähigkeit der Therapeuten die Messergebnisse
wesentlich determiniert. Die Beurteiler, die Methode, die Erhebungssituation,
die Iteminhalte und das Erhebungssetting charakterisieren hingegen konkrete
Erhebungsbedingungen. Die Erhebungsbedingungen müssen so gewählt
werden, dass diese die Validität der Schätzung der
Kommunikationsfähigkeit möglichst nicht beeinträchtigen.
Systematische Effekte der Erhebungsbedingungen stellen im Sinne der
Generalisierbarkeitstheorie Stör- oder Fehlerquellen dar. Die
untersuchten Objekte (hier: Therapeuten) dürfen aufgrund ihrer
unterschiedlichen Kommunikationsfähigkeit einen großen Beitrag
zur Varianz leisten, denn je variabler die Objekte hinsichtlich des untersuchten
Merkmals sind, desto besser unterscheidbar sind die Objekte, desto höher
ist der Anteil interessierender Merkmalsvarianz und desto reliabler erfolgt die
Beurteilung des einzuschätzenden Zielmerkmals im Allgemeinen. Anhand der
Urteile sollen Objekte zuverlässig voneinander unterschieden werden: Je
unterschiedlicher diese sind und je geringer der überlagernde Effekt
störender Erhebungsmerkmale ist bzw. je fehlerfreier die
Einschätzung erfolgt, desto besser [1 ].
Die Generalisierbarkeitstheorie kann als Erweiterung der Klassischen Testtheorie
angesehen werden. Die Klassische Testtheorie nimmt an, dass sich eine
Beurteilung als Summe der wahren Merkmalsausprägung (z. B. in
Beispiel 1: wahre Kommunikationsfähigkeit des Therapeuten) und einer
zufälligen Messfehlerkomponente ergibt (für Fragebogendaten:
[4 ]; für Beurteilungsdaten: [5 ])[1 ]. Die
Generalisierbarkeitstheorie beleuchtet Teilinformationen (z. B.
Beurteilerperspektive, Iteminhalte), die bei Anwendung der Klassischen
Testtheorie als Teil der Fehlerkomponente aufgefasst würden, genauer.
Werden also durch die Generalisierbarkeitstheorie weitere systematische
Informationsquellen identifiziert, bedeutet dies, dass die Annahmen der
Klassischen Testtheorie nur ein vereinfachendes, bestenfalls
angenähertes Modell der Dateninformation zugrunde legen: Systematische
Informationen, die sich neben den untersuchten Merkmalsinformationen in den
Daten widerspiegeln, „verschwinden“ in der Messfehlerkomponente.
Dies geht mit Einschränkungen der Validität der
Dateninterpretation einher. Die Generalisierbarkeitstheorie verbessert die
Möglichkeiten einer validen Dateninterpretation, da ein
differenzierteres Modell des Datengehalts zugrunde liegt. Die bei Anwendung der
Klassischen Testtheorie „vergessene“ –
überspitzt ausgedrückt: „verleugnete“ –
Zusatzinformation wird damit zu diagnostisch erkennbarer oder verwertbarer
Information.
Grundlegendes Prinzip der Generalisierbarkeitstheorie: Beurteilungswerte als
Komposition überlagernder Effekte
[Tab. 2 ] zeigt vereinfacht eine Datenverteilung
für Beispiel 1 zur Einschätzung der
Kommunikationsfähigkeit von Therapeuten in Beratungsgesprächen:
Die Kommunikationsfähigkeit dreier Therapeuten sei anhand der Items
„Partizipative Entscheidungsfindung“, „Empathische
Beziehungsgestaltung“ und „Verständlichkeit der
Informationsgabe“ von den Therapeuten selbst und den beratenen
Rehabilitanden eingeschätzt worden. Die Einschätzung erfolgte
mittels einer Ratingskala, deren Werte als intervallskaliert angenommen werden.
Hohe Werte spiegeln eine positive Merkmalsausprägung wider.
Tab. 2 Selbst- und Fremdurteile der
Kommunikationsfähigkeit von Therapeuten in Beispiel 1,
beurteilt mittels 3 Items zu „Partizipative
Entscheidungsfindung“, „Empathische
Beziehungsgestaltung“ und „Verständlichkeit
der Informationsgabe“. Es handelt sich um fiktive Werte, die
die im Text erläuterten Effekte fehlerfrei widerspiegeln.
Δ=Abweichung vom Allgemeinen Mittelwert 20.
Im Durchschnitt wurde für die Kommunikationsfähigkeit ein
Messwert von 20 vergeben. Ziel der Generalisierbarkeitstheorie ist es nun zu
modellieren, welche Einzelkomponenten dazu beitragen, dass und in welchem
Maße, einzelne erhobene Beurteilungswerte von diesem allgemeinen
Mittelwert abweichen [1 ]. Das Untersuchungsdesign
wurde so gewählt, dass 3 potentielle Informationsquellen systematisch
analysiert werden können. Denn jeder gemessene Wert gilt für
einen bestimmten Therapeuten (Zeilen),
einen spezifischen Iteminhalt (Partizipative Entscheidungsfindung,
Empathische Beziehungsgestaltung, Verständlichkeit der
Informationsgabe; Hauptspalten) sowie
eine spezifische Beurteilungsperspektive (Selbst- und Fremdbeurteilung;
Unterspalten).
Die Ausprägung jedes Messwerts wurde so gewählt, dass sich die
Haupteffekte des Iteminhalts, der Beurteilerperspektive und der beurteilten
Therapeuten eindeutig und fehlerfrei abbilden. [Tab.
3 ] gibt die Effekte als Abweichung (Δ) vom allgemeinen
Mittelwert und deren inhaltliche Bedeutung an.
Tab. 3 Haupteffekte des Iteminhalts, der
Beurteilerperspektive und des beurteilten Therapeuten in Beispiel
1.
MW
Δ
Beispiel für die Bedeutung der Haupteffekte
Gesamt
20
0
Allgemeiner Mittelwert / Grundniveau der
Messwerte
Haupteffekte
Itemschwierigkeit (I)
Partizipative Entscheidungsfindung
17
−3
Partizipation : Partizipation wird am schlechtesten
beurteilt. Die Angaben liegen 3 Einheiten unter dem
Grundniveau.
Empathische Beziehungsgestaltung
20
0
Empathie : Empathie wird durchschnittlich bewertet.
Die Angaben entsprechen dem Grundniveau.
Verständlichkeit der Informationsgabe
23
+3
Information : Information wird am besten bewertet. Die
Angaben liegen 3 Einheiten über dem allgemeinen
Mittelwert.
Beurteiler-perspektive (P)
Selbst
22
+2
Therapeutenperspektive : Die Therapeutenurteile fallen
überdurchschnittlich aus. Die Angaben liegen 2
Einheiten über dem Grundniveau.
Fremd
18
−2
Rehabilitandenperspektive: Die Rehabilitandenurteile
fallen unterdurchschnittlich aus. Die Angaben liegen 2
Einheiten unter dem Grundniveau.
Beurteilter Therapeut (T)
Therapeut 1
17
−3
Therapeut 1: Therapeut 1 wird unterdurchschnittlich
bewertet. Die Angaben liegen 3 Einheiten unter dem
Grundniveau.
Therapeut 2
20
0
Haupteffekt von Therapeut 2: Therapeut 2 wird
durchschnittlich bewertet. Die Angaben entsprechen dem
Grundniveau.
Therapeut 3
23
+3
Haupteffekt von Therapeut 3 : Therapeut 3 wird
überdurchschnittlich bewertet. Die Angaben liegen 3
Einheiten über dem Grundniveau.
Folgende Komponenten sind somit für die Ausprägung der Messwerte
in [Tab. 2 ] verantwortlich: Zunächst
werden die Messwerte von dem allgemeinen Grundniveau der
Merkmalsausprägungen (MW=20) determiniert. Zusätzlich
besitzt jedes Item eine bestimmte Schwierigkeit, d. h. Items werden in
unterschiedlichem Maße als zutreffend beurteilt. Außerdem
können Beurteiler unterschiedlich streng oder milde urteilen. Je nach
Beurteilerperspektive ergeben sich somit höhere oder niedrigere Werte.
Zuletzt unterscheiden sich die beurteilten Therapeuten hinsichtlich ihrer
Fähigkeit, mit den Rehabilitanden zu kommunizieren.
Zur grundlegenden Veranschaulichung wurden die Daten in [Tab. 2 ] so gewählt, dass sich die Messwerte komplett durch
die Haupteffekte der 3 untersuchten Faktoren Iteminhalt, Beurteilerperspektive
und beurteilter Therapeut vorhersagen lassen. Neben diesen Haupteffekten
können aber zudem Wechselwirkungen bzw. Interaktionseffekte der Faktoren
auftreten. [Tab. 4 ] verdeutlicht die Bedeutung
der möglichen Interaktionseffekte für das
Anwendungsbeispiel.
Tab. 4 Interaktionseffekte des Iteminhalts, der
Beurteilerperspektive und des beurteilten Therapeuten und ihre
inhaltliche Bedeutung für Beispiel 1.
Interaktionseffekt
Bedeutung
Beispiel
Zweifach-Interaktionen
Itemschwierigkeit x Beurteilerperspektive (I x P)
Für die Beurteilerperspektive ergeben sich je nach
erfragtem Iteminhalt spezifische Effekte.
Das Selbsturteil der Therapeuten ist nur für Empathie
unerwartet positiv (z. B. empathiespezifischer
Self-serving bias).
Itemschwierigkeit x beurteilter Therapeut (I x T)
Für die beurteilten Therapeuten ergeben sich je nach
Iteminhalt spezifische Effekte
(Differential-Item-Functioning; [7 ]).
Nur für Therapeut 1 fällt das Urteil
für Empathie unerwartet negativ aus. Obwohl er gut
informiert und den Rehabilitanden mit einbezieht, wird die
Empathie als niedrig bewertet. Bei den anderen Therapeuten
tritt ein ähnlicher Effekt nicht auf.
Beurteilerperspektive x beurteilter Therapeut (P x T)
Je nach Beurteilerperspektive ergeben sich für die
beurteilten Therapeuten spezifische Effekte.
Nur für Therapeut 3 tritt kein Self-serving bias auf.
Für diesen Therapeuten fallen Selbst- und
Fremdeinschätzung gleich aus.
Dreifach-Interaktion
Itemschwierigkeit x Beurteilerperspektive x beurteilter
Therapeut (I x P x T)
Je nach Beurteilerperspektive ergeben sich je nach Item
für die beurteilten Therapeuten spezifische
Effekte.
Nur für Therapeut 2 tritt kein Self-serving bias
für die Items Informationsgabe und Partizipation
auf.
Die Generalisierbarkeitstheorie nimmt an, dass sich einzelne Messwerte durch
die Summe der Haupteffekte und der Interaktionseffekte (Wechselwirkungen)
der untersuchten Einflussfaktoren ergeben. Zudem wird jeder Messwert noch
durch einen additiv überlagernden Zufallsfehler mitbestimmt.
Haupt- und Interaktionseffekte im Beispiel 2
„Hygienequalität von
Rehabilitationskliniken“
Bei Einschätzung der Hygienequalität können die
Reviewer generell unterschiedlich milde oder streng in ihrer Beurteilung
sein (Haupteffekt Reviewer), die mittels Items erfragten Hygienekriterien
können unterschiedlich gut erfüllt sein (Haupteffekt Items)
und nach der Intervention können die Werte systematisch
höher ausgeprägt sein, als vor der Intervention (Haupteffekt
Messzeitpunkt). Ändern sich nur einige Hygieneindikatoren zwischen
den beiden Beurteilungszeitpunkten, während die übrigen
Indikatoren unverändert bleiben (Differenzial Item Functioning [7 ]), so entspräche dies einem
Interaktionseffekt von Iteminhalten und Messzeitpunkten [8 ]
[9 ]. Würden nur 2 der 6 Reviewer die
Hygieneindikatoren zum zweiten Messzeitpunkt positiver bewerten als zum
ersten Messzeitpunkt, so würde sich dies in einem Interaktionseffekt
von Reviewer und Messzeitpunkt widerspiegeln. Bewerten verschiedene Reviewer
unterschiedliche Hygieneindikatoren als qualitativ gut vs. defizitär
erfüllt (z. B. Reviewer A beurteilt die Praxis
Händedesinfektion als sehr positiv und die Hygiene des
Behandlungsmaterials als weniger gut, während Reviewer B beides
konträr einschätzt), so würden die Facetten Reviewer
und Iteminhalt interagieren. Beurteilen 2 der 6 Reviewer lediglich einige
Hygieneindikatoren zum zweiten Messzeitpunkt positiver als zum ersten
Messzeitpunkt, so würden Reviewer, Iteminhalt und Messzeitpunkt
dreifach interagieren: Je nach Reviewer würden dann für
verschiedene Hygieneaspekte unterschiedliche Änderungen erkennbar
werden.
Varianzen als Maße der Unterschiedlichkeit von Messwerten,
g-Koeffizienten als Maße der Zuverlässigkeit von
Messwerten
Die beispielhaften Daten in [Tab. 2 ] stellen eine
empirische Situation natürlich nur vereinfacht und besonders plakativ
dar. Hier wurde zum Zwecke der anschaulichen Nachvollziehbarkeit vereinfachend
davon ausgegangen, dass für alle Messwerte alle Effekte eindeutig und
fehlerfrei erkennbar sind. In der empirischen Anwendung werden Messwerte jedoch
durch zufällige Fehlerkomponenten überlagert oder
„verrauscht“. Werden die Beurteilungsergebnisse durch
Zufallsfehler überlagert, können die Messwerte nicht einfach als
reine Komposition der unterliegenden Effekte aufgefasst werden. Stattdessen wird
die Unterschiedlichkeit der Messwerte über Varianzmaße
abgebildet. Jeder Haupt- und Interaktionseffekt wird auf Basis des
Ausmaßes, in dem dieser zur Gesamtvariabilität der Messwerte
beiträgt, analysiert [1 ]
[10 ]. Existiert z. B. ein Haupteffekt der
Beurteilerperspektive, so unterscheiden sich Werte, die auf Basis von Selbst-
vs. Fremdeinschätzung erhoben wurden, grundsätzlich deutlich.
Die Beurteilerperspektive erklärt dann einen substantiellen Teil der
Unterschiede bzw. der Varianz der erhobenen Beurteilungsdaten.
Eine angemessene Darstellung der statistischen Hintergründe würde
diese Einführung deutlich sprengen. Das Prinzip der Datenanalyse kann
aber – ohne Rückgriff auf Formeln – wie folgt skizziert
werden:
Bestimmung der Gesamtvarianz der Messwerte (VARGes ): Die
generelle Unterschiedlichkeit bzw. Variabilität der erhobenen
Daten wird durch das statistische Maß der Gesamtvarianz
repräsentiert.
Zerlegung der Varianz in additive Komponenten: Für jeden
potentiellen Haupteffekt (im Beispiel 1: Iteminhalt,
Beurteilerperspektive, beurteilter Therapeut) und jeden potentiellen
Interaktionseffekt ([Tab. 4 ]) wird
bestimmt, wie stark die Beurteilungsdaten zwischen den
Facettenausprägungen der jeweils betrachteten Facette (bei
Haupteffekten) oder den Kombinationen von Facettenausprägungen
(bei Interaktionseffekten) variieren. VARIteminhalt ist dann
z. B. ein Maß der Variabilität der erhobenen
Daten, die mit den Iteminhalten korrespondieren (variierende
Itemschwierigkeiten). Unterschiede in den Beurteilungsperspektiven
werden z. B. durch VARBeurteilungsperspektive
(Variabilität zwischen Selbst- und Fremdurteilen)
repräsentiert.
Gemäß dem Grundmodell der Generalisierbarkeitstheorie
kann die Gesamtvariabilität VARGes additiv in
Varianzanteile, die auf Haupt- und Interaktionseffekte sowie
Fehlereffekte zurückzuführen sind, zerlegt werden. Der
Anteil einer Varianzkomponente an der Gesamtvarianz entspricht der
Reliabilität der entsprechenden Varianzkomponente:
Die empirischen Schätzungen dieser Varianzanteile werden als
Generalisierbarkeitskoeffizienten bzw. g-Koeffizienten bezeichnet.
[Abb. 1 ] zeigt eine entsprechende
Ergebnisdarstellung. Neben der unsystematischen Fehlervarianz (Varianzanteil:
25%), ist die Variabilität der Messwerte vor allem auf folgende
Komponenten zurückzuführen:
Abb. 1 Varianzzerlegung als Ergebnis einer
Generalisierbarkeitsstudie.
Unterschiedliche Fähigkeiten der Therapeuten:
Varianzanteil=25%
Unterschiede in der Selbst- vs. Fremdbeurteilung:
Varianzanteil=15%
Interaktion von Beurteilungsperspektive und Item (hier: nur für
Informationsgabe unterscheiden sich Selbst- und Fremdperspektive nicht):
Varianzanteil=16%
Interaktion von Iteminhalt und Therapeut (hier: für die
Therapeuten 4, 5 und 6 sind die Empathiewerte unerwartet niedrig
ausgeprägt): Varianzanteil=10%
Dass der Varianzanteil, der mit den unterschiedlichen Fähigkeiten der
Therapeuten einhergeht, mit 25% vergleichsweise hoch ausfällt,
ist im Sinne der Fragestellung wünschenswert. Die Beurteilungsdaten
sollen Aufschlüsse über die Kommunikationsfähigkeit der
Therapeuten liefern. Je höher der Varianzanteil der Facette Therapeut
ist, desto eindeutiger kann von den Daten auf den betreffenden Therapeuten
geschlossen werden. Die Reliabilität des Schlusses von einem bestimmten
Datenwert auf die Person des Therapeuten ist mit 0,25 jedoch unzureichend, denn
im Umkehrschluss sind 75% der Datenvarianz nicht mit der Facette
Therapeut verbunden. Erst bei einem Reliabilitätswert ab 0,7
(d. h. 70% systematische Varianz und 30% Fehlervarianz)
wäre nach den üblichen diagnostischen Standards der Schluss von
den Daten auf die Person des Therapeuten hinreichend zuverlässig [11 ].
Der hohe Varianzanteil der Interaktion von Beurteilerperspektive und Iteminhalt
(16%) ist hingegen als ungünstig anzusehen, wenn die valide
Erfassung der Kommunikationsfähigkeit angestrebt wird. Wenn das Selbst-
und Fremdurteil je nach erhobenem Indikator in spezifischer Weise divergiert, so
deutet dies darauf hin, dass sich die inhaltliche Bedeutung des Urteils je nach
Erhebungskonstellation verändert. Wird bspw. die Empathie eines
Therapeuten vom Therapeuten selbst und dem Rehabilitanden identisch beurteilt,
während das Urteil hinsichtlich der Verständlichkeit der
Informationsgabe deutlich unterschiedlich ausfällt, spricht dies gegen
die Homogenität der Itemgruppe: Gemäß der Grundannahme
sollten beide Items möglichst eindeutige Indikatoren der
Kommunikationsfähigkeit sein. Der eindeutige Schluss von den Items auf
das Konstrukt Kommunikationsfähigkeit wird erschwert, wenn sich in den
Items je nach Beurteilerperspektive andere Effekte abbilden.
Die in [Abb. 1 ] zugrunde liegenden Daten sowie
eine tabellarische Ergebnisdarstellung sind im Anhang beigefügt.
Nutzung der Informationszerlegung einer Generalisierbarkeitsstudie zur
Optimierung der Aussagekraft von Beurteilungen in einer Entscheidungsstudie[ 2 ]
Die in [Abb. 1 ] dargestellte Varianzzerlegung als
Ergebnis einer Generalisierbarkeitsstudie (G-study) liefert einen
differenzierten Einblick in die Grundarchitektur der Beurteilungsdaten. Hierbei
muss berücksichtigt werden, dass sich die Betrachtungen auf einzelne
Messwerte beziehen. In der diagnostischen Anwendung stellen einzelne
Beurteilungswerte in der Regel jedoch nicht die tatsächlichen
diagnostischen Zielgrößen bzw. Entscheidungsgrundlage dar.
In der Terminologie der Generalisierbarkeitstheorie werden die Fragen der Nutzung
der Beurteilungsdaten in einer anschließenden Entscheidungsstudie
(D-study) betrachtet. Diese zeigt auf, wie sich Aspekte der Datenauswertung und
Änderungen am Erhebungsdesign auf die Informationsanteile und damit die
Reliabilität der relevanten Informationskomponenten auswirken. Dadurch
liefert sie eine Entscheidungsgrundlage für einen bestimmten
Beurteilungsprozess in der Anwendungspraxis [1 ].
Möchte man den Varianzanteil und damit die Reliabilität der
Therapeutenfacette in [Abb. 1 ] erhöhen,
können prinzipiell 3 Grundansätze effektiv sein.
Reduktion des Anteils unerwünschter Varianzkomponenten: In
Beispiel 1 ([Abb. 1 ]) gehen 15%
der Varianzanteile auf die unterschiedlichen Perspektiven bzw.
5% auf die unterschiedlichen Schwierigkeiten der Items
zurück. Werden (a) Selbst- und Fremdurteile so standardisiert,
dass diese denselben Mittelwert besitzen, und (b) die Items so
standardisiert, dass die Itemmittelwerte gleich sind, reduziert sich die
Gesamtvarianz der Daten von 5,07 auf
5,07–0,75–0,25=4,07. Entsprechend steigt der
Varianzanteil oder die Reliabilität der Therapeutenkomponente
von 1,26/5,07=0,25 auf
1,26/4,07=0,31.
Erhöhung erwünschter Varianzkomponenten: Angenommen, in
der Studie wurden Therapeuten untersucht, die eine ähnliche
Kommunikationsfähigkeit im Umgang mit Rehabilitanden haben
(z. B. aufgrund ähnlicher Ausbildung), während
in der Anwendung von einer heterogeneren Fähigkeitsverteilung
ausgegangen werden kann. Dann ließe sich der Effekt der
Varianzerhöhung direkt auf Basis der statistischen
Modellgrundlagen abschätzen.
Reduktion von Fehlervarianzanteilen und unerwünschter
Varianzkomponenten durch Datenaggregation: Die Aggregation (Mittelwerts-
oder Summenbildung) von Daten stellt in der Regel das effektivste
technische Mittel zur Reliabilitätssteigerung dar. Im Beispiel
wurde in der G-Studie die Information der Facette Iteminhalt
itemspezifisch betrachtet. Bildet man jedoch den Mittelwert über
die 3 Indikatoren der Kommunikationsfähigkeit, erhöht
sich damit die Reliabilität aller anderen Varianzfacetten
systematisch: Zum einen weil sowohl der Haupteffekt des Iteminhalts, als
auch alle mit dem Iteminhalt verbundenen Interaktionseffekte
verschwinden; als Haupteffekte verbleiben dann nur noch die Haupteffekte
Therapeut und Beurteilerperspektive, als Interaktion verbleibt nur noch
der Term Therapeut x Beurteilerperspektive. Die Summe der Haupt- und
Interaktionseffekte reduziert sich auf
1,26+0,75 + 0,22=2,23. Wird der
gemittelte Wert über die 3 Items zur
Kommunikationsfähigkeit des Therapeuten als Beurteilungsergebnis
gewertet, so ergibt sich für den Haupteffekt Therapeut ein
Varianzanteil von 57%
(=(1,26/2,23)*100%). Wird die Antwort
auf ein einzelnes Item als Indikator für die
Kommunikationsfähigkeit des Therapeuten gewertet, so ergibt sich
für den Haupteffekt Therapeut ein Varianzanteil von 33%
(=(1,26/3,8)*100%). Der Varianzanteil
auf Einzelitemebene ist mit 33% insbesondere deswegen geringer
als der Varianzanteil der über die Items gemittelten Antwort
(57%) ausgeprägt, weil die Items unterschiedlich
schwierig sind: Welcher Beurteilungswert resultiert, ist nur auf Ebene
der Einzelitems von der Schwierigkeit des jeweiligen Items
abhängig. Deswegen ist für die Interpretation eines
Beurteilungsdatums auf Einzelitemebene die Itemschwierigkeit zu
berücksichtigen bzw. als systematische Informationsquelle bei
der Varianzzerlegung zu werten.
Zum anderen führt die Mittelung der Items zu einer systematischen
Reduktion der zufälligen Fehleranteile. Generell kann davon ausgegangen
werden, dass eine Verdoppelung der Anzahl der gemittelten Items eine Halbierung
des Fehlervarianzanteils nach sich zieht [4 ].
Dieses Prinzip der Erhöhung der Reliabilität durch
Datenaggregation gilt für alle untersuchten Facetten: Die Mittelung
innerhalb der Facetten eines Designs, wie z. B. Items, Beurteiler,
Messzeitpunkte oder Untersuchungssituationen führt zu einer
systematischen Reliabilitätsverbesserung. Betrachtet man z. B.
die Anzahl der Beurteiler, so gilt gemäß der
Testverlängerungsformel nach Spearman und Brown:
m=Anzahl der Rater
Liegt die Reliabilität eines einzelnen Beurteilers (rel1 ) bei
0,3, so kann erwartet werden, dass der Mittelwert von m=4 Beurteilern
[(4 ∙ 0,3)/(1+3 ∙ 0,3)]=0,63
beträgt.
Die Rateranzahl, die erforderlich ist, einen Zielwert relSoll zu
erreichen, kann wie folgt ermittelt werden:
Liegt die Reliabilität eines einzelnen Beurteilers bei
rel1 =0,3 und wird eine Reliabilität von ,7
angestrebt, so sollte der Mittelwert von mindestens 6 Beurteilern gebildet
werden, da
m=[(0,7·(1−0,3))/(0,3.(1−0,7))]=
5,4.
Entscheidungsstudie im Beispiel 2 „Hygieneschulung in
Rehabilitationskliniken“
Für die von 6 Reviewern beurteilte Hygienequalität habe sich
für die Daten vor und nach der Schulung eine Gesamtvarianz von
VARGes = 240 ergeben. Hierbei ist darauf zu achten,
dass auch die Varianz des Messzeitpunkts zur Gesamtvarianz beiträgt,
obwohl diese ja explizit gewünscht ist: Die Hygienequalität
soll nach der Schulung systematisch höher ausfallen als vor der
Schulung. Diese messzeitpunktabhängigen Unterschiede dürfen
jedoch nicht dazu führen, dass sich diese systematisch erzeugte und
wünschenswerte Varianz reliabilitäts-mindernd auswirkt, wenn
die Reliabilität der Beurteilung der Hygiene von Kliniken bestimmt
werden soll. Im Rahmen der Entscheidungsstudie muss diese Varianz deswegen
aus der Gesamtvarianz ausgeschlossen werden. Ist die Varianz für die
Facette Messzeitpunkt gleich dem Wert 30, so ergäbe sich eine
korrigierte Gesamtvarianz von 240 – 30 = 210. Der mit den
Kliniken verbundene Varianzanteil liege bei VARKliniken =
70. Dies entspricht einer korrigierten
Reliabilitätsschätzung von relKliniken,korr
= 70 / 210 = 0,33. Um von einer reliablen
Einschätzung der Hygienequalität der Kliniken ausgehen zu
können, werde eine Reliabilität von 0,8 angestrebt. Dies
kann erreicht werden, wenn jede Klinik von [(0,8∙(1-0,33)
)/(0,33∙(1-0,8))]=8 unabhängigen Reviewern
beurteilt wird und der Mittelwert der Reviewerurteile als
Merkmalsschätzung verwendet wird.
Implikationen der Ergebnisse einer Generalisierbarkeitsstudie für die
Inhalte von Beurteilertrainings
Die Entscheidungsstudie liefert also systematische Information, wie die
Zuverlässigkeit durch Datenverwertungen oder Designvariationen
verbessert werden kann. Dieser technische Zugang sollte aber wenn
möglich stets durch ein systematisches Beurteilertraining
ergänzt werden. Die gezielte Analyse von Problemen der
Übereinstimmung von Beurteilern kann entscheidend dazu beitragen, die
inhaltliche Aussagekraft der Beurteilungsdaten differenziert zu verstehen und
Ursachen mangelnder Übereinstimmung zu beseitigen. Zu Beginn sollten die
Teilnehmenden die Beurteilungsaufgabe durchführen. Im Rahmen des
Trainings sollten die den Beurteilungen zugrunde liegenden
Wahrnehmungseindrücke und Informationsverarbeitungsprozesse
verbalisiert, identifiziert und vergleichend diskutiert werden. Es wird dabei
eine Klärung und Vereinfachung der für die Beurteilung
erforderlichen Informationsverarbeitungsprozesse angestrebt. Durch die
Diskussion und den Austausch der Teilnehmenden soll das geteilte
Verständnis der Beurteilungsaufgabe interaktiv gestärkt werden
[5 ]. Zudem ist eine Angleichung des Wissens-
und Informationshintergrundes zur angemessenen Ausführung der
Beurteilungsaufgabe günstig. Typische Beurteilungsfehler (z. B.
Konsistenz-, Erwartungs-, Reihenfolgeeffekte, Halo-Effekt, Pygmalioneffekt,
Projektion, Emotionale Beteiligung, Logischer Fehler, Observer drift, Soziale
Erwünschtheit, Tendenz zur Mitte / zu Extremwerten,
Kontrastbildung, selektive Erinnerung; [12 ])
sollten auf der Grundlage von Beispielen in der Gruppe der Beurteiler
geklärt und hinsichtlich ihrer potentiellen Einflüsse auf das
individuelle Beurteilungsverhalten reflektiert werden. Der Erfolg des Trainings
sollte an neuen Daten empirisch geprüft werden, bis eine vor dem
Hintergrund des Untersuchungsinteresses zufriedenstellende
Beurteilerübereinstimmung erreicht wurde. In [Tab. 5 ] sind für das Beispiel der Beurteilung der
Hygienequalität in Rehabilitationskliniken wesentliche Aspekte von
Beurteilertrainings in Bezug zu den im Rahmen der Generalisierbarkeitsstudie
identifizierten Informationskomponenten exemplarisch aufgeführt.
Tab. 5 Interaktionseffekte des Iteminhalts, der
Beurteilerperspektive und des beurteilten Therapeuten und ihre
inhaltliche Bedeutung.
Effekt / Bedeutung
Verbesserungsmaßnahmen
Itemschwierigkeit: Unerheblich, wenn Items
Technisch:
Mittelwerte der Items per Standardisierung gleich
setzen
Homogenisierung der Itemgruppe für jedes
Konstrukt; Verwendung des Mittelwerts der Items
Mit wachsender Anzahl homogener Items steigt die
Reliabilität der gemittelten
Iteminformation
Vermeidung von Decken- und Bodeneffekten
Beurteilertraining: --
Beurteiler: Beurteiler zeigen unterschiedliche Milde
vs. Strenge. Unerheblich, wenn die Daten in Bezug auf das
individuelle Antwortniveau des Beurteilers adjustiert
betrachtet werden.
Technisch :
Beurteilertraining:
Rückmeldung des individuellen Antwortniveaus
in Referenz zu den übrigen Beurteilern
Diskussion und Vereinbarung geteilter
Intensitätsindikatoren, ggf. Definition
prototypischer Fälle mit niedriger,
mittlerer und hoher Merkmalsausprägung
Diskussion von Fällen, bei denen Milde- und
Strengeeffekte besonders ausgeprägt sind
Beispielverankerte, möglichst konkrete
Bezeichnung der Ratingwerte
Beurteilte Objekte: Unterschiede sind
erwünscht, da Objekte bzgl. der
Merkmalsausprägung differenziert werden sollen.
Technisch:
Beurteilertraining: --
Itemschwierigkeit x Beurteiler : Variiert die
Schwierigkeit der Items zwischen den Beurteilern
(z. B. männliche Beurteiler beurteilen die
Empathie höher als weibliche), so werden die
Iteminhalte von den Beurteilern unterschiedlich
interpretiert.
Technisch:
Elimination von Items, bei denen die Urteiler
unterschiedliche Zustimmungstendenzen aufweisen
Elimination einzelner Beurteiler, wenn die
Interaktion auf untypische Urteiler
zurückgeführt werden kann
Aggregation von Items
Beurteilertraining:
Rückmeldung des individuellen
itemspezifischen Antwortniveaus in Referenz zu den
übrigen Beurteilern
Konsensuelle Klärung der Merkmalsbedeutung:
Diskussion und Vereinbarung geteilter
itemspezifischer Intensitätsindikatoren;
ggf. Definition prototypischer Fälle mit
niedriger, mittlerer und hoher
Merkmalsausprägung
Diskussion „schwieriger“
Fälle, bei denen itemspezifische
Abweichungen besonders ausgeprägt sind
Beispielverankerte, möglichst konkrete
Bezeichnung der Ratingwerte
Untergliederung eines Merkmals in konkretere
Teilaspekte
Verwendung neutralerer, weniger beurteilersensitiver
Items
Itemschwierigkeit x beurteiltes Objekt : Variiert die
Itemschwierigkeit je nach beurteiltem Objekt (z. B.
nur die Empathie wird bei Frauen höher
eingeschätzt als bei Männern), so werden die
Iteminhalte für unterschiedliche Objekte
unterschiedlich interpretiert.
Technisch:
Elimination von schwer zu beurteilenden Objekten
Elimination von Items, bei denen die Urteiler
objektspezifisch unterschiedliche
Zustimmungstendenzen aufweisen
Aggregation von Items
Beurteilertraining:
Rückmeldung des item- und objektspezifischen
Antwortniveaus in Referenz zu den übrigen
Beurteilern
Konsensuelle Klärung der Merkmalsbedeutung:
Diskussion und Vereinbarung geteilter
objektunabhängiger und -spezifischer Aspekte
des Itemverständnisses; ggf. Definition
prototypischer Fälle mit niedriger,
mittlerer und höher
Merkmalsausprägung
Diskussion von „schwierigen“
Fällen, bei denen itemspezifische
Abweichungen von Objekten besonders
ausgeprägt sind
Beispielverankerte, möglichst konkrete
Bezeichnung der Ratingwerte
Untergliederung eines Merkmals in konkretere
Teilaspekte
Ersetzen von Items durch neutralere, weniger
objektsensitive Items
Beurteiler x beurteiltes Objekt: Reagieren Beurteiler
in spezifischer Weise auf bestimmte Objekte (z. B.
männliche Urteiler bewerten im Vergleich zu
weiblichen Urteilern Frauen anders als Männer), so
ist die Fairness aufgrund objektspezifischer Auslegung der
Beurteilungsaufgabe verletzt.
Technisch:
Beurteilertraining
Rückmeldung des objektspezifischen
Antwortniveaus in Referenz zu den übrigen
Beurteilern
Konsensuelle Klärung der Merkmalsbedeutung:
Diskussion und Vereinbarung geteilter
objektunabhängiger Merkmalsaspekte; ggf.
Definition prototypischer Fälle mit
niedriger, mittlerer und hoher
Merkmalsausprägung
Diskussion von „schwierigen“
Fällen, bei denen beurteilerspezifische
Aspekte besonders ausgeprägt sind
Beispielverankerte, möglichst konkrete
Bezeichnung der Ratingwerte
Bewusstmachen von stereotypen Beurteilungen
Itemschwierigkeit x Beurteiler x beurteiltes Objekt
s. Maßnahmen für die
Zweifachinteraktionen
Technische Umsetzung einer Generalisierbarkeitsstudie
In der bisherigen Darstellung wurde die grundlegende Modellvorstellung der
Generalisierbarkeitstheorie skizziert. Dass die Generalisierbarkeitstheorie
trotz dieser im Prinzip gut nachvollziehbaren Grundlogik des additiven
Varianzzerlegungsmodells ([Abb. 1 ]) in der Praxis
selten angewendet wird und auch in einführenden Lehrbüchern kaum
Erwähnung findet, ist insbesondere dadurch begründet, dass die
im Modell definierten Varianzkomponenten nicht direkt ermittelt werden
können. Um Schätzungen der Varianzkomponenten in Form von
g-Koeffizienten ermitteln zu können, müssen sich Anwender mit
den statistischen Modellgrundlagen auseinandersetzen. Die Auswahl und Festlegung
des Erhebungsdesigns erfordern ein klares Verständnis der realisierbaren
Auswertungsstrategien [1 ]
[13 ]. Die Varianzschätzungen basieren auf
dem Modell der Varianzanalyse [14 ]: Die
untersuchten Modellfacetten (z. B. Item, Beurteilungsperspektive,
Messzeitpunkt, Beurteilungsobjekt) werden als varianzanalytische Faktoren
(unabhängige Variablen) definiert, die die von den Beurteilern
vergebenen Ratings als abhängige Variablen vorhersagen. Ob die
interessierenden Varianzkomponenten erwartungstreu geschätzt werden
können, hängt insbesondere davon ab, ob ein angemessenes
Erhebungsdesign gewählt wurde. Deswegen ist es unabdingbar, die
Analyseziele in der Phase der Studienkonzeption genau zu formulieren: Welche
Informationsfacetten sind für die Beurteilung vor dem Hintergrund
welcher Studienziele bedeutsam? Um ein Grundverständnis entsprechender
Entscheidungen zur Planung, Durchführung und Auswertung einer
Generalisierbarkeitsstudie zu ermöglichen, sollen die wichtigen
Unterscheidungen gekreuzte vs. geschachtelte Designs sowie feste vs.
zufällige Effekte kurz erläutert werden:
Gekreuzte vs. geschachtelte Designs: Liegt für jede mögliche
Kombination von Facettenausprägungen zweier Facetten eine Beurteilung
vor, so sind diese Facetten gekreuzt, ist dies nicht der Fall, sind die Facetten
geschachtelt [1 ]. Beurteilen bspw. alle Beurteiler
alle Objekte, so handelt es sich um ein gekreuztes Design. Gekreuzte Designs
bieten grundsätzlich eine günstigere Basis für die
Schätzung aller Varianzkomponenten. In der Praxis sind jedoch oftmals
keine vollständig gekreuzten Designs realisierbar: Im
einführenden Beispiel 1 zur Beurteilung der
Kommunikationsfähigkeit von Therapeuten wird jeder Therapeut von sich
selbst und einem anderen Rehabilitanden eingeschätzt. Hier ist also
prinzipiell kein vollständiges Design möglich, da
gemäß Fragestellung überhaupt keine Beurteilung aller
Beurteilungsobjekte durch alle Beurteiler erfolgen kann. Zudem wäre es
durchaus denkbar, dass jeder Therapeut sein Kommunikationsverhalten nicht
gegenüber einem, sondern gegenüber mehreren Rehabilitanden
einschätzt und entsprechend von mehreren Rehabilitanden beurteilt wird.
Da mehrere Rehabilitanden denselben Therapeuten beurteilen, sind diese
statistisch nicht mehr als unabhängig zu betrachten: Es handelt sich
dann um ein geschachteltes bzw. genestetes Design. Im Beispiel 3 zum
Beeinträchtigungsstatus von wiedereinzugliedernden Arbeitsnehmern
würde ein gekreuztes Design vorliegen, wenn alle Arbeitnehmer durch
dieselben 3 BGM-Mitarbeiter beurteilt würden. Findet die Datenerhebung
hingegen in verschiedenen Betrieben statt und wird der
Beeinträchtigungsstatus durch jeweils 3 betriebseigene BGM-Mitarbeiter
eingeschätzt, so würde es sich um ein genestetes Design handeln:
Jede Gruppe von Urteilern würde eine andere Gruppe von Arbeitnehmern
beurteilen.
In genesteten Designs sind Interaktionseffekte in der Regel nicht
begründet abschätzbar bzw. getrennt von den Haupteffekten zu
bestimmen. Im Beispiel weiß man nicht, wie die BGM-Mitarbeiter eines
Betriebs die Mitarbeiter des anderen Betriebs beurteilt hätten. Werden
Mitarbeiter in Betrieb A grundsätzlich als weniger
beeinträchtigt eingeschätzt als in Betrieb B, dann ist keine
analytische Grundlage vorhanden, zu entscheiden, ob die Beurteiler in Betrieb A
weniger streng sind oder die Arbeitnehmer tatsächlich weniger belastet
sind. Entsprechend haben geschachtelte Designs eine geringere Aussagekraft als
gekreuzte, da die Haupteffekte der geschachtelten Facetten und ihre
Interaktionseffekte nicht gesondert betrachtet werden können [15 ].
Zufällige und feste Facetten: Die Ausprägungen einer Facette
werden als zufällig (random) bezeichnet, wenn diese als
Zufallsrepräsentanten einer größeren Gruppe (Population)
betrachtet werden können. Das Ziel der Studie besteht dann nicht darin,
zu bestimmen, wie zuverlässig die an der Studie tatsächlich
teilnehmenden Urteiler sind, sondern wie zuverlässig die Population
aller potentiellen Urteiler ist. Werden Reviewer der Klinikqualität aus
einem Pool von Reviewern bestimmt und soll das Urteil der Reviewer als
zuverlässiges Maß der Klinikqualität dienen, so sind die
Reviewer als zufällige Facetten anzusehen. Würden alle Kliniken
von denselben Urteilern beurteilt (gekreuztes Design) und ist lediglich das
Urteil dieser Beurteilergruppe von Interesse, würde es sich um eine
feste (fixed) Facettenausprägung handeln. Werden die Items zur
Partizipativen Entscheidungsfindung, Empathischen Beziehungsgestaltung und
Verständlichkeit der Informationsgabe als repräsentative Aspekte
eines größeren Pools von Indikatoren des Konstrukts
Kommunikationsfähigkeit betrachtet und soll ein Schluss auf die
generelle Kommunikationsfähigkeit erfolgen, so handelt es sich ebenfalls
um eine zufällige Facette. Kann hingegen angenommen werden, dass genau
diese 3 Teilaspekte das Konstrukt angemessen und vollständig
repräsentieren, so wären die Iteminhalte als fest zu definieren.
Zwei Messzeitpunkte können als fest angesehen werden, wenn genau diese
beiden Messzeitpunkte betrachtet werden. Dies wäre z. B. der
Fall, wenn die Merkmalsausprägung vor einer Intervention mit der
Merkmalsauprägung nach einer Intervention verglichen wird. Soll jedoch
die Veränderung oder die Stabilität einer
Merkmalausprägung im Zeitverlauf betrachtet werden und werden zu diesem
Zwecke mehrere Messzeitpunkte ausgewählt, die einen Einblick in den
unterliegenden allgemeinen zeitabhängigen Verlauf geben sollen, so sind
die Messzeitpunkte als zufällig anzusehen.
Die Facettenausprägungen eines Zufallsfaktors sind prinzipiell durch
andere Bedingungen, die die Facette valide repräsentieren, austauschbar.
Feste Facettenausprägungen sind nur bzgl. ihrer konkreten
Ausprägungen interpretierbar und sind nicht austauschbar. Die Definition
als fest bzw. zufällig hat wichtige Implikationen dafür,
für welche Haupt- und Interaktionseffekte solide
Reliabilitätsschätzungen möglich sind bzw.
dafür, wie die bestimmbaren Reliabilitätsschätzungen
interpretiert werden dürfen. Damit eine G-Studie überhaupt
durchgeführt werden kann, muss das Studiendesign mindestens eine
zufällige Facette beinhalten [13 ].
Für die konkrete Festlegung sowohl des Untersuchungsdesigns als auch der
Definition einer adäquaten statistischen Modellgleichung zur
Modellierung der Beurteilungsdaten sind also pragmatische, statistische und
interpretative Aspekte zu berücksichtigen. Insbesondere das Standardwerk
von Brennan [1 ] liefert die Basis, um alle
studienbezogenen Entscheidungen angemessen treffen zu können. Zur
konkreten Anwendung in empirischen Studien können die Arbeiten von Hoyt
[15 ], Trost und Bungard [16 ] sowie Wasserman, Levy und Loken [17 ] empfohlen werden.
Bezüglich der Stichprobengröße existiert bisher noch
keine einheitliche Empfehlung. Smith [18 ]
empfiehlt mindestens 800 Beobachtungen. Bei 3 Items und 2 Beurteilern
entspräche dies einer Stichprobengröße von mindestens
134 Personen (3×2×134=804). Würde hingegen
z. B. die Anzahl der Items auf 10 erhöht werden, wäre
bereits eine Stichprobe von N=40 (10×2×40=800)
ausreichend.
Für die statistische Datenanalyse stehen inzwischen sehr gute und
anwenderfreundliche Softwaretools zur Verfügung, die insbesondere die
g-Koeffizienten bestimmen und die Varianzkomponentenverteilungen grafisch,
z. B. in Form von Venn-Diagrammen veranschaulichen. EduG (Swiss Society
of Research in Education Working Group, [19 ]) oder
GENOVA [20 ] sind frei verfügbare
stand-alone Programme. Für die Standardsoftwarepakete SPSS oder SAS kann
unter
https://people.ok.ubc.ca/brioconn/gtheory/kostenfrei
eine Syntax heruntergeladen werden.
In rehabilitationswissenschaftlichen Anwendungsgebieten werden Beurteilungen
häufig eingesetzt, um z. B. behandlungsrelevante
Merkmalsausprägungen von Rehabilitanden oder Merkmale von
Versorgungsstrukturen, -prozessen und -ergebnissen zu bestimmen. Solche
Beurteilungen sollten die festzustellenden Merkmalsausprägungen
möglichst genau und aussagekräftig repräsentieren.
In der praktischen Anwendung muss jedoch berücksichtigt werden, dass
die Messwerte systematisch von Merkmalen der Erhebungssituation
überlagert sein können. Die Generalisierbarkeitstheorie
bietet einen Ansatz, mittels dessen die Informationsquellen identifiziert
werden können, die die Ausprägung der Beurteilungsdaten
mitbestimmen und folglich für eine valide Dateninterpretation
berücksichtigt werden müssen. Gelingt es für
Beurteilungsdaten in der Rehabilitation, potentiell wichtige und verzerrende
Einflussquellen zu identifizieren und Einflussquellen im Rahmen einer
empirischen Generalisierbarkeitsstudie systematisch in ihrem Zusammenwirken
zu untersuchen, so kann ein sehr differenziertes Bild des
Beurteilungsprozesses und der Aussagekraft der Beurteilungsdaten ermittelt
werden. Diese Informationen bilden die Basis, um Beurteilungsprozesse
fundiert hinsichtlich Reliabilität und Validität der Befunde
bestmöglich realisieren zu können.