Einleitung 
            In einer Studie werde die Kommunikationsfähigkeit von Therapeuten im
               Beratungsgespräch mit Rehabilitanden untersucht. Jeder Therapeut
               führt mit mehreren Rehabilitanden jeweils 2 Konsultationen durch. Um das
               Ausmaß der Kommunikationsfähigkeit der Therapeuten in
               Beratungsgesprächen ermitteln zu können, wird für jede
               Einzelkonsultation sowohl vom Therapeuten als auch vom Rehabilitanden die
               Qualität der Kommunikation in Bezug auf 3 Indikatoren eingeschätzt:
               Empathische Beziehungsgestaltung, Verständlichkeit der Informationsgabe
               sowie Partizipative Entscheidungsfindung (Beispiel 1 ).
            Wie kann nun begründet eine Aussage über die allgemeine
               Kommunikationsfähigkeit der Therapeuten getroffen werden, obwohl sich jedes
               erhobene Urteil auf eine spezifische Situation mit einem individuellen
               Rehabilitanden, eine spezifische Beurteilerperspektive (Selbst- vs.
               Fremdeinschätzung) und einen spezifischen Einzelindikator der
               Kommunikationsfähigkeit bezieht? Beurteilt der Therapeut sein eigenes
               Verhalten, so muss erwartet werden, dass sich ein anderer Wert ergibt, als wenn der
               Rehabilitand ein Urteil angibt. Wird nach einem spezifischen Aspekt des
               Kommunikationsverhaltens (z. B. Empathische Beziehungsgestaltung) gefragt,
               werden sich andere Werte ergeben, als wenn die Ausprägung eines anderen
               Kommunikationsindikators (z. B. Verständlichkeit der
               Informationsgabe) erhoben wird. In Konsultationen mit verschiedenen Rehabilitanden
               wird die Kommunikationsqualität desselben Therapeuten ebenfalls
               variieren.
            Solche Erhebungskonstellationen sind in der rehabilitationswissenschaftlichen
               Forschungs- und Anwendungspraxis üblich: Durch Verwendung eines spezifischen
               Erhebungsdesigns soll die Ausprägung wichtiger Merkmalsdimensionen
               zuverlässig und aussagekräftig ermittelt werden. Es wird angestrebt,
               einen allgemein gültigen Wert verlässlich zu schätzen,
               obwohl die Messwerte nicht nur zufallsbedingt, sondern in Abhängigkeit von
               den Erhebungsbedingungen systematisch variieren.
               
               
                  
                     
                        Beispiel 2  – Hygiene in Rehabilitationskliniken: An
                        Rehabilitationskliniken wird eine Hygieneschulung für die Mitarbeitenden
                        durchgeführt. Vor und nach der Schulung beurteilen jeweils 6 Reviewer
                        Hygieneindikatoren mittels einer Checkliste. Jeder Beurteilungswert ist somit
                        spezifisch für eine Klinik, einen Hygieneindikator, einen Reviewer und
                        einen Messzeitpunkt (vor vs. nach der Schulung).
                     
                        Beispiel 3  – Beeinträchtigungsstatus wieder
                        einzugliedernder Arbeitnehmer: Der arbeitsbezogene
                        Beeinträchtigungsstatus wieder einzugliedernder Arbeitnehmer wird
                        eingeschätzt. Für 3 typische Arbeitssituationen wird beurteilt,
                        in welchem Maße eine Beeinträchtigung bzgl. der 3 Aspekte
                        Körperhaltung, Handlungskoordination und Handlungsschnelligkeit
                        vorliegt. 3 Mitarbeiter des Betrieblichen Gesundheitsmanagements (BGM)
                        schätzen die Indikatoren des Beeinträchtigungsstatus
                        unabhängig ein.
                   
                
             
            Diese 3 Beispielszenarien verdeutlichen stellvertretend, dass in der Rehabilitation
               wichtige Entscheidungen aufgrund von Beurteilungen und Einschätzungen durch
               z. B. Rehabilitanden, Behandler oder Peer-Reviewer getroffen werden. Damit
               angemessene Entscheidungen getroffen werden können, müssen die
               Zuverlässigkeit und die Validität solcher Beurteilungen, auf denen
               die Entscheidungen gründen, sichergestellt werden. Hierzu ist ein
               möglichst differenziertes Verständnis erforderlich, welche
               Informationen sich in den Beurteilungsdaten widerspiegeln bzw. zu der
               eingeschätzten Werteausprägung beitragen.
            Die Struktur von Beurteilungsdaten 
            
            Die verlässliche Interpretation des Informationsgehalts von Messwerten
               wird gemäß der Generalisierbarkeitstheorie [1 ]
               [2 ] als Verallgemeinerungs- oder
               Generalisierungsproblem aufgefasst: Die Generalisierbarkeitstheorie formuliert
               ein analytisches Rahmenmodell für Beurteilungsdaten, das bedeutsame
               Einflussgrößen oder Informationskomponenten trennt. Die Anteile
               aller untersuchten Informationskomponenten an den Beurteilungswerten werden
               statistisch geschätzt, sodass angegeben werden kann, in welchem
               Maße die einzelnen Informationskomponenten zu den erhobenen
               Beurteilungsdaten beitragen. Dies dient zum einen dazu, ein besseres
               Verständnis dessen zu erlangen, wie Urteile zustandekommen und wie
               deutlich sich die einzelnen Komponenten in den Daten widerspiegeln
               (Generalisierbarkeitsaspekt). Zum anderen kann ermittelt werden, welche
               Informationsaspekte im Sinne des jeweiligen Erhebungsinteresses fundiert
               berücksichtigt und diagnostisch verwertet werden können
               (Entscheidungsaspekt).
            
            Die verschiedenen Gegebenheiten, die zur Unterschiedlichkeit der Messwerte
               führen können, werden in der Generalisierbarkeitstheorie als
               Facetten bezeichnet. In der rehabilitationswissenschaftlichen Diagnostik sind
               typischerweise Beurteiler, Methode, Erhebungssituation, Iteminhalte,
               Erhebungssetting sowie der Messgegenstand selbst, wichtige Facetten [3 ]. Die möglichen Werte einer Facette
               stellen Bedingungen oder Facettenausprägungen dar [1 ]. Mögliche Facettenausprägungen
               für die 3 Anwendungsbeispiele sind in [Tab.
                  1 ] dargestellt.
            
            
               
                  
                     
                     
                        Tab. 1  Facetten und Facettenausprägungen in den
                        Anwendungsbeispielen.
                      
                  
                     
                     
                        
                        
                           Beispiel 1
                         
                        
                        
                           Beispiel 2
                         
                        
                        
                           Beispiel 3
                         
                         
                      
                  
                     
                     
                        
                        
                           
                              Facetten der Messung 
                              
                         
                        
                        
                           
                              Beurteiler 
                              
                         
                        
                        
                           
                         
                        
                        
                           6 Reviewer
                         
                        
                        
                           3 BGM-Mitarbeiter
                         
                         
                     
                     
                        
                        
                           
                              Methode 
                              
                         
                        
                        
                           Fragebogen
                         
                        
                        
                           Qualitätscheckliste
                         
                        
                        
                           Beobachtungsbogen
                         
                         
                     
                     
                        
                        
                           
                              Erhebungssituation 
                              
                         
                        
                        
                           Im Anschluss an ein Beratungsgespräch 
                         
                        
                        
                           
                              Vor  und nach  einer Hygieneschulung der
                              Belegschaft
                         
                        
                        
                           Bei der Ausführung von Arbeitstätigkeiten
                         
                         
                     
                     
                        
                        
                           
                              Iteminhalte 
                              
                         
                        
                        
                           
                              
                              
                                 
                                 Information
                                  
                              
                              
                                 
                                 Empathie
                                  
                              
                              
                                 
                                 Partizipation
                                  
                               
                         
                        
                        
                           
                         
                        
                        
                           
                              
                              
                                 
                                 Körperhaltung
                                  
                              
                              
                                 
                                 Handlungskoordination
                                  
                              
                              
                                 
                                 Handlungsschnelligkeit
                                  
                               
                         
                         
                     
                     
                        
                        
                           
                              Setting 
                              
                         
                        
                        
                           Konsultation
                         
                        
                        
                           Klinik
                         
                        
                        
                           Arbeitsplatz
                         
                         
                     
                     
                        
                        
                           
                              Facetten der Differenzierung 
                              
                         
                        
                        
                           
                              Messgegenstand 
                              
                         
                        
                        
                           Kommunikationsfähigkeit der Therapeuten
                         
                        
                        
                           Hygienequalität der Kliniken
                         
                        
                        
                           Beeinträchtigung des Arbeitnehmers
                         
                         
                      
               
             
            
            
            Im ersten Beispiel soll die Kommunikationsfähigkeit eingeschätzt
               werden. Für die Validität der Beurteilungen ist es wichtig, dass
               die Kommunikationsfähigkeit der Therapeuten die Messergebnisse
               wesentlich determiniert. Die Beurteiler, die Methode, die Erhebungssituation,
               die Iteminhalte und das Erhebungssetting charakterisieren hingegen konkrete
               Erhebungsbedingungen. Die Erhebungsbedingungen müssen so gewählt
               werden, dass diese die Validität der Schätzung der
               Kommunikationsfähigkeit möglichst nicht beeinträchtigen.
               Systematische Effekte der Erhebungsbedingungen stellen im Sinne der
               Generalisierbarkeitstheorie Stör- oder Fehlerquellen dar. Die
               untersuchten Objekte (hier: Therapeuten) dürfen aufgrund ihrer
               unterschiedlichen Kommunikationsfähigkeit einen großen Beitrag
               zur Varianz leisten, denn je variabler die Objekte hinsichtlich des untersuchten
               Merkmals sind, desto besser unterscheidbar sind die Objekte, desto höher
               ist der Anteil interessierender Merkmalsvarianz und desto reliabler erfolgt die
               Beurteilung des einzuschätzenden Zielmerkmals im Allgemeinen. Anhand der
               Urteile sollen Objekte zuverlässig voneinander unterschieden werden: Je
               unterschiedlicher diese sind und je geringer der überlagernde Effekt
               störender Erhebungsmerkmale ist bzw. je fehlerfreier die
               Einschätzung erfolgt, desto besser [1 ].
            
            Die Generalisierbarkeitstheorie kann als Erweiterung der Klassischen Testtheorie
               angesehen werden. Die Klassische Testtheorie nimmt an, dass sich eine
               Beurteilung als Summe der wahren Merkmalsausprägung (z. B. in
               Beispiel 1: wahre Kommunikationsfähigkeit des Therapeuten) und einer
               zufälligen Messfehlerkomponente ergibt (für Fragebogendaten:
               [4 ]; für Beurteilungsdaten: [5 ])[1 ]. Die
               Generalisierbarkeitstheorie beleuchtet Teilinformationen (z. B.
               Beurteilerperspektive, Iteminhalte), die bei Anwendung der Klassischen
               Testtheorie als Teil der Fehlerkomponente aufgefasst würden, genauer.
               Werden also durch die Generalisierbarkeitstheorie weitere systematische
               Informationsquellen identifiziert, bedeutet dies, dass die Annahmen der
               Klassischen Testtheorie nur ein vereinfachendes, bestenfalls
               angenähertes Modell der Dateninformation zugrunde legen: Systematische
               Informationen, die sich neben den untersuchten Merkmalsinformationen in den
               Daten widerspiegeln, „verschwinden“ in der Messfehlerkomponente.
               Dies geht mit Einschränkungen der Validität der
               Dateninterpretation einher. Die Generalisierbarkeitstheorie verbessert die
               Möglichkeiten einer validen Dateninterpretation, da ein
               differenzierteres Modell des Datengehalts zugrunde liegt. Die bei Anwendung der
               Klassischen Testtheorie „vergessene“ –
               überspitzt ausgedrückt: „verleugnete“ –
               Zusatzinformation wird damit zu diagnostisch erkennbarer oder verwertbarer
               Information.
            
            Grundlegendes Prinzip der Generalisierbarkeitstheorie: Beurteilungswerte als
               Komposition überlagernder Effekte 
            
            
               [Tab. 2 ] zeigt vereinfacht eine Datenverteilung
               für Beispiel 1 zur Einschätzung der
               Kommunikationsfähigkeit von Therapeuten in Beratungsgesprächen:
               Die Kommunikationsfähigkeit dreier Therapeuten sei anhand der Items
               „Partizipative Entscheidungsfindung“, „Empathische
               Beziehungsgestaltung“ und „Verständlichkeit der
               Informationsgabe“ von den Therapeuten selbst und den beratenen
               Rehabilitanden eingeschätzt worden. Die Einschätzung erfolgte
               mittels einer Ratingskala, deren Werte als intervallskaliert angenommen werden.
               Hohe Werte spiegeln eine positive Merkmalsausprägung wider.
            
            
               
                  
                     
                     
                        Tab. 2  Selbst- und Fremdurteile der
                        Kommunikationsfähigkeit von Therapeuten in Beispiel 1,
                        beurteilt mittels 3 Items zu „Partizipative
                        Entscheidungsfindung“, „Empathische
                        Beziehungsgestaltung“ und „Verständlichkeit
                        der Informationsgabe“. Es handelt sich um fiktive Werte, die
                        die im Text erläuterten Effekte fehlerfrei widerspiegeln.
                        Δ=Abweichung vom Allgemeinen Mittelwert 20.
                      
                  
                     
                     
                        
                        
                           
                            
                         
                      
               
             
            
            
            Im Durchschnitt wurde für die Kommunikationsfähigkeit ein
               Messwert von 20 vergeben. Ziel der Generalisierbarkeitstheorie ist es nun zu
               modellieren, welche Einzelkomponenten dazu beitragen, dass und in welchem
               Maße, einzelne erhobene Beurteilungswerte von diesem allgemeinen
               Mittelwert abweichen [1 ]. Das Untersuchungsdesign
               wurde so gewählt, dass 3 potentielle Informationsquellen systematisch
               analysiert werden können. Denn jeder gemessene Wert gilt für
            
            
               
               
                  
                  einen bestimmten Therapeuten (Zeilen),
                   
               
               
                  
                  einen spezifischen Iteminhalt (Partizipative Entscheidungsfindung,
                     Empathische Beziehungsgestaltung, Verständlichkeit der
                     Informationsgabe; Hauptspalten) sowie
                   
               
               
                  
                  eine spezifische Beurteilungsperspektive (Selbst- und Fremdbeurteilung;
                     Unterspalten).
                   
                
            
            Die Ausprägung jedes Messwerts wurde so gewählt, dass sich die
               Haupteffekte des Iteminhalts, der Beurteilerperspektive und der beurteilten
               Therapeuten eindeutig und fehlerfrei abbilden. [Tab.
                  3 ] gibt die Effekte als Abweichung (Δ) vom allgemeinen
               Mittelwert und deren inhaltliche Bedeutung an.
            
            
               
                  
                     
                     
                        Tab. 3  Haupteffekte des Iteminhalts, der
                        Beurteilerperspektive und des beurteilten Therapeuten in Beispiel
                        1.
                      
                  
                     
                     
                        
                        
                           MW
                         
                        
                        
                           Δ
                         
                        
                        
                           Beispiel für die Bedeutung der Haupteffekte
                         
                         
                      
                  
                     
                     
                        
                        
                           Gesamt
                         
                        
                        
                           20
                         
                        
                        
                           0
                         
                        
                        
                           Allgemeiner Mittelwert / Grundniveau der
                              Messwerte
                         
                         
                     
                     
                        
                        
                           Haupteffekte
                         
                        
                        
                           Itemschwierigkeit (I)
                         
                        
                        
                           Partizipative Entscheidungsfindung
                         
                        
                        
                           17
                         
                        
                        
                           −3
                         
                        
                        
                           
                              Partizipation : Partizipation wird am schlechtesten
                              beurteilt. Die Angaben liegen 3 Einheiten unter dem
                              Grundniveau. 
                         
                         
                     
                     
                        
                        
                           Empathische Beziehungsgestaltung
                         
                        
                        
                           20
                         
                        
                        
                           0
                         
                        
                        
                           
                              Empathie : Empathie wird durchschnittlich bewertet.
                              Die Angaben entsprechen dem Grundniveau.
                         
                         
                     
                     
                        
                        
                           Verständlichkeit der Informationsgabe
                         
                        
                        
                           23
                         
                        
                        
                           +3
                         
                        
                        
                           
                              Information : Information wird am besten bewertet. Die
                              Angaben liegen 3 Einheiten über dem allgemeinen
                              Mittelwert.
                         
                         
                     
                     
                        
                        
                           Beurteiler-perspektive (P)
                         
                        
                        
                           Selbst
                         
                        
                        
                           22
                         
                        
                        
                           +2
                         
                        
                        
                           
                              Therapeutenperspektive : Die Therapeutenurteile fallen
                              überdurchschnittlich aus. Die Angaben liegen 2
                              Einheiten über dem Grundniveau.
                         
                         
                     
                     
                        
                        
                           Fremd
                         
                        
                        
                           18
                         
                        
                        
                           −2
                         
                        
                        
                           
                              Rehabilitandenperspektive:  Die Rehabilitandenurteile
                              fallen unterdurchschnittlich aus. Die Angaben liegen 2
                              Einheiten unter dem Grundniveau.
                         
                         
                     
                     
                        
                        
                           Beurteilter Therapeut (T)
                         
                        
                        
                           Therapeut 1
                         
                        
                        
                           17
                         
                        
                        
                           −3
                         
                        
                        
                           
                              Therapeut 1:  Therapeut 1 wird unterdurchschnittlich
                              bewertet. Die Angaben liegen 3 Einheiten unter dem
                              Grundniveau.
                         
                         
                     
                     
                        
                        
                           Therapeut 2
                         
                        
                        
                           20
                         
                        
                        
                           0
                         
                        
                        
                           
                              Haupteffekt von Therapeut 2:  Therapeut 2 wird
                              durchschnittlich bewertet. Die Angaben entsprechen dem
                              Grundniveau.
                         
                         
                     
                     
                        
                        
                           Therapeut 3
                         
                        
                        
                           23
                         
                        
                        
                           +3
                         
                        
                        
                           
                              Haupteffekt von Therapeut 3 : Therapeut 3 wird
                              überdurchschnittlich bewertet. Die Angaben liegen 3
                              Einheiten über dem Grundniveau.
                         
                         
                      
               
             
            
            
            Folgende Komponenten sind somit für die Ausprägung der Messwerte
               in [Tab. 2 ] verantwortlich: Zunächst
               werden die Messwerte von dem allgemeinen Grundniveau der
               Merkmalsausprägungen (MW=20) determiniert. Zusätzlich
               besitzt jedes Item eine bestimmte Schwierigkeit, d. h. Items werden in
               unterschiedlichem Maße als zutreffend beurteilt. Außerdem
               können Beurteiler unterschiedlich streng oder milde urteilen. Je nach
               Beurteilerperspektive ergeben sich somit höhere oder niedrigere Werte.
               Zuletzt unterscheiden sich die beurteilten Therapeuten hinsichtlich ihrer
               Fähigkeit, mit den Rehabilitanden zu kommunizieren.
            
            Zur grundlegenden Veranschaulichung wurden die Daten in [Tab. 2 ] so gewählt, dass sich die Messwerte komplett durch
               die Haupteffekte der 3 untersuchten Faktoren Iteminhalt, Beurteilerperspektive
               und beurteilter Therapeut vorhersagen lassen. Neben diesen Haupteffekten
               können aber zudem Wechselwirkungen bzw. Interaktionseffekte der Faktoren
               auftreten. [Tab. 4 ] verdeutlicht die Bedeutung
               der möglichen Interaktionseffekte für das
               Anwendungsbeispiel.
            
            
               
                  
                     
                     
                        Tab. 4  Interaktionseffekte des Iteminhalts, der
                        Beurteilerperspektive und des beurteilten Therapeuten und ihre
                        inhaltliche Bedeutung für Beispiel 1.
                      
                  
                     
                     
                        
                        
                           Interaktionseffekt
                         
                        
                        
                           Bedeutung
                         
                        
                        
                           Beispiel
                         
                         
                     
                     
                        
                        
                           Zweifach-Interaktionen
                         
                         
                      
                  
                     
                     
                        
                        
                           Itemschwierigkeit x Beurteilerperspektive (I x P)
                         
                        
                        
                           Für die Beurteilerperspektive ergeben sich je nach
                              erfragtem Iteminhalt spezifische Effekte.
                         
                        
                        
                           Das Selbsturteil der Therapeuten ist nur für Empathie
                              unerwartet positiv (z. B. empathiespezifischer
                              Self-serving bias).
                         
                         
                     
                     
                        
                        
                           Itemschwierigkeit x beurteilter Therapeut (I x T)
                         
                        
                        
                           Für die beurteilten Therapeuten ergeben sich je nach
                              Iteminhalt spezifische Effekte
                              (Differential-Item-Functioning; [7 ]).
                         
                        
                        
                           Nur für Therapeut 1 fällt das Urteil
                              für Empathie unerwartet negativ aus. Obwohl er gut
                              informiert und den Rehabilitanden mit einbezieht, wird die
                              Empathie als niedrig bewertet. Bei den anderen Therapeuten
                              tritt ein ähnlicher Effekt nicht auf.
                         
                         
                     
                     
                        
                        
                           Beurteilerperspektive x beurteilter Therapeut (P x T)
                         
                        
                        
                           Je nach Beurteilerperspektive ergeben sich für die
                              beurteilten Therapeuten spezifische Effekte. 
                         
                        
                        
                           Nur für Therapeut 3 tritt kein Self-serving bias auf.
                              Für diesen Therapeuten fallen Selbst- und
                              Fremdeinschätzung gleich aus.
                         
                         
                     
                     
                        
                        
                           
                              Dreifach-Interaktion 
                              
                         
                         
                     
                     
                        
                        
                           Itemschwierigkeit x Beurteilerperspektive x beurteilter
                              Therapeut (I x P x T)
                         
                        
                        
                           Je nach Beurteilerperspektive ergeben sich je nach Item
                              für die beurteilten Therapeuten spezifische
                              Effekte.
                         
                        
                        
                           Nur für Therapeut 2 tritt kein Self-serving bias
                              für die Items Informationsgabe und Partizipation
                              auf.
                         
                         
                      
               
             
            
            
               
               
                  
                     Die Generalisierbarkeitstheorie nimmt an, dass sich einzelne Messwerte durch
                        die Summe der Haupteffekte und der Interaktionseffekte (Wechselwirkungen)
                        der untersuchten Einflussfaktoren ergeben. Zudem wird jeder Messwert noch
                        durch einen additiv überlagernden Zufallsfehler mitbestimmt.
                   
                
             
            
               
               
                  
                     
                        Haupt- und Interaktionseffekte im Beispiel 2
                           „Hygienequalität von
                           Rehabilitationskliniken“ 
                        
                     Bei Einschätzung der Hygienequalität können die
                        Reviewer generell unterschiedlich milde oder streng in ihrer Beurteilung
                        sein (Haupteffekt Reviewer), die mittels Items erfragten Hygienekriterien
                        können unterschiedlich gut erfüllt sein (Haupteffekt Items)
                        und nach der Intervention können die Werte systematisch
                        höher ausgeprägt sein, als vor der Intervention (Haupteffekt
                        Messzeitpunkt). Ändern sich nur einige Hygieneindikatoren zwischen
                        den beiden Beurteilungszeitpunkten, während die übrigen
                        Indikatoren unverändert bleiben (Differenzial Item Functioning [7 ]), so entspräche dies einem
                        Interaktionseffekt von Iteminhalten und Messzeitpunkten [8 ]
                        [9 ]. Würden nur 2 der 6 Reviewer die
                        Hygieneindikatoren zum zweiten Messzeitpunkt positiver bewerten als zum
                        ersten Messzeitpunkt, so würde sich dies in einem Interaktionseffekt
                        von Reviewer und Messzeitpunkt widerspiegeln. Bewerten verschiedene Reviewer
                        unterschiedliche Hygieneindikatoren als qualitativ gut vs. defizitär
                        erfüllt (z. B. Reviewer A beurteilt die Praxis
                        Händedesinfektion als sehr positiv und die Hygiene des
                        Behandlungsmaterials als weniger gut, während Reviewer B beides
                        konträr einschätzt), so würden die Facetten Reviewer
                        und Iteminhalt interagieren. Beurteilen 2 der 6 Reviewer lediglich einige
                        Hygieneindikatoren zum zweiten Messzeitpunkt positiver als zum ersten
                        Messzeitpunkt, so würden Reviewer, Iteminhalt und Messzeitpunkt
                        dreifach interagieren: Je nach Reviewer würden dann für
                        verschiedene Hygieneaspekte unterschiedliche Änderungen erkennbar
                        werden.
                   
                
             
            
            Varianzen als Maße der Unterschiedlichkeit von Messwerten,
               g-Koeffizienten als Maße der Zuverlässigkeit von
               Messwerten 
            
            Die beispielhaften Daten in [Tab. 2 ] stellen eine
               empirische Situation natürlich nur vereinfacht und besonders plakativ
               dar. Hier wurde zum Zwecke der anschaulichen Nachvollziehbarkeit vereinfachend
               davon ausgegangen, dass für alle Messwerte alle Effekte eindeutig und
               fehlerfrei erkennbar sind. In der empirischen Anwendung werden Messwerte jedoch
               durch zufällige Fehlerkomponenten überlagert oder
               „verrauscht“. Werden die Beurteilungsergebnisse durch
               Zufallsfehler überlagert, können die Messwerte nicht einfach als
               reine Komposition der unterliegenden Effekte aufgefasst werden. Stattdessen wird
               die Unterschiedlichkeit der Messwerte über Varianzmaße
               abgebildet. Jeder Haupt- und Interaktionseffekt wird auf Basis des
               Ausmaßes, in dem dieser zur Gesamtvariabilität der Messwerte
               beiträgt, analysiert [1 ]
               [10 ]. Existiert z. B. ein Haupteffekt der
               Beurteilerperspektive, so unterscheiden sich Werte, die auf Basis von Selbst-
               vs. Fremdeinschätzung erhoben wurden, grundsätzlich deutlich.
               Die Beurteilerperspektive erklärt dann einen substantiellen Teil der
               Unterschiede bzw. der Varianz der erhobenen Beurteilungsdaten.
            
            Eine angemessene Darstellung der statistischen Hintergründe würde
               diese Einführung deutlich sprengen. Das Prinzip der Datenanalyse kann
               aber – ohne Rückgriff auf Formeln – wie folgt skizziert
               werden:
            
            
               
               
                  
                  Bestimmung der Gesamtvarianz der Messwerte (VARGes ): Die
                     generelle Unterschiedlichkeit bzw. Variabilität der erhobenen
                     Daten wird durch das statistische Maß der Gesamtvarianz
                     repräsentiert.
                   
               
               
                  
                  Zerlegung der Varianz in additive Komponenten: Für jeden
                     potentiellen Haupteffekt (im Beispiel 1: Iteminhalt,
                     Beurteilerperspektive, beurteilter Therapeut) und jeden potentiellen
                     Interaktionseffekt ([Tab. 4 ]) wird
                     bestimmt, wie stark die Beurteilungsdaten zwischen den
                     Facettenausprägungen der jeweils betrachteten Facette (bei
                     Haupteffekten) oder den Kombinationen von Facettenausprägungen
                     (bei Interaktionseffekten) variieren. VARIteminhalt  ist dann
                     z. B. ein Maß der Variabilität der erhobenen
                     Daten, die mit den Iteminhalten korrespondieren (variierende
                     Itemschwierigkeiten). Unterschiede in den Beurteilungsperspektiven
                     werden z. B. durch VARBeurteilungsperspektive 
                     (Variabilität zwischen Selbst- und Fremdurteilen)
                     repräsentiert.
                   
               
               
                  
                  Gemäß dem Grundmodell der Generalisierbarkeitstheorie
                     kann die Gesamtvariabilität VARGes  additiv in
                     Varianzanteile, die auf Haupt- und Interaktionseffekte sowie
                     Fehlereffekte zurückzuführen sind, zerlegt werden. Der
                     Anteil einer Varianzkomponente an der Gesamtvarianz entspricht der
                     Reliabilität der entsprechenden Varianzkomponente:
                   
                
            
            Die empirischen Schätzungen dieser Varianzanteile werden als
               Generalisierbarkeitskoeffizienten bzw. g-Koeffizienten bezeichnet.
            
            
               [Abb. 1 ] zeigt eine entsprechende
               Ergebnisdarstellung. Neben der unsystematischen Fehlervarianz (Varianzanteil:
               25%), ist die Variabilität der Messwerte vor allem auf folgende
               Komponenten zurückzuführen:
            
            
                  Abb. 1  Varianzzerlegung als Ergebnis einer
                  Generalisierbarkeitsstudie. 
            
               
               
                  
                  Unterschiedliche Fähigkeiten der Therapeuten:
                     Varianzanteil=25%
                   
               
               
                  
                  Unterschiede in der Selbst- vs. Fremdbeurteilung:
                     Varianzanteil=15%
                   
               
               
                  
                  Interaktion von Beurteilungsperspektive und Item (hier: nur für
                     Informationsgabe unterscheiden sich Selbst- und Fremdperspektive nicht):
                     Varianzanteil=16%
                   
               
               
                  
                  Interaktion von Iteminhalt und Therapeut (hier: für die
                     Therapeuten 4, 5 und 6 sind die Empathiewerte unerwartet niedrig
                     ausgeprägt): Varianzanteil=10%
                   
                
            
            Dass der Varianzanteil, der mit den unterschiedlichen Fähigkeiten der
               Therapeuten einhergeht, mit 25% vergleichsweise hoch ausfällt,
               ist im Sinne der Fragestellung wünschenswert. Die Beurteilungsdaten
               sollen Aufschlüsse über die Kommunikationsfähigkeit der
               Therapeuten liefern. Je höher der Varianzanteil der Facette Therapeut
               ist, desto eindeutiger kann von den Daten auf den betreffenden Therapeuten
               geschlossen werden. Die Reliabilität des Schlusses von einem bestimmten
               Datenwert auf die Person des Therapeuten ist mit 0,25 jedoch unzureichend, denn
               im Umkehrschluss sind 75% der Datenvarianz nicht mit der Facette
               Therapeut verbunden. Erst bei einem Reliabilitätswert ab 0,7
               (d. h. 70% systematische Varianz und 30% Fehlervarianz)
               wäre nach den üblichen diagnostischen Standards der Schluss von
               den Daten auf die Person des Therapeuten hinreichend zuverlässig [11 ].
            
            Der hohe Varianzanteil der Interaktion von Beurteilerperspektive und Iteminhalt
               (16%) ist hingegen als ungünstig anzusehen, wenn die valide
               Erfassung der Kommunikationsfähigkeit angestrebt wird. Wenn das Selbst-
               und Fremdurteil je nach erhobenem Indikator in spezifischer Weise divergiert, so
               deutet dies darauf hin, dass sich die inhaltliche Bedeutung des Urteils je nach
               Erhebungskonstellation verändert. Wird bspw. die Empathie eines
               Therapeuten vom Therapeuten selbst und dem Rehabilitanden identisch beurteilt,
               während das Urteil hinsichtlich der Verständlichkeit der
               Informationsgabe deutlich unterschiedlich ausfällt, spricht dies gegen
               die Homogenität der Itemgruppe: Gemäß der Grundannahme
               sollten beide Items möglichst eindeutige Indikatoren der
               Kommunikationsfähigkeit sein. Der eindeutige Schluss von den Items auf
               das Konstrukt Kommunikationsfähigkeit wird erschwert, wenn sich in den
               Items je nach Beurteilerperspektive andere Effekte abbilden.
            
            Die in [Abb. 1 ] zugrunde liegenden Daten sowie
               eine tabellarische Ergebnisdarstellung sind im Anhang beigefügt.
            
            Nutzung der Informationszerlegung einer Generalisierbarkeitsstudie zur
               Optimierung der Aussagekraft von Beurteilungen in einer Entscheidungsstudie[ 2 ]
                
            
            Die in [Abb. 1 ] dargestellte Varianzzerlegung als
               Ergebnis einer Generalisierbarkeitsstudie (G-study) liefert einen
               differenzierten Einblick in die Grundarchitektur der Beurteilungsdaten. Hierbei
               muss berücksichtigt werden, dass sich die Betrachtungen auf einzelne
               Messwerte beziehen. In der diagnostischen Anwendung stellen einzelne
               Beurteilungswerte in der Regel jedoch nicht die tatsächlichen
               diagnostischen Zielgrößen bzw. Entscheidungsgrundlage dar.
            
            In der Terminologie der Generalisierbarkeitstheorie werden die Fragen der Nutzung
               der Beurteilungsdaten in einer anschließenden Entscheidungsstudie
               (D-study) betrachtet. Diese zeigt auf, wie sich Aspekte der Datenauswertung und
               Änderungen am Erhebungsdesign auf die Informationsanteile und damit die
               Reliabilität der relevanten Informationskomponenten auswirken. Dadurch
               liefert sie eine Entscheidungsgrundlage für einen bestimmten
               Beurteilungsprozess in der Anwendungspraxis [1 ].
            
            Möchte man den Varianzanteil und damit die Reliabilität der
               Therapeutenfacette in [Abb. 1 ] erhöhen,
               können prinzipiell 3 Grundansätze effektiv sein.
            
            
               
               
                  
                  Reduktion des Anteils unerwünschter Varianzkomponenten: In
                     Beispiel 1 ([Abb. 1 ]) gehen 15%
                     der Varianzanteile auf die unterschiedlichen Perspektiven bzw.
                     5% auf die unterschiedlichen Schwierigkeiten der Items
                     zurück. Werden (a) Selbst- und Fremdurteile so standardisiert,
                     dass diese denselben Mittelwert besitzen, und (b) die Items so
                     standardisiert, dass die Itemmittelwerte gleich sind, reduziert sich die
                     Gesamtvarianz der Daten von 5,07 auf
                     5,07–0,75–0,25=4,07. Entsprechend steigt der
                     Varianzanteil oder die Reliabilität der Therapeutenkomponente
                     von 1,26/5,07=0,25 auf
                     1,26/4,07=0,31.
                   
               
               
                  
                  Erhöhung erwünschter Varianzkomponenten: Angenommen, in
                     der Studie wurden Therapeuten untersucht, die eine ähnliche
                     Kommunikationsfähigkeit im Umgang mit Rehabilitanden haben
                     (z. B. aufgrund ähnlicher Ausbildung), während
                     in der Anwendung von einer heterogeneren Fähigkeitsverteilung
                     ausgegangen werden kann. Dann ließe sich der Effekt der
                     Varianzerhöhung direkt auf Basis der statistischen
                     Modellgrundlagen abschätzen.
                   
               
               
                  
                  Reduktion von Fehlervarianzanteilen und unerwünschter
                     Varianzkomponenten durch Datenaggregation: Die Aggregation (Mittelwerts-
                     oder Summenbildung) von Daten stellt in der Regel das effektivste
                     technische Mittel zur Reliabilitätssteigerung dar. Im Beispiel
                     wurde in der G-Studie die Information der Facette Iteminhalt
                     itemspezifisch betrachtet. Bildet man jedoch den Mittelwert über
                     die 3 Indikatoren der Kommunikationsfähigkeit, erhöht
                     sich damit die Reliabilität aller anderen Varianzfacetten
                     systematisch: Zum einen weil sowohl der Haupteffekt des Iteminhalts, als
                     auch alle mit dem Iteminhalt verbundenen Interaktionseffekte
                     verschwinden; als Haupteffekte verbleiben dann nur noch die Haupteffekte
                     Therapeut und Beurteilerperspektive, als Interaktion verbleibt nur noch
                     der Term Therapeut x Beurteilerperspektive. Die Summe der Haupt- und
                     Interaktionseffekte reduziert sich auf
                     1,26+0,75 + 0,22=2,23. Wird der
                     gemittelte Wert über die 3 Items zur
                     Kommunikationsfähigkeit des Therapeuten als Beurteilungsergebnis
                     gewertet, so ergibt sich für den Haupteffekt Therapeut ein
                     Varianzanteil von 57%
                     (=(1,26/2,23)*100%). Wird die Antwort
                     auf ein einzelnes Item als Indikator für die
                     Kommunikationsfähigkeit des Therapeuten gewertet, so ergibt sich
                     für den Haupteffekt Therapeut ein Varianzanteil von 33%
                     (=(1,26/3,8)*100%). Der Varianzanteil
                     auf Einzelitemebene ist mit 33% insbesondere deswegen geringer
                     als der Varianzanteil der über die Items gemittelten Antwort
                     (57%) ausgeprägt, weil die Items unterschiedlich
                     schwierig sind: Welcher Beurteilungswert resultiert, ist nur auf Ebene
                     der Einzelitems von der Schwierigkeit des jeweiligen Items
                     abhängig. Deswegen ist für die Interpretation eines
                     Beurteilungsdatums auf Einzelitemebene die Itemschwierigkeit zu
                     berücksichtigen bzw. als systematische Informationsquelle bei
                     der Varianzzerlegung zu werten.
                   
                
            
            Zum anderen führt die Mittelung der Items zu einer systematischen
               Reduktion der zufälligen Fehleranteile. Generell kann davon ausgegangen
               werden, dass eine Verdoppelung der Anzahl der gemittelten Items eine Halbierung
               des Fehlervarianzanteils nach sich zieht [4 ].
            
            Dieses Prinzip der Erhöhung der Reliabilität durch
               Datenaggregation gilt für alle untersuchten Facetten: Die Mittelung
               innerhalb der Facetten eines Designs, wie z. B. Items, Beurteiler,
               Messzeitpunkte oder Untersuchungssituationen führt zu einer
               systematischen Reliabilitätsverbesserung. Betrachtet man z. B.
               die Anzahl der Beurteiler, so gilt gemäß der
               Testverlängerungsformel nach Spearman und Brown:
            
            m=Anzahl der Rater
            
            Liegt die Reliabilität eines einzelnen Beurteilers (rel1 ) bei
               0,3, so kann erwartet werden, dass der Mittelwert von m=4 Beurteilern
               [(4 ∙ 0,3)/(1+3 ∙ 0,3)]=0,63
               beträgt.
            
            Die Rateranzahl, die erforderlich ist, einen Zielwert relSoll  zu
               erreichen, kann wie folgt ermittelt werden:
            
            Liegt die Reliabilität eines einzelnen Beurteilers bei
               rel1 =0,3 und wird eine Reliabilität von ,7
               angestrebt, so sollte der Mittelwert von mindestens 6 Beurteilern gebildet
               werden, da
               m=[(0,7·(1−0,3))/(0,3.(1−0,7))]= 
               5,4.
            
               Entscheidungsstudie im Beispiel 2 „Hygieneschulung in
                  Rehabilitationskliniken“
                  
                     Für die von 6 Reviewern beurteilte Hygienequalität habe sich
                        für die Daten vor und nach der Schulung eine Gesamtvarianz von
                        VARGes  = 240 ergeben. Hierbei ist darauf zu achten,
                        dass auch die Varianz des Messzeitpunkts zur Gesamtvarianz beiträgt,
                        obwohl diese ja explizit gewünscht ist: Die Hygienequalität
                        soll nach der Schulung systematisch höher ausfallen als vor der
                        Schulung. Diese messzeitpunktabhängigen Unterschiede dürfen
                        jedoch nicht dazu führen, dass sich diese systematisch erzeugte und
                        wünschenswerte Varianz reliabilitäts-mindernd auswirkt, wenn
                        die Reliabilität der Beurteilung der Hygiene von Kliniken bestimmt
                        werden soll. Im Rahmen der Entscheidungsstudie muss diese Varianz deswegen
                        aus der Gesamtvarianz ausgeschlossen werden. Ist die Varianz für die
                        Facette Messzeitpunkt gleich dem Wert 30, so ergäbe sich eine
                        korrigierte Gesamtvarianz von 240 – 30 = 210. Der mit den
                        Kliniken verbundene Varianzanteil liege bei VARKliniken  =
                        70. Dies entspricht einer korrigierten
                        Reliabilitätsschätzung von relKliniken,korr 
                        = 70 / 210 = 0,33. Um von einer reliablen
                        Einschätzung der Hygienequalität der Kliniken ausgehen zu
                        können, werde eine Reliabilität von 0,8 angestrebt. Dies
                        kann erreicht werden, wenn jede Klinik von [(0,8∙(1-0,33)
                        )/(0,33∙(1-0,8))]=8 unabhängigen Reviewern
                        beurteilt wird und der Mittelwert der Reviewerurteile als
                        Merkmalsschätzung verwendet wird.
                   
                
             
            
            Implikationen der Ergebnisse einer Generalisierbarkeitsstudie für die
               Inhalte von Beurteilertrainings 
            
            Die Entscheidungsstudie liefert also systematische Information, wie die
               Zuverlässigkeit durch Datenverwertungen oder Designvariationen
               verbessert werden kann. Dieser technische Zugang sollte aber wenn
               möglich stets durch ein systematisches Beurteilertraining
               ergänzt werden. Die gezielte Analyse von Problemen der
               Übereinstimmung von Beurteilern kann entscheidend dazu beitragen, die
               inhaltliche Aussagekraft der Beurteilungsdaten differenziert zu verstehen und
               Ursachen mangelnder Übereinstimmung zu beseitigen. Zu Beginn sollten die
               Teilnehmenden die Beurteilungsaufgabe durchführen. Im Rahmen des
               Trainings sollten die den Beurteilungen zugrunde liegenden
               Wahrnehmungseindrücke und Informationsverarbeitungsprozesse
               verbalisiert, identifiziert und vergleichend diskutiert werden. Es wird dabei
               eine Klärung und Vereinfachung der für die Beurteilung
               erforderlichen Informationsverarbeitungsprozesse angestrebt. Durch die
               Diskussion und den Austausch der Teilnehmenden soll das geteilte
               Verständnis der Beurteilungsaufgabe interaktiv gestärkt werden
               [5 ]. Zudem ist eine Angleichung des Wissens-
               und Informationshintergrundes zur angemessenen Ausführung der
               Beurteilungsaufgabe günstig. Typische Beurteilungsfehler (z. B.
               Konsistenz-, Erwartungs-, Reihenfolgeeffekte, Halo-Effekt, Pygmalioneffekt,
               Projektion, Emotionale Beteiligung, Logischer Fehler, Observer drift, Soziale
               Erwünschtheit, Tendenz zur Mitte / zu Extremwerten,
               Kontrastbildung, selektive Erinnerung; [12 ])
               sollten auf der Grundlage von Beispielen in der Gruppe der Beurteiler
               geklärt und hinsichtlich ihrer potentiellen Einflüsse auf das
               individuelle Beurteilungsverhalten reflektiert werden. Der Erfolg des Trainings
               sollte an neuen Daten empirisch geprüft werden, bis eine vor dem
               Hintergrund des Untersuchungsinteresses zufriedenstellende
               Beurteilerübereinstimmung erreicht wurde. In [Tab. 5 ] sind für das Beispiel der Beurteilung der
               Hygienequalität in Rehabilitationskliniken wesentliche Aspekte von
               Beurteilertrainings in Bezug zu den im Rahmen der Generalisierbarkeitsstudie
               identifizierten Informationskomponenten exemplarisch aufgeführt.
            
            
               
                  
                     
                     
                        Tab. 5  Interaktionseffekte des Iteminhalts, der
                        Beurteilerperspektive und des beurteilten Therapeuten und ihre
                        inhaltliche Bedeutung.
                      
                  
                     
                     
                        
                        
                           Effekt / Bedeutung
                         
                        
                        
                           Verbesserungsmaßnahmen
                         
                         
                      
                  
                     
                     
                        
                        
                           
                              Itemschwierigkeit:  Unerheblich, wenn Items 
                           
                         
                        
                        
                           
                              Technisch: 
                              
                           
                              
                              
                                 
                                 Mittelwerte der Items per Standardisierung gleich
                                    setzen
                                  
                              
                              
                                 
                                 Homogenisierung der Itemgruppe für jedes
                                    Konstrukt; Verwendung des Mittelwerts der Items
                                  
                              
                              
                                 
                                 Mit wachsender Anzahl homogener Items steigt die
                                    Reliabilität der gemittelten
                                    Iteminformation
                                  
                              
                              
                                 
                                 Vermeidung von Decken- und Bodeneffekten
                                  
                               
                           
                              Beurteilertraining:  --
                         
                         
                     
                     
                        
                        
                           
                              Beurteiler:  Beurteiler zeigen unterschiedliche Milde
                              vs. Strenge. Unerheblich, wenn die Daten in Bezug auf das
                              individuelle Antwortniveau des Beurteilers adjustiert
                              betrachtet werden.
                         
                        
                        
                           
                              Technisch : 
                           
                           
                              Beurteilertraining: 
                              
                           
                              
                              
                                 
                                 Rückmeldung des individuellen Antwortniveaus
                                    in Referenz zu den übrigen Beurteilern
                                  
                              
                              
                                 
                                 Diskussion und Vereinbarung geteilter
                                    Intensitätsindikatoren, ggf. Definition
                                    prototypischer Fälle mit niedriger,
                                    mittlerer und hoher Merkmalsausprägung
                                  
                              
                              
                                 
                                 Diskussion von Fällen, bei denen Milde- und
                                    Strengeeffekte besonders ausgeprägt sind
                                  
                              
                              
                                 
                                 Beispielverankerte, möglichst konkrete
                                    Bezeichnung der Ratingwerte
                                  
                               
                         
                         
                     
                     
                        
                        
                           
                              Beurteilte Objekte:  Unterschiede sind
                              erwünscht, da Objekte bzgl. der
                              Merkmalsausprägung differenziert werden sollen.
                         
                        
                        
                           
                              Technisch: 
                              
                           
                           
                              Beurteilertraining: -- 
                              
                         
                         
                     
                     
                        
                        
                           
                              Itemschwierigkeit x Beurteiler : Variiert die
                              Schwierigkeit der Items zwischen den Beurteilern
                              (z. B. männliche Beurteiler beurteilen die
                              Empathie höher als weibliche), so werden die
                              Iteminhalte von den Beurteilern unterschiedlich
                              interpretiert. 
                         
                        
                        
                           
                              Technisch: 
                              
                           
                              
                              
                                 
                                 Elimination von Items, bei denen die Urteiler
                                    unterschiedliche Zustimmungstendenzen aufweisen
                                  
                              
                              
                                 
                                 Elimination einzelner Beurteiler, wenn die
                                    Interaktion auf untypische Urteiler
                                    zurückgeführt werden kann
                                  
                              
                              
                                 
                                 Aggregation von Items
                                  
                               
                           
                              Beurteilertraining: 
                              
                           
                              
                              
                                 
                                 Rückmeldung des individuellen
                                    itemspezifischen Antwortniveaus in Referenz zu den
                                    übrigen Beurteilern
                                  
                              
                              
                                 
                                 Konsensuelle Klärung der Merkmalsbedeutung:
                                    Diskussion und Vereinbarung geteilter
                                    itemspezifischer Intensitätsindikatoren;
                                    ggf. Definition prototypischer Fälle mit
                                    niedriger, mittlerer und hoher
                                    Merkmalsausprägung
                                  
                              
                              
                                 
                                 Diskussion „schwieriger“
                                    Fälle, bei denen itemspezifische
                                    Abweichungen besonders ausgeprägt sind
                                  
                              
                              
                                 
                                 Beispielverankerte, möglichst konkrete
                                    Bezeichnung der Ratingwerte
                                  
                              
                              
                                 
                                 Untergliederung eines Merkmals in konkretere
                                    Teilaspekte
                                  
                              
                              
                                 
                                 Verwendung neutralerer, weniger beurteilersensitiver
                                    Items
                                  
                               
                         
                         
                     
                     
                        
                        
                           
                              Itemschwierigkeit x beurteiltes Objekt : Variiert die
                              Itemschwierigkeit je nach beurteiltem Objekt (z. B.
                              nur die Empathie wird bei Frauen höher
                              eingeschätzt als bei Männern), so werden die
                              Iteminhalte für unterschiedliche Objekte
                              unterschiedlich interpretiert.
                         
                        
                        
                           
                              Technisch: 
                              
                           
                              
                              
                                 
                                 Elimination von schwer zu beurteilenden Objekten
                                  
                              
                              
                                 
                                 Elimination von Items, bei denen die Urteiler
                                    objektspezifisch unterschiedliche
                                    Zustimmungstendenzen aufweisen
                                  
                              
                              
                                 
                                 Aggregation von Items
                                  
                               
                           
                              Beurteilertraining: 
                              
                           
                              
                              
                                 
                                 Rückmeldung des item- und objektspezifischen
                                    Antwortniveaus in Referenz zu den übrigen
                                    Beurteilern
                                  
                              
                              
                                 
                                 Konsensuelle Klärung der Merkmalsbedeutung:
                                    Diskussion und Vereinbarung geteilter
                                    objektunabhängiger und -spezifischer Aspekte
                                    des Itemverständnisses; ggf. Definition
                                    prototypischer Fälle mit niedriger,
                                    mittlerer und höher
                                    Merkmalsausprägung
                                  
                              
                              
                                 
                                 Diskussion von „schwierigen“
                                    Fällen, bei denen itemspezifische
                                    Abweichungen von Objekten besonders
                                    ausgeprägt sind
                                  
                              
                              
                                 
                                 Beispielverankerte, möglichst konkrete
                                    Bezeichnung der Ratingwerte
                                  
                              
                              
                                 
                                 Untergliederung eines Merkmals in konkretere
                                    Teilaspekte
                                  
                              
                              
                                 
                                 Ersetzen von Items durch neutralere, weniger
                                    objektsensitive Items
                                  
                               
                         
                         
                     
                     
                        
                        
                           
                              Beurteiler x beurteiltes Objekt:  Reagieren Beurteiler
                              in spezifischer Weise auf bestimmte Objekte (z. B.
                              männliche Urteiler bewerten im Vergleich zu
                              weiblichen Urteilern Frauen anders als Männer), so
                              ist die Fairness aufgrund objektspezifischer Auslegung der
                              Beurteilungsaufgabe verletzt.
                         
                        
                        
                           
                              Technisch: 
                              
                           
                           
                              Beurteilertraining 
                              
                           
                              
                              
                                 
                                 Rückmeldung des objektspezifischen
                                    Antwortniveaus in Referenz zu den übrigen
                                    Beurteilern
                                  
                              
                              
                                 
                                 Konsensuelle Klärung der Merkmalsbedeutung:
                                    Diskussion und Vereinbarung geteilter
                                    objektunabhängiger Merkmalsaspekte; ggf.
                                    Definition prototypischer Fälle mit
                                    niedriger, mittlerer und hoher
                                    Merkmalsausprägung
                                  
                              
                              
                                 
                                 Diskussion von „schwierigen“
                                    Fällen, bei denen beurteilerspezifische
                                    Aspekte besonders ausgeprägt sind
                                  
                              
                              
                                 
                                 Beispielverankerte, möglichst konkrete
                                    Bezeichnung der Ratingwerte
                                  
                              
                              
                                 
                                 Bewusstmachen von stereotypen Beurteilungen
                                  
                               
                         
                         
                     
                     
                        
                        
                           
                              Itemschwierigkeit x Beurteiler x beurteiltes Objekt 
                              
                         
                        
                        
                           s. Maßnahmen für die
                              Zweifachinteraktionen
                         
                         
                      
               
             
            
            
            Technische Umsetzung einer Generalisierbarkeitsstudie 
            
            In der bisherigen Darstellung wurde die grundlegende Modellvorstellung der
               Generalisierbarkeitstheorie skizziert. Dass die Generalisierbarkeitstheorie
               trotz dieser im Prinzip gut nachvollziehbaren Grundlogik des additiven
               Varianzzerlegungsmodells ([Abb. 1 ]) in der Praxis
               selten angewendet wird und auch in einführenden Lehrbüchern kaum
               Erwähnung findet, ist insbesondere dadurch begründet, dass die
               im Modell definierten Varianzkomponenten nicht direkt ermittelt werden
               können. Um Schätzungen der Varianzkomponenten in Form von
               g-Koeffizienten ermitteln zu können, müssen sich Anwender mit
               den statistischen Modellgrundlagen auseinandersetzen. Die Auswahl und Festlegung
               des Erhebungsdesigns erfordern ein klares Verständnis der realisierbaren
               Auswertungsstrategien [1 ]
               [13 ]. Die Varianzschätzungen basieren auf
               dem Modell der Varianzanalyse [14 ]: Die
               untersuchten Modellfacetten (z. B. Item, Beurteilungsperspektive,
               Messzeitpunkt, Beurteilungsobjekt) werden als varianzanalytische Faktoren
               (unabhängige Variablen) definiert, die die von den Beurteilern
               vergebenen Ratings als abhängige Variablen vorhersagen. Ob die
               interessierenden Varianzkomponenten erwartungstreu geschätzt werden
               können, hängt insbesondere davon ab, ob ein angemessenes
               Erhebungsdesign gewählt wurde. Deswegen ist es unabdingbar, die
               Analyseziele in der Phase der Studienkonzeption genau zu formulieren: Welche
               Informationsfacetten sind für die Beurteilung vor dem Hintergrund
               welcher Studienziele bedeutsam? Um ein Grundverständnis entsprechender
               Entscheidungen zur Planung, Durchführung und Auswertung einer
               Generalisierbarkeitsstudie zu ermöglichen, sollen die wichtigen
               Unterscheidungen gekreuzte vs. geschachtelte Designs sowie feste vs.
               zufällige Effekte kurz erläutert werden:
            
            Gekreuzte vs. geschachtelte Designs: Liegt für jede mögliche
               Kombination von Facettenausprägungen zweier Facetten eine Beurteilung
               vor, so sind diese Facetten gekreuzt, ist dies nicht der Fall, sind die Facetten
               geschachtelt [1 ]. Beurteilen bspw. alle Beurteiler
               alle Objekte, so handelt es sich um ein gekreuztes Design. Gekreuzte Designs
               bieten grundsätzlich eine günstigere Basis für die
               Schätzung aller Varianzkomponenten. In der Praxis sind jedoch oftmals
               keine vollständig gekreuzten Designs realisierbar: Im
               einführenden Beispiel 1 zur Beurteilung der
               Kommunikationsfähigkeit von Therapeuten wird jeder Therapeut von sich
               selbst und einem anderen Rehabilitanden eingeschätzt. Hier ist also
               prinzipiell kein vollständiges Design möglich, da
               gemäß Fragestellung überhaupt keine Beurteilung aller
               Beurteilungsobjekte durch alle Beurteiler erfolgen kann. Zudem wäre es
               durchaus denkbar, dass jeder Therapeut sein Kommunikationsverhalten nicht
               gegenüber einem, sondern gegenüber mehreren Rehabilitanden
               einschätzt und entsprechend von mehreren Rehabilitanden beurteilt wird.
               Da mehrere Rehabilitanden denselben Therapeuten beurteilen, sind diese
               statistisch nicht mehr als unabhängig zu betrachten: Es handelt sich
               dann um ein geschachteltes bzw. genestetes Design. Im Beispiel 3 zum
               Beeinträchtigungsstatus von wiedereinzugliedernden Arbeitsnehmern
               würde ein gekreuztes Design vorliegen, wenn alle Arbeitnehmer durch
               dieselben 3 BGM-Mitarbeiter beurteilt würden. Findet die Datenerhebung
               hingegen in verschiedenen Betrieben statt und wird der
               Beeinträchtigungsstatus durch jeweils 3 betriebseigene BGM-Mitarbeiter
               eingeschätzt, so würde es sich um ein genestetes Design handeln:
               Jede Gruppe von Urteilern würde eine andere Gruppe von Arbeitnehmern
               beurteilen.
            
            In genesteten Designs sind Interaktionseffekte in der Regel nicht
               begründet abschätzbar bzw. getrennt von den Haupteffekten zu
               bestimmen. Im Beispiel weiß man nicht, wie die BGM-Mitarbeiter eines
               Betriebs die Mitarbeiter des anderen Betriebs beurteilt hätten. Werden
               Mitarbeiter in Betrieb A grundsätzlich als weniger
               beeinträchtigt eingeschätzt als in Betrieb B, dann ist keine
               analytische Grundlage vorhanden, zu entscheiden, ob die Beurteiler in Betrieb A
               weniger streng sind oder die Arbeitnehmer tatsächlich weniger belastet
               sind. Entsprechend haben geschachtelte Designs eine geringere Aussagekraft als
               gekreuzte, da die Haupteffekte der geschachtelten Facetten und ihre
               Interaktionseffekte nicht gesondert betrachtet werden können [15 ].
            
            Zufällige und feste Facetten: Die Ausprägungen einer Facette
               werden als zufällig (random) bezeichnet, wenn diese als
               Zufallsrepräsentanten einer größeren Gruppe (Population)
               betrachtet werden können. Das Ziel der Studie besteht dann nicht darin,
               zu bestimmen, wie zuverlässig die an der Studie tatsächlich
               teilnehmenden Urteiler sind, sondern wie zuverlässig die Population
               aller potentiellen Urteiler ist. Werden Reviewer der Klinikqualität aus
               einem Pool von Reviewern bestimmt und soll das Urteil der Reviewer als
               zuverlässiges Maß der Klinikqualität dienen, so sind die
               Reviewer als zufällige Facetten anzusehen. Würden alle Kliniken
               von denselben Urteilern beurteilt (gekreuztes Design) und ist lediglich das
               Urteil dieser Beurteilergruppe von Interesse, würde es sich um eine
               feste (fixed) Facettenausprägung handeln. Werden die Items zur
               Partizipativen Entscheidungsfindung, Empathischen Beziehungsgestaltung und
               Verständlichkeit der Informationsgabe als repräsentative Aspekte
               eines größeren Pools von Indikatoren des Konstrukts
               Kommunikationsfähigkeit betrachtet und soll ein Schluss auf die
               generelle Kommunikationsfähigkeit erfolgen, so handelt es sich ebenfalls
               um eine zufällige Facette. Kann hingegen angenommen werden, dass genau
               diese 3 Teilaspekte das Konstrukt angemessen und vollständig
               repräsentieren, so wären die Iteminhalte als fest zu definieren.
               Zwei Messzeitpunkte können als fest angesehen werden, wenn genau diese
               beiden Messzeitpunkte betrachtet werden. Dies wäre z. B. der
               Fall, wenn die Merkmalsausprägung vor einer Intervention mit der
               Merkmalsauprägung nach einer Intervention verglichen wird. Soll jedoch
               die Veränderung oder die Stabilität einer
               Merkmalausprägung im Zeitverlauf betrachtet werden und werden zu diesem
               Zwecke mehrere Messzeitpunkte ausgewählt, die einen Einblick in den
               unterliegenden allgemeinen zeitabhängigen Verlauf geben sollen, so sind
               die Messzeitpunkte als zufällig anzusehen.
            
            Die Facettenausprägungen eines Zufallsfaktors sind prinzipiell durch
               andere Bedingungen, die die Facette valide repräsentieren, austauschbar.
               Feste Facettenausprägungen sind nur bzgl. ihrer konkreten
               Ausprägungen interpretierbar und sind nicht austauschbar. Die Definition
               als fest bzw. zufällig hat wichtige Implikationen dafür,
               für welche Haupt- und Interaktionseffekte solide
               Reliabilitätsschätzungen möglich sind bzw.
               dafür, wie die bestimmbaren Reliabilitätsschätzungen
               interpretiert werden dürfen. Damit eine G-Studie überhaupt
               durchgeführt werden kann, muss das Studiendesign mindestens eine
               zufällige Facette beinhalten [13 ].
            
            Für die konkrete Festlegung sowohl des Untersuchungsdesigns als auch der
               Definition einer adäquaten statistischen Modellgleichung zur
               Modellierung der Beurteilungsdaten sind also pragmatische, statistische und
               interpretative Aspekte zu berücksichtigen. Insbesondere das Standardwerk
               von Brennan [1 ] liefert die Basis, um alle
               studienbezogenen Entscheidungen angemessen treffen zu können. Zur
               konkreten Anwendung in empirischen Studien können die Arbeiten von Hoyt
               [15 ], Trost und Bungard [16 ] sowie Wasserman, Levy und Loken [17 ] empfohlen werden.
            
            Bezüglich der Stichprobengröße existiert bisher noch
               keine einheitliche Empfehlung. Smith [18 ]
               empfiehlt mindestens 800 Beobachtungen. Bei 3 Items und 2 Beurteilern
               entspräche dies einer Stichprobengröße von mindestens
               134 Personen (3×2×134=804). Würde hingegen
               z. B. die Anzahl der Items auf 10 erhöht werden, wäre
               bereits eine Stichprobe von N=40 (10×2×40=800)
               ausreichend.
            
            Für die statistische Datenanalyse stehen inzwischen sehr gute und
               anwenderfreundliche Softwaretools zur Verfügung, die insbesondere die
               g-Koeffizienten bestimmen und die Varianzkomponentenverteilungen grafisch,
               z. B. in Form von Venn-Diagrammen veranschaulichen. EduG (Swiss Society
               of Research in Education Working Group, [19 ]) oder
               GENOVA [20 ] sind frei verfügbare
               stand-alone Programme. Für die Standardsoftwarepakete SPSS oder SAS kann
               unter
               https://people.ok.ubc.ca/brioconn/gtheory/kostenfrei
               eine Syntax heruntergeladen werden.
            
            
               
               
                  
                     In rehabilitationswissenschaftlichen Anwendungsgebieten werden Beurteilungen
                        häufig eingesetzt, um z. B. behandlungsrelevante
                        Merkmalsausprägungen von Rehabilitanden oder Merkmale von
                        Versorgungsstrukturen, -prozessen und -ergebnissen zu bestimmen. Solche
                        Beurteilungen sollten die festzustellenden Merkmalsausprägungen
                        möglichst genau und aussagekräftig repräsentieren.
                        In der praktischen Anwendung muss jedoch berücksichtigt werden, dass
                        die Messwerte systematisch von Merkmalen der Erhebungssituation
                        überlagert sein können. Die Generalisierbarkeitstheorie
                        bietet einen Ansatz, mittels dessen die Informationsquellen identifiziert
                        werden können, die die Ausprägung der Beurteilungsdaten
                        mitbestimmen und folglich für eine valide Dateninterpretation
                        berücksichtigt werden müssen. Gelingt es für
                        Beurteilungsdaten in der Rehabilitation, potentiell wichtige und verzerrende
                        Einflussquellen zu identifizieren und Einflussquellen im Rahmen einer
                        empirischen Generalisierbarkeitsstudie systematisch in ihrem Zusammenwirken
                        zu untersuchen, so kann ein sehr differenziertes Bild des
                        Beurteilungsprozesses und der Aussagekraft der Beurteilungsdaten ermittelt
                        werden. Diese Informationen bilden die Basis, um Beurteilungsprozesse
                        fundiert hinsichtlich Reliabilität und Validität der Befunde
                        bestmöglich realisieren zu können.