physioscience 2021; 17(01): 25-33
DOI: 10.1055/a-1201-6872
Originalarbeit

Eine Alternative zur klassischen Testtheorie? – Eine exemplarische Anwendung der Generalisierbarkeitstheorie auf der Basis von Sekundärdaten

An Alternative to Classic Test Theory? – An Exemplary Application of Generalizability Theory-based on Secondary Data
Iris Sterkele
1   Physiotherapie Ergotherapie USZ, Universitätsspital Zürich, Zürich, Schweiz
,
Pierrette Baschung Pfister
1   Physiotherapie Ergotherapie USZ, Universitätsspital Zürich, Zürich, Schweiz
2   Forschungszentrum Physiotherapie Ergotherapie USZ, Universitätsspital Zürich, Zürich, Schweiz
,
Ruud Knols
1   Physiotherapie Ergotherapie USZ, Universitätsspital Zürich, Zürich, Schweiz
2   Forschungszentrum Physiotherapie Ergotherapie USZ, Universitätsspital Zürich, Zürich, Schweiz
3   Departement Gesundheitswissenschaften und Technologie, Institut für Bewegungswissenschaften und Sport, ETH Zürich, Zürich, Schweiz
,
Eling D de Bruin
3   Departement Gesundheitswissenschaften und Technologie, Institut für Bewegungswissenschaften und Sport, ETH Zürich, Zürich, Schweiz
4   Division of Physiotherapy, Department of Neurobiology, Care Science and Society, Karolinska Institute, Stockholm, Sweden
5   Research Line Functioning and Rehabilitation, Department of Epidemiology, School CAPHRI Care and Public Health Research Institute, Maastrich University, The Netherland
› Author Affiliations
 

Zusammenfassung

Hintergrund Messungen bilden die Grundlage des wissenschaftsbasierten therapeutischen Vorgehens. Messfehler sind jedoch ein verbreitetes Problem. Um Fehlerquellen zu ermitteln, sind erweiterte statistische Modelle notwendig. Im Gegensatz zur klassischen Testtheorie ermöglicht die Generalisierbarkeitstheorie, mehrere Fehlerquellen gleichzeitig zu untersuchen.

Ziel Vergleich der klassischen Testtheorie und der Generalisierbarkeitstheorie anhand eines physiotherapeutischen Beispiels zur Reliabilitätsermittlung und deren Ergebnisse.

Methode Die Messeigenschaft „Reliabilität“ wurde anhand von Daten einer vorangegangenen Reliabilitätsstudie, in der die klassische Testtheorie zum Einsatz kam, untersucht. Dazu wurde exemplarisch eine Generalisierbarkeitsstudie durchgeführt.

Ergebnisse Die Variabilität ging hauptsächlich von den Probanden und der Probanden-Untersucher-Interaktion aus. Unabhängig von fixen oder zufälligen Facetten waren die Generalisierbarkeitskoeffizienten für alle Bedingungen (overall, inter-rater, intra-Messzeitpunkte) exzellent.

Schlussfolgerung Die Ergebnisse deuten darauf hin, dass die Generalisierbarkeitstheorie gegenüber der klassischen Testtheorie Vorteile hat. Diese ermöglicht es, einen wirkungsvollen und effizienten Einsatz von Messinstrumenten im klinischen Alltag zu ermitteln.


#

Abstract

Background Applying repeated measurements, errors can arise from multiple sources, which affects the outcome. In order to determine these sources of error, an expanded statistical model like the generalizability theory framework is required. In contrast to the classic test theory, it enables the simultaneous investigation of several sources of error.

Objective To demonstrate an exemplary application of generalizability theory in a physiotherapy setting based on an isometric muscle strength test as well as the comparison of two different approaches, the classical test theory and the generalizability theory.

Method Examinizing the clinimetric property „Reliability” based on data of a previous reliability study in which classic test theory was used. For this purpose, an exemplary generalizability study was conducted.

Results Variances resulted mainly from subjects and interactions between subjects and raters. Generalizability coefficients were excellent for all conditions (overall, inter-rater, inter-time point), regardless of the type of facets (fix or random facets).

Conclusion The results of the exemplary generalizability study shows that generalizability theory has advantages over classic test theory. Generalizability theory offers an approach to determine and implement effective and efficient use of measurement protocols for physiotherapy practice.


#

Einleitung

Die Wirksamkeit therapeutischer Maßnahmen systematisch zu messen, ist ein wichtiger Teil der evidenzbasierten Praxis. Messungen und Assessments ermöglichen es, die Patientensituation ganzheitlich zu erfassen, einen Behandlungsplan zu erstellen und den Rehabilitationsverlauf zu überprüfen. Darüber hinaus dienen sie der Messbarkeit des Therapieerfolges und der Qualitätskontrolle. Messungen bilden auch die Grundlage des wissenschaftsbasierten therapeutischen Vorgehens. Behandlungseffekte systematisch zu erfassen, ermöglichen es, Guidelines zu erstellen, nicht ausreichend effektive Behandlungsmethoden zu eliminieren und die Kostenübernahme gegenüber den Kostenträgern wissenschaftlich zu begründen [1]. COSMIN (COnsensus-basierte Standards von gesundheitsbezogenen MessINstrumenten) ist eine internationale, multidisziplinäre Forschungsgruppe, die consensus-basierte Standards zur Selektion gesundheitsspezifischer Messinstrumente entwickelt und evaluiert. Diese Gruppe definiert „Reliabilität“ als das Ausmaß, in dem ein Messinstrument frei von Messfehlern ist [2]. Bei wiederholten Messungen gelangen die messenden Personen unter gleichen Bedingungen (Test-Retest) zum selben Ergebnis. Das Autorenteam unterscheidet zwei Fälle: (1) Der gleiche Untersucher wiederholt die Messung (Intraraterreliabilität) oder (2) ein anderer Untersucher wiederholt die Messung (Interraterreliabilität) [2]. Laut COSMIN-Checkliste umfasst die Domäne „Reliabilität“ drei Messeigenschaften: „Reliabilität“, „Messfehler“ und „interne Konsistenz“. Reliabilität ist die Fähigkeit eines Messinstruments, zwischen Probanden zu differenzieren. Messfehler ist ein Mass für die Präzision wiederholter Messungen durch einen oder mehrere Untersucher. Je kleiner der Messfehler, desto präziser das Messverfahren. Interne Konsistenz beschreibt das Ausmaß der Wechselbeziehung zwischen einzelnen Items. Sie ist ausschließlich für Fragebögen bedeutsam.

Um die Messeigenschaft Reliabilität von wiederholten Messungen zu erheben, wird in der Physiotherapie oft ein klassisches testtheoretisches Framework verwendet [2]. Bei der klassischen Testtheorie (KTT) setzt sich der beobachtete Wert (X) aus einem wahren Wert (η) und einem globalen Messfehler (E) zusammen. Die Messeigenschaft kann wie in Gleichung (1) dargestellt werden [2]:

Zoom Image

Dabei steht h für wiederholte Messungen, welche entweder durch verschiedene Untersucher, bei verschiedenen Messgelegenheiten unter verschiedenen Umständen oder mit verschiedenen Messinstrumenten durchgeführt werden [2]. Der wahre Wert (η) wird als Durchschnittswert über unendlich viele Messungen gesehen. Dieser wird in Gleichung (2) dargestellt. Dabei ist (µx) der globale Durchschnitt über alle Beobachtungen (x) und (Pi) die personenspezifische Abweichung (i steht für den i-ten wahren Wert der i-ten Person aus einer Stichprobe mit Anzahl n Probanden).

Zoom Image

Bei der KTT wird lediglich eine einzelne globale Fehlerquelle berücksichtigt. Es wird davon ausgegangen, dass der Messfehler und der wahre Wert unabhängig voneinander sind. Die KTT definiert die Reliabilität (R) als Verhältnis der Varianz des wahren Wertes () durch die Varianz des beobachteten Wertes () (Gleichung (3)) [2].

Zoom Image

Wie in Gleichung (1) beschrieben, setzt sich der beobachtete Wert (X) aus dem wahren Wert (η) und dem Messfehler (E) zusammen. Deshalb kann die Varianz des beobachteten Wertes () mit der Summe aus der Varianz des wahren Wertes () und der Fehlervarianz () ersetzt werden. Daraus entsteht Gleichung (4) [2]:

Zoom Image

In der KTT erhält die Identifikation multipler Fehlerquellen keine Beachtung. Reliabilität kommt in Form des Intraklassenkorrelationskoeffizienten (ICC) zum Ausdruck [3] [4] und ist nur begrenzt aussagekräftig [5].

In der Physiotherapie erfolgen Messungen jedoch nicht unter vollständig kontrollierbaren Bedingungen. Aus diesem Grund können bei wiederholten Messungen Messfehler durch eine theoretisch unendlich große Vielzahl von Ursachen entstehen. Zu diesen Ursachen zählen beispielsweise die messende Person, das Messinstrument, das Messprotokoll, die Anzahl gewählter Messwiederholungen, die Bedingungen einer Messung oder die Probanden.

Um multiplen Messfehlerquellen in der klinischen Praxis gerecht zu werden, ist ein erweitertes statistisches Modell gefragt. Hier setzt die Generalisierbarkeitstheorie (G-Theorie) an [6] [7]. Bis heute wird die G-Theorie in der Physiotherapie relativ wenig angewendet. Eine Literatursuche in der Datenbank PubMed im März 2020 zur G-Theorie in der Physiotherapie ergab knapp 40 Treffer, eine Suche zur Reliabilität in der Physiotherapie hingegen über 6000 Treffer. Dabei wurden folgende Suchstrategien verwendet: Suche zur G-Studie: (Generalizability Theory OR G-Theory OR G-Study) AND (Physical therapy OR Physiotherapy); Suche zur Reliabilität: (Reliability OR intrarater Reliability OR interrater Reliability) AND (Physical therapy OR Physiotherapy).

Das Ziel dieser Arbeit ist, eine Einführung in die Grundelemente der G-Theorie zu vermitteln. Anhand eines physiotherapeutischen Beispiels zur Reliabilitätsermittlung werden die KTT und die G-Theorie hinsichtlich der Ergebnisse miteinander verglichen. Als Beispiel dient eine typische Untersuchungsanlage. Die Forschungsfrage lautet: Unterscheiden sich der Intraklassenkorrelationskoeffizient (ICC) und die Generalisierbarkeitskoeffizienten (G-Koeffizienten) voneinander?

Theoretische Grundlagen der G-Theorie

Die G-Theorie stellt eine Erweiterung der KTT dar, indem sie den globalen Messfehler in einzelne Bestandteile zerlegt. Damit kann der Einfluss von mehreren Fehlerquellen und deren Interaktionen für ein beliebiges Messverfahren untersucht werden und es können verlässlichere Informationen über die Messzuverlässigkeit in der klinischen Praxis erzielt werden [2] [5] [8]. Die G-Theorie unterscheidet zwei Studientypen: G-Studie (Generalisierbarkeitsstudie) und D-Studie (Entscheidungsstudie) [9] [10]. In einer G-Studie werden für alle mit der Messung verbundenen Fehlerquellen bzw. Facetten und für deren Interaktionen der Beitrag an der Varianz untersucht und quantifiziert. Diese Varianzquellen werden verwendet, um zu bestimmen, welche Facetten oder welche Interaktionen am meisten zum Messfehler beitragen und folglich in klinischen Settings kontrolliert werden sollten. Mittels einer D-Studie wird untersucht, welche Messprotokolle in der klinischen Praxis optimal sind, um zuverlässige Daten zu erhalten [5].

In einem ersten Schritt wird das sogenannte Universum von zulässigen Beobachtungen (universe of admissible observations) definiert. In der G-Theorie wird unter dem Begriff Universum nicht der gesamte Kosmos verstanden, sondern die Bedingungen und Bestandteile (Facetten), welche das zu untersuchende Messverfahren beinhaltet [8]. Diese werden aufgrund theoretischer Vorüberlegungen vom Forscher definiert. Somit werden alle diejenigen Facetten eruiert, welche als Fehlerquelle im definierten Universum in Frage kommen. Sie gelten nur für das vom Forscher festgelegte Szenario [8].

Weiter muss das Messprozedere, das sogenannte Design, bestimmt werden. Dabei werden zwei Designs unterschieden, ein vollständig gekreuztes (crossed) oder ein verschachteltes (nested) Design. Bei einem vollständig gekreuzten Design werden alle denkbaren Kombinationen aus den verschiedenen Facetten berücksichtigt. Beispielsweise werden alle Probanden von allen Untersuchern zu jedem Messzeitpunkt gemessen. Bei einem verschachtelten Design findet eine Zuteilung statt. Die Probanden werden beispielsweise Untersucher A oder Untersucher B zugewiesen, sodass nicht jeder Untersucher alle Probanden misst [5]. Wird beispielsweise die Muskelkraft einer Stichprobe zu verschiedenen Zeitpunkten von unterschiedlichen Untersuchern gemessen, wobei jeder Untersucher jeweils alle Probanden zu jedem Messzeitpunkt misst, liegt ein vollständig gekreuztes zweifaktorielles Design vor ([Abb. 1]).

Zoom Image
Abb. 1 Venn-Diagramm eines zweifaktoriellen Designs (P × M × R × PRM, E). (Quelle: I. Sterkele, graf. Umsetzung Thieme Group).

Die Facetten bei diesem Messprozedere sind: Messzeitpunkt, Proband und Untersucher. Jeder beobachtete Wert (Xijk) einer einzelnen Kraftmessung eines Probanden, erhoben durch einen einzelnen Untersucher, kann dann mit folgendem Modell (5) dargestellt werden:

Zoom Image

Dabei wird jede Kraftmessung durch 3 Facetten, Messzeitpunkt (Mk), Tagesform des Probanden (Pi) und des Untersuchers (Rj) und deren Interaktionen (PMik, PRij, RMjk) zueinander sowie eines Residualfehlers (PRMijk), auch (Eijk) genannt, beeinflusst ([Tab. 1]).

Tab. 1

Begriffserklärungen zu Modell (5).

Xijk

Beobachtungswert des i-ten Probanden, j-ten Untersuchers, k-ten Messzeitpunktes

µ

globaler Durchschnitt aller Facetten, Interaktionen und des Residualfehlers

Facetten

Pi

Effekt des i-ten Probanden

Rj

Effekt des j-ten Untersuchers

Mk

Effekt des k-ten Messzeitpunktes

Interaktionen

PMik

Interaktionseffekt zwischen i-ten Probanden und k-ten Messzeitpunktes

PRij

Interaktionseffekt zwischen i-ten Probanden und j-ten Untersuchers

RMjk

Interaktionseffekt zwischen j-ten Untersuchers und k-ten Messzeitpunktes

Residualfehler

PRMijk

Residualfehler des i-ten Probanden, j-ten Untersuchers, k-ten Messzeitpunktes

In der G-Theorie werden die Facetten des definierten Universums von zulässigen Beobachtungen unterschiedlich bezeichnet. Die Facette, die sich auf das Messobjekt bezieht, heißt Facette der Differenzierung (D-Facette, facet of differentiation) [5] [8]. Häufig handelt es sich dabei um Patienten. Facetten können jedoch, abhängig vom Messkontext, auch Situationen, Dinge oder Szenarien sein. In jeder Studie existiert jeweils nur eine D-Facette [5] [8]. Die Facetten, die Fehlerquellen darstellen, werden Facetten der Generalisierung (G-Facette, facet of generalisation) genannt. Je nach Forschungsfrage können eine oder mehrere G-Facetten definiert werden [5] [8]. Ist die G-Facette beispielsweise die Facette „Messzeitpunkt“ (M), wird untersucht, inwieweit bei wiederholten Messungen von einem Messzeitpunkt auf einen anderen generalisiert werden kann. Wenn für 2 Facetten generalisiert wird, beispielsweise „Untersucher“ (R) und „Messzeitpunkt“ (M), wird untersucht, inwieweit die Messungen Messzeitpunkt und Untersucher unabhängig sind. Weiter wird unterschieden, ob eine Facette „fix“ (fix facets) ist, also ob sie im gesamten Messverfahren konstant bleibt und somit nicht fehlerbehaftet ist, oder ob sie „zufällig“ ist. Zufällige Facetten (random facets) sind diejenigen Facetten, die zum relevanten Fehler beitragen [5]. Im nächsten Schritt werden aus allen Facetten und deren Interaktionen des Modells Varianzkomponenten gebildet. Daraus wird anschließend der sogenannte Generalisierbarkeitskoeffizient (G-Koeffizient oder G) berechnet.

Jeder G-Koeffizient ist eine Erweiterung des klassischen Reliabilitätskoeffizienten. Analog zur Gleichung (4) stellt der G-Koeffizient ein Verhältnis aus der Varianz des universalen Wertes und der Summe der Varianz des universalen Wertes und der Fehlervarianz dar (Gleichung (6)) [8].

Zoom Image

Der universale Wert (τ) ist der Erwartungswert (Durchschnitt) für einen Probanden über alle Facetten der Generalisation. Er entspricht dem „wahren“ Wert (η) der KTT. Im Gegensatz zur KTT besteht jedoch nicht ein einziger wahrer Wert, sondern abhängig davon, auf welche Facette oder Facetten des Modells generalisiert wird, verschiedene „wahre“ Werte [5] [8].

Je nach Messszenario, also abhängig davon, ob fixe oder zufällige Facetten vorhanden sind, wird der G-Koeffizient mit einer relativen Fehlervarianz () oder absoluten Fehlervarianz () berechnet [5] [8]. Anhand von zwei unterschiedlichen Messszenarien wird mit dem vorgestellten Beispiel der Kraftmessung nachfolgend erläutert, bei welchem Messszenario die relative respektive absolute Fehlervarianz verwendet wird. In beiden Messszenarien ist die Facette, auf welche generalisiert wird, die Facette „Untersucher“ (R). In einem ersten Szenario werden die Messungen jeweils von denselben Untersuchern durchgeführt. Die Facette „Untersucher“ ist somit eine „fixe“ Facette. Da fixe Facetten nicht zum relevanten Fehler beitragen, wird davon ausgegangen, dass die Messung in diesem Fall nicht für systematische Verzerrungen durch die Untersucher korrigiert werden muss [5]. In diesem Messszenario besteht die Fehlervarianz lediglich aus der Summe der Varianz der Interaktionen zwischen Untersucher und Proband und einem Residualfehler (Gleichung 7). Diese wird relative Fehlervarianz genannt. Ein G-Koeffizient, welcher mit der relativen Fehlervarianz, also fixen Facetten, berechnet wird, wird mit dem Symbol Ερ2 beschriftet (Gleichung 7.1) [8] ([Tab. 2]).

Tab. 2

Begriffserklärungen zu Gleichung (7).

Interaktion

Varianz der Interaktion zwischen Probanden und Untersucher

Residualfehler

Varianz des Residualfehlers

Zoom Image
Zoom Image

Im zweiten Szenario sind die Untersucher aus einer Zufallsstichprobe aller verfügbaren Untersucher zufällig gewählt. Die Facette „Untersucher“ ist damit eine „zufällige“ Facette. Zufällige Facetten sind fehlerbehaftet und tragen zum relevanten Fehler bei. Deshalb wird das Ausmaß der Verzerrung, das durch die Untersucher entsteht, in der Fehlervarianz berücksichtigt. Analog zum G-Koeffizient Ερ2 wird der G-Koeffizient mit der absoluten Fehlervarianz berechnet und mit Φ angegeben. Dieser G-Koeffizient wird auch Zuverlässigkeitskoeffizient oder Index der Zuverlässigkeit genannt (index of dependability) (Gleichung 8) [8]).

Zoom Image

Die absolute Fehlervarianz besteht in diesem Beispiel aus der Summe aller Varianzkomponenten und Interaktionen mit Untersucher (R) und einem Residualfehler (Gleichung 8.1) ([Tab. 3]).

Tab. 3

Begriffserklärungen zu Gleichung (8.1).

Facette

Varianz des Untersuchers

Interaktionen

Varianz der Interaktion zwischen Messzeitpunkt und Untersucher

Varianz der Interaktion zwischen Probanden und Untersucher

Residualfehler

Varianz des Residualfehlers

Zoom Image

Für die Interpretation der G-Koeffizienten wird analog zur Interpretation der Reliabilitäts-Koeffizienten ein Kontinuum von 0–­1 verwendet. Werte von < 0,4 bedeuten schlechte, 0,4–0,75 faire bis gute und > 0,75 exzellente Reliabilität [11].


#
#

Methode

Probanden und Prozedere

Für die vorliegende Studie wurden Daten von 50 Personen mit inflammatorischer Myopathie (IM) verwendet. Die Daten wurden im Rahmen einer vorangegangenen Reliabilitätsstudie erhoben, wobei die KTT für die Analyse eingesetzt wurde [12]. Die Messungen wurden von 2 erfahrenen Physiotherapeutinnen durchgeführt. Die isometrische Maximalkraft der Schulterabduktoren wurde mit dem MicroFET2, einem handgehaltenen Dynamometer (Hoggan Health Industries Inc. West Draper: Messeinheit: Newton (N)), zu 3 verschiedenen Messzeitpunkten insgesamt 3 × gemessen. Die erste Messung diente als Testdurchlauf. Aus der zweiten und dritten Messung wurde die durchschnittliche isometrische Maximalkraft für jeden Probanden berechnet. 21 Probanden wurden von Therapeutin A und 29 Probanden von Therapeutin B gemessen. Nach einer Woche testeten Therapeutinnen A und B dieselben Probanden erneut. Zum dritten Messzeitpunkt wechselten die Therapeutinnen ([Abb. 2]). Eine ausführliche Beschreibung der Probanden, der Rekrutierung und des Studienprozederes erfolgte in [12].

Zoom Image
Abb. 2 Studienprozedere. (Quelle: I. Sterkele, graf. Umsetzung Thieme Group).

#

Studiendesign

Aus dem Messkontext ergaben sich theoretisch die Facetten Proband (Pi), Messzeitpunkt (Mk), Rater (Rj) und die Interaktionen (PMik), (RMjk), (PRij) sowie der Residualfehler (PMRijk). Idealerweise hätte jede Therapeutin alle Probanden zu 3 Messzeitpunkten getestet – im Sinne eines vollständig gekreuzten zweifaktoriellen Designs (crossed two-factor design). Das konkrete Studienprozedere sah jedoch vor, dass zum Messzeitpunkt 1 eine zufällige Zuteilung der Probanden zu Therapeutin A oder Therapeutin B erfolgte. Dadurch wurden die Probanden zum Messzeitpunkt 1 lediglich von einer Untersucherin gemessen, wodurch die Interaktion PMik mit jeweils nur einem Messwert gemessen wurde. Das entspricht einem nicht vollständig gekreuzten Design mit zwei Facetten (Messzeitpunkt und Untersucher), weshalb nur die Haupteffekte (Effekt der Facetten) und 2 der 3 Interaktionseffekte geschätzt wurden. In diesem Modell (9) besteht der beobachtete Wert (Xijk) aus dem globalen Durchschnitt (µ) aller abschätzbarer Facetten und Interaktionen sowie aus einem Residualfehler ([Tab. 4]).

Tab. 4

Begriffserklärung zu Modell (9).

Xijk

Beobachtungswert des i-ten Probanden, j-ten Untersuchers, k-ten Messzeitpunktes

µ

globaler Durchschnitt aller Facetten, Interaktionen und des Residualfehlers

Facetten

Pi

Effekt des i-ten Probanden

Rj

Effekt des j-ten Untersuchers

Mk

Effekt des k-ten Messzeitpunktes

Interaktionen

PRij

Interaktionseffekt zwischen i-ten Probanden und j-ten Untersuchers

RMjk

Interaktionseffekt zwischen j-ten Untersuchers und k-ten Messzeitpunktes

Residualfehler

PRMijk

Residualfehler

Zoom Image

Im beschriebenen Modell waren die Probanden (P) die D-Facette. Exemplarisch wurden verschiedene G-Facetten definiert:

  • (1) generalisieren für Untersucher (R) und Messzeitpunkt (M) G-overall

  • (2) generalisieren für Untersucher (R) G-inter-rater

  • (3) generalisieren für Messzeitpunkt (M) G-inter-Messzeitpunkt

Für die Bedingungen (2) G-inter-rater und (3) G-inter-Messzeitpunkt wurden jeweils 3 unterschiedliche Varianten mit fixen und zufälligen Facetten durchgespielt:

  • (a) Messzeitpunkt und Untersucher sind zufällige Facetten

  • (b) die G-Facette ist zufällig

  • (c) die G-Facette ist fix

Für alle 3 Bedingungen wurden die universalen Werte und die absoluten sowie relativen Fehler abgeleitet (siehe Anhang 1–3).


#

Datenanalyse

G-Studie

Entsprechend der G-Theorie wurden für alle Haupteffekte, Interaktionseffekte und für den Residualfehler Varianzkomponenten berechnet ([Tab. 5]). Für die Berechnung der Varianzkomponenten wurde jeweils der Durchschnitt der isometrischen Maximalkraft der Muskelgruppe Schulterabduktoren verwendet. Diese wurden mit einem linearen Mixed-Model (lmer) des R-lme4-package, einer Funktion des Softwareprogrammes R, Version 3.6.1 für Windows, geschätzt (R-Code siehe Anhang 7) [13] [14]. Aus den Varianzen wurden die Varianzen der universalen Werte () und der absoluten () sowie der relativen Fehler () gebildet (siehe Anhang 4). Abschließend wurden die G-Koeffizienten (Ερ2) respektive (Φ) für alle Bedingungen empirisch berechnet (siehe Anhang 5). Zur Interpretation der G-Koeffizienten wurde folgendes Klassifikationssystem verwendet: Werte < 0,4 bedeutet schlechte, 0,4–0,75 faire bis gute und > 0,75 exzellente Reliabilität [11].

Tab. 5

Varianzkomponenten aller Haupteffekte, Interaktionseffekte und des Residuals.

Varianzkomponenten der Haupteffekte

Beschreibung

Varianzkomponente des Probanden

Varianzkomponente des Untersuchers

Varianzkomponente des Messzeitpunktes

Varianzkomponenten der Interaktionseffekte

Varianzkomponente der Interaktion zwischen Probanden und Untersucher

Varianzkomponente der Interaktion zwischen Untersucher und Messzeitpunkt

Varianz des Residualfehlers

Varianzkomponente des Residualfehlers

M = Messzeitpunkt; P = Proband; R = Untersucher; RM = Interaktion Untersucher und Messzeitpunkt; PMR = Restfehler; PR = Interaktion Proband und Untersucher


#
#
#

Ergebnisse

Von 50 Probanden waren 22 von Dermatomyositis betroffen, 17 hatten Polymyositis und 11 litten an einer assoziierten Myositis (Myositis kombiniert mit einer anderen rheumatologischen oder onkologischen Erkrankung). [Tab. 6] beschreibt die demografischen und gesundheitsbezogenen Daten der Probanden.

Tab. 6

Demografische und gesundheitsbezogene Daten der Probanden (n = 50).

Eigenschaften

Werte

Geschlecht, n (%)

Frauen

38 (76)

Männer

12 (24)

Alter, in Jahren

Mittelwert ± SD

56 ± 14

Range

21–82

BMI, in kg/cm2

Mittelwert ± SD

26 ± 5

Diagnose, n (%)

DM

22 (44)

PM

17 (34)

assoziiert

11 (22)

Krankheitsdauer (Monate)

Mittelwert ± SD

36 ± 18

Range

0.25–240

DM = Dermatomyositis; n = Häufigkeit; PM = Polymyositis; SD = Standardabweichung

Die Probanden erreichten bei der ersten Messung eine durchschnittliche Maximalkraft von 92 N ± 39 N SD, bei der zweiten Messung 88 N ± 35 N SD und bei der dritten Messung 89 N ± 42 N SD ([Tab. 7]).

Tab. 7

Durchschnittliche Kraft der Schulterabduktoren für alle Messzeitpunkte M1–M3.

M1

M2

M3

Newton

Mittelwert ± SD

Newton

Mittelwert ± SD

Newton

Mittelwert ± SD

92 ± 39

88 ± 35

89 ± 42

M = Messzeitpunkt; SD = Standardabweichung

G-Studie

Die größte Varianz war auf die Probanden zurückzuführen . Die Varianzen der Untersucher und der Messzeitpunkte waren gering ( und ). Die größte Interaktionsvarianz bestand zwischen den Untersuchern und den Probanden . Es gab keine Interaktionsvarianz zwischen den Untersuchern und den Messzeitpunkten . Die Varianz des Residualfehlers lag bei ([Tab. 8]).

Tab. 8

Varianzkomponenten und Prozentangaben aller Haupteffekte, Interaktionseffekte und des Residuals der isometrischen Maximalkraft der Schulterabduktoren.

Varianzquellen

Varianzkomponenten

Prozent %

Proband,

1154,9

77,0

Untersucher,

   7,6

 0,5

Messzeitpunkt,

   8,9

 0,6

Proband × Untersucher,

 164,3

11,0

Untersucher × Messzeitpunkt,

   0

 0

Proband × Untersucher × Messzeitpunkt

(Residualfehler),

 160,6

11,0

M = Messzeitpunkt, P = Proband, PMR = Restfehler, PR = Interaktion Proband und Untersucher, R = Untersucher, RM = Interaktion Untersucher und Messzeitpunkt

Die G-Koeffizienten (Ερ2) und (Φ) lagen zwischen 0,77 und 0,89. Dieses Ergebnis entspricht einer exzellenten Reliabilität. Für die Bedingung (1) G-overall war der G-Koeffizient (Φ = 0,77), für die Bedingung (2) G-inter-rater (Ερ2 = 0,78 und Φ = 0,78) und für die Bedingung (3) G-inter-Messzeitpunkt (Ερ2 = 0,89 und Φ = 0,89). Die Ergebnisse resultierten unabhängig davon, ob die G-Facette als „zufällige“ oder „fixe“ Facette behandelt worden war.


#

Reliabilitätsstudie

Die Interraterreliabilität, erhoben mit der KTT, war ebenfalls exzellent (ICC2: 0,88) [12]. Die Formel zur Berechnung des ICC ist im Anhang 6 dargestellt. Die Ergebnisse der Reliabilitätsstudie sind detailliert beschrieben in [12]. [Tab. 9] zeigt die Ergebnisse der G-Studie und der Reliabilitätsstudie.

Tab. 9

G- und Φ-Koeffizienten für alle Bedingungen sowie Intraklassenkorrelationskoeffizient für die Muskelgruppe Schulterabduktoren.

Reliabilitätsstudie

Intraklassenkorrelationskoeffizient (ICC)

0,88

G-Studie

G-overall

Bedingungen

Φ-Koeffizient

Messzeitpunkt und Untersucher „zufällig“ (1a)

0,77[1]

G-inter-rater

Bedingungen

Φ-Koeffizient

Messzeitpunkt und Untersucher „zufällig“ (2a)

0,78

Messzeitpunkt „fix“ und Untersucher „zufällig“ (2b)

0,78

G-Koeffizient (Εp2)

Messzeitpunkt „zufällig“ und Untersucher „fix“ (2c)

0,78

G-inter-Messzeitpunkt

Bedingungen

Φ-Koeffizient

Messzeitpunkt und Untersucher „zufällig“ (3a)

0,89

Untersucher „fix“ und Messzeitpunkt „zufällig“ (3b)

0,89

G-Koeffizient (Εp2)

Untersucher „zufällig“ und Messzeitpunkt „fix“ (3c)

0,89

1 Berechnungsbeispiel siehe Anhang 7.5.1



#
#

Diskussion

Das Ziel dieser Arbeit war, in die Grundelemente der G-Theorie einzuführen und anhand eines Beispiels aus der Physiotherapie eine G-Studie exemplarisch durchzuführen. Auf diese Weise war der Vergleich der beiden Ansätze (KTT und G-Theorie) hinsichtlich der Ergebnisse möglich.

Die Ergebnisse zeigen, dass die Reliabilität – unabhängig von fixen oder zufälligen Facetten – für alle Bedingungen exzellent ist. Die Varianzen sind hauptsächlich auf die Probanden und die Probanden-Untersucher-Interaktion zurückzuführen. Dieses Ergebnis deutet darauf hin, dass das handgehaltene Dynamometer hinsichtlich der Schulterabduktoren sehr gut zwischen Personen mit IM differenziert. Zudem ist eine Verallgemeinerung für verschiedene Messzeitpunkte und Untersucher möglich. Aufgrund der geringen Varianzen der Haupteffekte „Untersucher“ und „Messzeitpunkt“ ist die Reliabilität für alle Bedingungen gleich – unabhängig von fixen oder zufälligen Facetten. Die G-Koeffizienten für Bedingung (2) (G-inter-rater) ist aufgrund der größeren Interaktionsvarianz zwischen Untersucher und Probanden und dem dadurch größeren Fehleranteil geringer als diejenigen der Bedingung (3) G-inter-Messzeitpunkt. Mehrere Gründe für die sehr guten Werte der G-Koeffizienten und die geringe Variabilität der Haupteffekte sowie der Interaktionseffekte kommen infrage: ein optimal standardisiertes Messprotokoll, sehr gute Eichung durch die Therapeutinnen sowie eine akkurate Patienteninstruktion.

Studien, welche die Reliabilität ebenfalls mit der G-Theorie untersuchten, erzielten ähnliche Werte [15] [16] [17]. Zwei Studien ermittelten die Kraft der Knie-Extensoren bei gesunden Personen mittels eines handgehaltenen Dynamometers [15] [17]. Eine Untersuchung bestimmte Knieflexoren und -extensoren bei Patienten nach Knie- oder Hüft-Endoprothetik mittels eines fixierten Dynamometers [16]. Die Berechnung der G-Koeffizienten erfolgte jedoch nur in 2 Studien. Das Ergebnis war jeweils exzellent inter-rater (Φ: 0,92–0,99) [16], inter-tag (Φ: 0,95) und overall (Φ: 0,93) [17].

Die exzellente Interraterreliabilität war unabhängig davon, ob die KTT (ICC2 = 0,88) [12] oder die G-Theorie (Ερ2 = 0,78; Φ = 0,78) zum Einsatz kam. Gründe für die ähnlichen Werte (ICC und G-Koeffizienten) könnten darin bestehen, dass zur Berechnung des ICC2 die Fehlerquelle „Untersucher“ ebenfalls Berücksichtigung fand. Dadurch ist ICC2 äquivalent zum G-Koeffizienten, dessen Berechnung ebenfalls mit einer einzelnen zusätzlichen Fehlerquelle (Untersucher) erfolgte [17].

In der vorliegenden Studie wurde neben der Fehlerquelle „Untersucher“ als weitere Fehlerquelle der Messzeitpunkt berücksichtigt. Die einzelnen Fehlerkomponenten wurden bei der Berechnung der G-Koeffizienten summiert. Daraus kann ein größerer Fehleranteil resultieren. Ebenso können Unterschiede in den ICC-Werten und G-Koeffizienten entstehen. In Studien, in denen die Reliabilität ebenfalls anhand beider Ansätze (KTT bzw. G-Theorie) ermittelt und die Ergebnisse miteinander verglichen wurden, waren ebenfalls geringe Unterschiede der ICC-Werte gegenüber G-Koeffizienten feststellbar [17] [18]. Da Messungen im klinisch-therapeutischen Alltag unter nicht vollständig kontrollierbaren Bedingungen stattfinden, sind die Ergebnisse durch eine Vielzahl von Fehlerquellen beeinflusst. Daher ist es wichtig, diese Fehlerquellen zu untersuchen.

Das Ziel einer G-Studie besteht darin, die Komponenten eines Messprozederes zu ermitteln, die am stärksten zur Messvariabilität beitragen. Dieses Vorgehen ermöglicht Physiotherapeuten zu entscheiden, wie sie das Messinstrument wirksam und effizient in der Praxis einsetzen. Das Ergebnis einer G-Studie kann beispielsweise darauf hinweisen, dass die Variabilität hauptsächlich auf den Messzeitpunkt zurückzuführen ist. Je nach untersuchtem Kontext könnte das bedeuten, dass (1) Messungen immer zur selben Tageszeit durchgeführt werden sollten oder (2) das Messinstrument sich nicht für Verlaufsmessungen eignet. Im Gegensatz zur KTT bietet die G-Theorie weitere Informationen bezüglich der Generalisierbarkeit aller untersuchten Fehlerquellen im Rahmen des Messprozederes.

In der Physiotherapie liegen bislang wenige Studien vor, welche die Reliabilität von Messinstrumenten mit dem Ansatz der G-Theorie untersuchen. In den durchgeführten Studien wurde die Reliabilität abhängig vom Kontext für unterschiedliche Bedingungen (Test-retest, inter-rater, inter-tag, inter-trial oder overall) ermittelt. Mehrere Ursachen könnten zur bisher geringen Verbreitung der G-Theorie in der physiotherapeutischen Forschung infrage kommen. Neben der geringen Bekanntheit könnten auch die hohen statistischen und technischen Anforderungen limitierend sein. Zudem ist die Auswertung großer Datensätze sehr aufwendig. Es ist bisher auch kaum bekannt, dass G-Studien mit ordinal skalierten Daten durchführbar sind [31] [32].

Limitationen

Eine Limitation dieser Arbeit bestand in der Zuteilung der Probanden zu Therapeutin A oder B. Dadurch ergab sich ein nicht vollständig gekreuztes Design. Bei einem vollständig gekreuzten Design wäre es möglich gewesen, eine zusätzliche Fehlerquelle einzuschätzen: die Interaktion zwischen Probanden und Messzeitpunkt. Diese Situation hätte eine weitere Präzisierung der Fehlerquellen ermöglicht. Zusätzlich hätte der Messfehler (SEM) für jede Bedingung aus der Wurzel der absoluten respektive relativen Fehlervarianz berechnet werden können, um daraus weiter die kleinste erkennbare Veränderung (SDC) zu berechnen. Diese Berechnung ist vor allem für Verlaufsmessungen wichtig, um Veränderungen (vorher-nachher) zu quantifizieren. Aus exemplarischen Gründen wurde für die Bedingungen (2) und (3) eine Variante mit fixer G-Facette durchgespielt. Die klinische Forschung ermittelt jedoch häufig, ob eine Generalisierung für zufällig gewählte Untersucher, Messzeitpunkte oder für beide Komponenten möglich ist. Deshalb finden vor allem die Varianten (a) und (b) oder die Bedingung (1) (Varianten mit zufälligen Facetten) Verwendung.


#
#

Schlussfolgerungen

Die Ergebnisse der exemplarischen G-Studie deuten darauf hin, dass die G-Theorie gegenüber der KTT Vorteile hat. Erstens ist es möglich, für beliebig viele Fehlerquellen eines Messprozederes das Ausmaß der Variabilität zu ermitteln. Zweitens lässt sich die Generalisierbarkeit eines Messprozederes für beliebig viele Facetten ermitteln. Dadurch können Physiotherapeuten im klinischen Alltag Messungen wirkungsvoll und effizient einsetzen.

Mittels einer D-Studie wäre es möglich, die beste Messstrategie zu ermitteln. Dabei gilt es, zu untersuchen, mit welcher Kombination der Untersucherzahl und der Messgelegenheiten die jeweils beste Generalisierbarkeit möglich ist. Dadurch könnte es gelingen, das kosteneffizienteste und präziseste Messprozedere mit den geringsten Fehleranteilen zu ermitteln.


#
#

Interessenkonflikt

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.


Korrespondenzadresse

Iris Sterkele
Gloriastrasse 25
8091 Zürich
Schweiz   

Publication History

Received: 17 June 2020

Accepted: 03 September 2020

Article published online:
03 February 2021

© 2021. Thieme. All rights reserved.

Georg Thieme Verlag KG
Rüdigerstraße 14, 70469 Stuttgart, Germany


Zoom Image
Zoom Image
Zoom Image
Zoom Image
Zoom Image
Abb. 1 Venn-Diagramm eines zweifaktoriellen Designs (P × M × R × PRM, E). (Quelle: I. Sterkele, graf. Umsetzung Thieme Group).
Zoom Image
Zoom Image
Zoom Image
Zoom Image
Zoom Image
Zoom Image
Zoom Image
Abb. 2 Studienprozedere. (Quelle: I. Sterkele, graf. Umsetzung Thieme Group).
Zoom Image