Übereinstimmung von Bewertungen
In Artikel Nr. 23 [1] der DMW-Statistik-Serie haben wir die Übereinstimmung zwischen Bewertern bei kategoriellen
Variablen behandelt. In diesem Fall ist der Kappa-Koeffizient nach Cohen das Verfahren
der Wahl [1]. Die vorliegende Arbeit befasst sich mit der Bewertung der Übereinstimmung bei Daten
mit kontinuierlichem Messniveau.
Klinische Messwerte weisen immer eine mehr oder weniger große Ungenauigkeit auf. Der
Messfehler resultiert dabei zum Einen aus der Ungenauigkeit (dem „Auflösungsvermögen”)
des Messverfahrens selbst, die ihrerseits wiederum verschiedene Komponenten haben
kann, und zum Anderen aus intraindividuellen Schwankungen der Ausprägung der beim
Patienten zu messenden Variable. In solchen Fällen werden häufig Messungen wiederholt
oder unterschiedliche Messverfahren eingesetzt. Dabei sind zwei Aspekte von Bedeutung:
1) Wie gut ist die Übereinstimmung von wiederholten Messwerten einer bestimmten Messmethode
(„repeatability”, „reliability”), d. h. die Bestimmung des Messfehlers der Methode
ist von Interesse, und 2) wie gut ist die Übereinstimmung unterschiedlicher Messmethoden
untereinander („agreement”). Beispielsweise möchte man einen teuren oder zeitaufwändigen
Labortest durch ein günstigeres bzw. schnelleres Verfahren ersetzen. Voraussetzung
hierfür ist jedoch eine hinreichende Übereinstimmung der erzielten Messergebnisse.
In der Praxis werden derartige Daten häufig mit nicht adäquaten Analyseverfahren ausgewertet.
Anhand des folgenden Beispiels diskutieren wir zunächst die Mängel und Nachteile dieser
Verfahren und beschreiben dann geeignete und effiziente Verfahren zur Auswertung von
kontinuierlichen Daten beim Vergleich von Messmethoden.
Ein einführendes Beispiel
Tab. [1] zeigt manuelle (SBD1) sowie maschinelle Messwerte (SBD2) des systolischen Blutdrucks
an 30 Personen (Beispiel 1, Teildatensatz aus [2]). Von Interesse ist es, wie gut die beiden Messmethoden übereinstimmen („agreement”).
Tab. 1 Systolische Blutdruckmessungen (SBD1 = manuell, SBD2 = maschinell) an 30 Personen
(Teildatensatz aus [2]) in mm Hg.
<TD VALIGN="TOP">
Nr
</TD><TD VALIGN="TOP">
SBD1
</TD><TD VALIGN="TOP">
SBD2
</TD><TD VALIGN="TOP">
SBD1-SBD2
</TD><TD VALIGN="TOP">
SBD1*
</TD><TD VALIGN="TOP">
SBD2*
</TD><TD VALIGN="TOP">
SBD1**
</TD><TD VALIGN="TOP">
SBD2**
</TD><TD VALIGN="TOP">
SBD1**-SBD2**
</TD>
<TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
107
</TD><TD VALIGN="TOP">
124
</TD><TD VALIGN="TOP">
-17
</TD><TD VALIGN="TOP">
128,4
</TD><TD VALIGN="TOP">
99,2
</TD><TD VALIGN="TOP">
99
</TD><TD VALIGN="TOP">
132
</TD><TD VALIGN="TOP">
-33
</TD>
<TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
108
</TD><TD VALIGN="TOP">
128
</TD><TD VALIGN="TOP">
-20
</TD><TD VALIGN="TOP">
129,6
</TD><TD VALIGN="TOP">
102,4
</TD><TD VALIGN="TOP">
100
</TD><TD VALIGN="TOP">
136
</TD><TD VALIGN="TOP">
-36
</TD>
<TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
82
</TD><TD VALIGN="TOP">
98
</TD><TD VALIGN="TOP">
-16
</TD><TD VALIGN="TOP">
98,4
</TD><TD VALIGN="TOP">
78,4
</TD><TD VALIGN="TOP">
74
</TD><TD VALIGN="TOP">
106
</TD><TD VALIGN="TOP">
-32
</TD>
<TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
135
</TD><TD VALIGN="TOP">
-31
</TD><TD VALIGN="TOP">
124,8
</TD><TD VALIGN="TOP">
108,0
</TD><TD VALIGN="TOP">
96
</TD><TD VALIGN="TOP">
143
</TD><TD VALIGN="TOP">
-47
</TD>
<TD VALIGN="TOP">
5
</TD><TD VALIGN="TOP">
112
</TD><TD VALIGN="TOP">
124
</TD><TD VALIGN="TOP">
-12
</TD><TD VALIGN="TOP">
134,4
</TD><TD VALIGN="TOP">
99,2
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
132
</TD><TD VALIGN="TOP">
-28
</TD>
<TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
124
</TD><TD VALIGN="TOP">
136
</TD><TD VALIGN="TOP">
-12
</TD><TD VALIGN="TOP">
148,8
</TD><TD VALIGN="TOP">
108,8
</TD><TD VALIGN="TOP">
116
</TD><TD VALIGN="TOP">
144
</TD><TD VALIGN="TOP">
-28
</TD>
<TD VALIGN="TOP">
7
</TD><TD VALIGN="TOP">
102
</TD><TD VALIGN="TOP">
112
</TD><TD VALIGN="TOP">
-10
</TD><TD VALIGN="TOP">
122,4
</TD><TD VALIGN="TOP">
89,6
</TD><TD VALIGN="TOP">
94
</TD><TD VALIGN="TOP">
120
</TD><TD VALIGN="TOP">
-26
</TD>
<TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
112
</TD><TD VALIGN="TOP">
135
</TD><TD VALIGN="TOP">
-23
</TD><TD VALIGN="TOP">
134,4
</TD><TD VALIGN="TOP">
108,0
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
143
</TD><TD VALIGN="TOP">
-39
</TD>
<TD VALIGN="TOP">
9
</TD><TD VALIGN="TOP">
112
</TD><TD VALIGN="TOP">
122
</TD><TD VALIGN="TOP">
-10
</TD><TD VALIGN="TOP">
134,4
</TD><TD VALIGN="TOP">
97,6
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
130
</TD><TD VALIGN="TOP">
-26
</TD>
<TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
100
</TD><TD VALIGN="TOP">
111
</TD><TD VALIGN="TOP">
-11
</TD><TD VALIGN="TOP">
120,0
</TD><TD VALIGN="TOP">
88,8
</TD><TD VALIGN="TOP">
92
</TD><TD VALIGN="TOP">
119
</TD><TD VALIGN="TOP">
-27
</TD>
<TD VALIGN="TOP">
11
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
111
</TD><TD VALIGN="TOP">
-7
</TD><TD VALIGN="TOP">
124,8
</TD><TD VALIGN="TOP">
88,8
</TD><TD VALIGN="TOP">
96
</TD><TD VALIGN="TOP">
119
</TD><TD VALIGN="TOP">
-23
</TD>
<TD VALIGN="TOP">
12
</TD><TD VALIGN="TOP">
122
</TD><TD VALIGN="TOP">
125
</TD><TD VALIGN="TOP">
-3
</TD><TD VALIGN="TOP">
146,4
</TD><TD VALIGN="TOP">
100,0
</TD><TD VALIGN="TOP">
114
</TD><TD VALIGN="TOP">
133
</TD><TD VALIGN="TOP">
-19
</TD>
<TD VALIGN="TOP">
13
</TD><TD VALIGN="TOP">
110
</TD><TD VALIGN="TOP">
122
</TD><TD VALIGN="TOP">
-12
</TD><TD VALIGN="TOP">
132,0
</TD><TD VALIGN="TOP">
97,6
</TD><TD VALIGN="TOP">
102
</TD><TD VALIGN="TOP">
130
</TD><TD VALIGN="TOP">
-28
</TD>
<TD VALIGN="TOP">
14
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
114
</TD><TD VALIGN="TOP">
-10
</TD><TD VALIGN="TOP">
124,8
</TD><TD VALIGN="TOP">
91,2
</TD><TD VALIGN="TOP">
96
</TD><TD VALIGN="TOP">
122
</TD><TD VALIGN="TOP">
-26
</TD>
<TD VALIGN="TOP">
15
</TD><TD VALIGN="TOP">
102
</TD><TD VALIGN="TOP">
126
</TD><TD VALIGN="TOP">
-24
</TD><TD VALIGN="TOP">
122,4
</TD><TD VALIGN="TOP">
100,8
</TD><TD VALIGN="TOP">
94
</TD><TD VALIGN="TOP">
134
</TD><TD VALIGN="TOP">
-40
</TD>
<TD VALIGN="TOP">
16
</TD><TD VALIGN="TOP">
114
</TD><TD VALIGN="TOP">
137
</TD><TD VALIGN="TOP">
-23
</TD><TD VALIGN="TOP">
136,8
</TD><TD VALIGN="TOP">
109,6
</TD><TD VALIGN="TOP">
122
</TD><TD VALIGN="TOP">
129
</TD><TD VALIGN="TOP">
-7
</TD>
<TD VALIGN="TOP">
17
</TD><TD VALIGN="TOP">
102
</TD><TD VALIGN="TOP">
115
</TD><TD VALIGN="TOP">
-13
</TD><TD VALIGN="TOP">
122,4
</TD><TD VALIGN="TOP">
92,0
</TD><TD VALIGN="TOP">
110
</TD><TD VALIGN="TOP">
107
</TD><TD VALIGN="TOP">
3
</TD>
<TD VALIGN="TOP">
18
</TD><TD VALIGN="TOP">
120
</TD><TD VALIGN="TOP">
112
</TD><TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
144,0
</TD><TD VALIGN="TOP">
89,6
</TD><TD VALIGN="TOP">
128
</TD><TD VALIGN="TOP">
104
</TD><TD VALIGN="TOP">
24
</TD>
<TD VALIGN="TOP">
19
</TD><TD VALIGN="TOP">
138
</TD><TD VALIGN="TOP">
113
</TD><TD VALIGN="TOP">
25
</TD><TD VALIGN="TOP">
165,6
</TD><TD VALIGN="TOP">
90,4
</TD><TD VALIGN="TOP">
146
</TD><TD VALIGN="TOP">
105
</TD><TD VALIGN="TOP">
41
</TD>
<TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
144
</TD><TD VALIGN="TOP">
133
</TD><TD VALIGN="TOP">
11
</TD><TD VALIGN="TOP">
172,8
</TD><TD VALIGN="TOP">
106,4
</TD><TD VALIGN="TOP">
152
</TD><TD VALIGN="TOP">
125
</TD><TD VALIGN="TOP">
27
</TD>
<TD VALIGN="TOP">
21
</TD><TD VALIGN="TOP">
154
</TD><TD VALIGN="TOP">
166
</TD><TD VALIGN="TOP">
-12
</TD><TD VALIGN="TOP">
184,8
</TD><TD VALIGN="TOP">
132,8
</TD><TD VALIGN="TOP">
162
</TD><TD VALIGN="TOP">
158
</TD><TD VALIGN="TOP">
4
</TD>
<TD VALIGN="TOP">
22
</TD><TD VALIGN="TOP">
134
</TD><TD VALIGN="TOP">
140
</TD><TD VALIGN="TOP">
-6
</TD><TD VALIGN="TOP">
160,8
</TD><TD VALIGN="TOP">
112,0
</TD><TD VALIGN="TOP">
142
</TD><TD VALIGN="TOP">
132
</TD><TD VALIGN="TOP">
10
</TD>
<TD VALIGN="TOP">
23
</TD><TD VALIGN="TOP">
166
</TD><TD VALIGN="TOP">
154
</TD><TD VALIGN="TOP">
12
</TD><TD VALIGN="TOP">
199,2
</TD><TD VALIGN="TOP">
123,2
</TD><TD VALIGN="TOP">
174
</TD><TD VALIGN="TOP">
146
</TD><TD VALIGN="TOP">
28
</TD>
<TD VALIGN="TOP">
24
</TD><TD VALIGN="TOP">
150
</TD><TD VALIGN="TOP">
170
</TD><TD VALIGN="TOP">
-20
</TD><TD VALIGN="TOP">
180,0
</TD><TD VALIGN="TOP">
136,0
</TD><TD VALIGN="TOP">
158
</TD><TD VALIGN="TOP">
162
</TD><TD VALIGN="TOP">
-4
</TD>
<TD VALIGN="TOP">
25
</TD><TD VALIGN="TOP">
144
</TD><TD VALIGN="TOP">
154
</TD><TD VALIGN="TOP">
-10
</TD><TD VALIGN="TOP">
172,8
</TD><TD VALIGN="TOP">
123,2
</TD><TD VALIGN="TOP">
152
</TD><TD VALIGN="TOP">
146
</TD><TD VALIGN="TOP">
6
</TD>
<TD VALIGN="TOP">
26
</TD><TD VALIGN="TOP">
130
</TD><TD VALIGN="TOP">
141
</TD><TD VALIGN="TOP">
-11
</TD><TD VALIGN="TOP">
156,0
</TD><TD VALIGN="TOP">
112,8
</TD><TD VALIGN="TOP">
138
</TD><TD VALIGN="TOP">
133
</TD><TD VALIGN="TOP">
5
</TD>
<TD VALIGN="TOP">
27
</TD><TD VALIGN="TOP">
140
</TD><TD VALIGN="TOP">
154
</TD><TD VALIGN="TOP">
-14
</TD><TD VALIGN="TOP">
168,0
</TD><TD VALIGN="TOP">
123,2
</TD><TD VALIGN="TOP">
148
</TD><TD VALIGN="TOP">
146
</TD><TD VALIGN="TOP">
2
</TD>
<TD VALIGN="TOP">
28
</TD><TD VALIGN="TOP">
148
</TD><TD VALIGN="TOP">
131
</TD><TD VALIGN="TOP">
17
</TD><TD VALIGN="TOP">
177,6
</TD><TD VALIGN="TOP">
104,8
</TD><TD VALIGN="TOP">
156
</TD><TD VALIGN="TOP">
123
</TD><TD VALIGN="TOP">
33
</TD>
<TD VALIGN="TOP">
29
</TD><TD VALIGN="TOP">
220
</TD><TD VALIGN="TOP">
226
</TD><TD VALIGN="TOP">
-6
</TD><TD VALIGN="TOP">
264,0
</TD><TD VALIGN="TOP">
180,8
</TD><TD VALIGN="TOP">
228
</TD><TD VALIGN="TOP">
218
</TD><TD VALIGN="TOP">
10
</TD>
<TD VALIGN="TOP">
30
</TD><TD VALIGN="TOP">
192
</TD><TD VALIGN="TOP">
184
</TD><TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
230,4
</TD><TD VALIGN="TOP">
147,2
</TD><TD VALIGN="TOP">
200
</TD><TD VALIGN="TOP">
176
</TD><TD VALIGN="TOP">
24
</TD>
<TD VALIGN="TOP" COLSPAN="9">
Bei den mit * und ** bezeichneten Werten handelt es sich um zu Demonstrationszwecken
erzeugte künstliche Werte, nähere Details siehe Text.
</TD>
Ein erster sinnvoller Schritt besteht darin, die Daten grafisch aufzutragen (Abb.
[1]a). Es zeigt sich ein positiver linearer Zusammenhang der Messwerte.
Abb. 1 (a) Streudiagramm der Daten aus Beispiel 1 (Tab. 1). (b) Streudiagramm der Daten mit Regressionsgerade und Winkelhalbierender.
Korrelation
Ein häufig beobachtetes Vorgehen ist die Berechnung des Korrelationskoeffizienten
als Maß für den Grad der Übereinstimmung zwischen den Messungen. Die Korrelation hat
im vorliegenden Beispiel einen hohen Wert von r = 0,90 mit einem zugehörigen p-Wert von p < 0,0001. Eine hohe Korrelation ist jedoch nicht gleichbedeutend mit einer hohen
Übereinstimmung. Dies lässt sich folgendermaßen veranschaulichen: Erhöht man die Werte
der manuellen Messung um 20 % (SBD1*) und verringert gleichzeitig die Werte der maschinellen
Messung um 20 % (SBD2*) (Tab. [1]), so erhöht sich offensichtlich der Unterschied zwischen den Messwerten. Das heißt,
der Grad der Übereinstimmung wird deutlich geringer. Die Korrelation zwischen SBD1*
und SBD2* bleibt jedoch unverändert und hat weiterhin einen Wert von r = 0,90.
Der p-Wert von p < 0,0001 bezieht sich darüber hinaus auf den Test der Hypothese, dass die Korrelation
gleich Null ist, d. h. die Messwerte völlig unabhängig voneinander sind. Diese Hypothese
ist bei der Frage nach Übereinstimmung zwischen den Messwerten jedoch völlig irrelevant.
Bei zwei Messwerten, die dasselbe messen sollen, wird man natürlich eine gewisse Korrelation
der Daten erwarten. Hinzu kommt die Tatsache, dass die Korrelation abhängig ist vom
betrachteten Wertebereich. Die Korrelation ist höher bei einer großen Spannweite der
Stichprobenwerte. Beschränkt man die Stichprobe im Beispiel 1 auf Messungen aus dem
Bereich 90 - 150 mm Hg, so verringert sich der Korrelationskoeffizient auf einen Wert
von r = 0,43. Lin [3] hat eine Modifikation des Korrelationskoeffizienten, den Konkordanz-Korrelationskoeffizienten, vorgeschlagen, der die Streuung der Messwerte um die Winkelhalbierende misst und
somit die Verzerrung („Bias”), d. h. die durchschnittliche Differenz der Messwerte,
mit berücksichtigt. Der Nachteil des Konkordanz-Koeffizienten ist, dass bei einem
niedrigen Wert unklar ist, ob dieser durch eine systematische Verzerrung oder durch
eine hohe Streuung der Werte verursacht wurde. Auch das Problem der Abhängigkeit vom
Wertebereich der Messwerte bleibt bestehen [4].
Regression
Ähnlich ungeeignet für einen Methodenvergleich ist die gewöhnliche Regressionsanalyse.
Hierbei wird eine Regressionsgerade an die Datenpaare angepasst, wie in Abb.
[1]b für den Beispieldatensatz dargestellt. Die Regressionsgerade zeigt eine gute Anpassung
an die Daten, erlaubt jedoch keine Aussagen über die Übereinstimmung der einzelnen
Messwerte. Ein Test, ob der Steigungsparameter den Wert Null hat, ist gleichbedeutend
mit einem Test auf Korrelation gleich Null. Dies ist, wie oben ausgeführt, ein ungeeignetes
Vorgehen. Informativer ist ein Vergleich der Punktewolke mit der Winkelhalbierenden,
welche der Gleichheit (d. h. der völligen Übereinstimmung) der Messmethoden entspricht
(d. h. Achsenabschnitt = 0 und Steigungsparameter = 1). Sind jedoch - was beim Vergleich
von Messmethoden in aller Regel der Fall ist - beide Messverfahren mit Zufallsfehlern
behaftet, so lässt sich zeigen, dass auch bei Übereinstimmung der Methoden der erwartete
Steigungsparameter kleiner als 1 und der Achsenabschnitt größer als 0 ist [5]. Ein entsprechender Test ist daher nicht aussagekräftig. Zudem besteht, wie für
die Korrelation beschrieben, auch bei der Regression eine Abhängigkeit vom Wertebereich
der erhobenen Daten.
Intraklass-Korrelationskoeffizient
Eine weitere statistische Maßzahl, die zur Analyse von Methodenvergleichen eingesetzt
wird, ist der Intraklass-Korrelationskoeffizient (ICC) [6]. Der ICC wurde entwickelt, um die Abhängigkeit zwischen Paaren von Messwerten X1 und X2 zu quantifizieren, wenn die Reihenfolge der Messwerte keine Rolle spielt und beide
Messwerte als Zufallsstichprobe aus einer Population möglicher Messwerte angesehen
werden können [7]. Später wurden unterschiedliche Varianten des ICC für den Vergleich zufällig ausgewählter
Messungen (z. B. wiederholte Messungen mittels einer Messmethode) sowie für fest
vorgegebene Messungen (z. B. Vergleich zweier konkreter Messmethoden) vorgeschlagen.
Der ICC lässt sich mit Hilfe von Varianzkomponenten aus geeigneten Varianzanalysemodellen
mit festen und zufälligen Effekten (mixed models) berechnen [8]. Der ICC kann jedoch auch bei hoher Übereinstimmung der Messungen kleine Werte annehmen,
wenn die Streuung zwischen den Messmethoden klein ist im Verhältnis zur Streuung der
Messungen innerhalb einer Messmethode [8]. Das heißt, ebenso wie der normale Korrelationskoeffizient ist auch der ICC abhängig
vom betrachteten Messwert-Bereich. Aus diesen Gründen ist der ICC zur Beurteilung
der Übereinstimmung von Messmethoden nur eingeschränkt einsetzbar [7]. Eine detaillierte Beschreibung und kritische Diskussion der Eigenschaften des ICC
und dessen Anwendung in Methodenvergleichsuntersuchungen geben Müller & Büttner [6]. Es sei noch darauf hingewiesen, dass ein enger Zusammenhang besteht zwischen dem
ICC und dem gewichteten Kappa [1]
[9].
Mittelwert-Vergleich (t-Test)
Ist man an der Übereinstimmung zweier Messmethoden interessiert, so ist es sinnvoll,
die Differenz der Messwerte X1-X 2 zu betrachten. Ein häufig beobachtetes Vorgehen ist, eine formale Testprozedur mit
Hilfe des gepaarten t-Tests auf eine nicht vorhandene Verzerrung durchzuführen. Ein solches Vorgehen gibt
jedoch keinerlei Aufschluss über die Übereinstimmung der Methoden und führt gar zu
paradoxen Ergebnissen, was anhand der Daten aus Beispiel 1 demonstriert werden soll.
Die geschätzte Verzerrung, d. h. die mittlere Differenz d der Blutdruckwerte, ist
gleich -8,4 mit einer Standardabweichung von 12,9. Ein gepaarter t-Test hat den Wert -3,56 mit einem zugehörigen p-Wert von 0,001. Man würde hier also auf eine Nicht-Übereinstimmung der Methoden schließen.
Wir wollen nun die Blutdruckdaten SBD1 und SBD2 künstlich wie folgt verändern: bei
den ersten 15 Messwerten wird SBD1 um 8 Einheiten reduziert und SBD2 um 8 Einheiten
erhöht, bei den letzten 15 Messwerten ist es genau umgekehrt (Tab. [1], Variablen SBD1** und SBD2** mit zugehöriger Differenz SBD1**-SBD2**). Dies führt
dazu, dass die durchschnittliche Differenz d** der modifizierten Werte unverändert
bleibt. Allerdings variiert die Größenordnung der Abweichungen der Einzelmessungen
viel stärker. Dieses schlägt sich in einer höheren Standardabweichung von 25,2 nieder.
Die zugehörige Teststatistik hat einen Wert von -1,83, entsprechend einem nicht signifikanten
p-Wert von 0,08. Obwohl sich also die modifizierten Datenpaare deutlich stärker voneinander
unterscheiden als die Original-Werte, würde man hier anhand des t-Tests eine Übereinstimmung der Messmethoden zum üblichen 5 %-Niveau nicht ablehnen
können.
Bland-Altman-Methode
Für die Beurteilung der Übereinstimmung von Messmethoden ist eine alleinige Berücksichtigung
der durchschnittlichen Differenz der Messwerte, also der Verzerrung, nicht ausreichend. Von entscheidender
Bedeutung ist die Betrachtung der Streuung der Differenzen der einzelnen Messwertepaare.
Bland & Altman [10] haben ein einfaches grafisches Verfahren vorgeschlagen, das die Verzerrung und die
Streuung der Daten berücksichtigt und mit dessen Hilfe systematische Abweichungen,
Ausreißer sowie Abhängigkeiten der Varianz von der Größe der Messwerte beurteilt werden
können. Hierbei wird die Differenz der anhand der verschiedenen Methoden ermittelten
Blutdruckwerte für jeden Patienten berechnet (d. h. SBD1-SBD2) und gegen den Mittelwert
der beiden Messungen (d. h. (SBD1+SBD2)/2) grafisch aufgetragen. Der Mittelwert der
beiden Messergebnisse stellt dabei die bestmögliche Schätzung des unbekannten wahren
Wertes dar. Ein Plot der Differenz gegen eine der beiden Messungen ist bei mit Messfehlern
behafteten Werten nicht geeignet, da in diesem Fall Differenz und Einzelmesswerte
auch bei Unabhängigkeit der beiden Messwerte korreliert sind, und somit zu irreführenden
Ergebnissen führen können [11]. Der „Bland-Altman-Plot” ist in Abb. [2] dargestellt. Anhand dieses Plots lassen sich Größenordnungen und Muster der individuellen
Abweichungen zwischen den Messmethoden deutlich besser ablesen als bei einer einfachen
Punktewolke der Messwerte gegeneinander (Abb.
[1]). Bei einer hinreichend symmetrischen Verteilung der Differenzen liegen 95 % der
Werte im Bereich d ± 2 × s, wobei s die Standardabweichung der Differenzen bezeichnet.
Diese Grenzen werden als Übereinstimmungsgrenzen („limits of agreement”) bezeichnet und zusammen mit der Verzerrung d in die Grafik
eingezeichnet. Für das Datenbeispiel 1 ergeben sich die Übereinstimmungsgrenzen wie
folgt:
d - 2 × s = -8,4 - 2 × 12,9 = -34,2 und d + 2 × s = -8,4 + 2 × 12,9 = 17,4
Abb. 2 Bland-Altman-Plot für die Beispieldaten mit Verzerrung d=Mittelwert der Blutdruckdifferenzen
(SBD1-SBD2) und Übereinstimmungsgrenzen d ± 2 × s, wobei s die Standardabweichung der Differenzen bezeichnet.
Das heißt, dass die manuelle Messung des Blutdrucks (SBD1) in 95 % der Fälle einen
Wert liefert, der bis zu 34,2 mm Hg kleiner bzw. bis zu 17,4 mm Hg größer ist als
der maschinell erhobene Messwert (SBD2). Eine klinische Beurteilung dieser Werte ermöglicht
nun eine Einschätzung der Übereinstimmungsgüte zwischen manuell und maschinell gemessenen
Blutdruckwerten.
Erweiterungen und Anmerkungen zum Bland-Altman-Verfahren
Transformation der Messwerte
Um sicherzustellen, dass die errechneten Vertrauensgrenzen über den gesamten Messbereich
Gültigkeit haben, ist eine Voraussetzung der Bland-Altman-Auswertung, dass die Differenzen
zwischen den Messmethoden keine systematischen Veränderungen aufweisen. Dies ist in
der Realität aber nicht immer der Fall. So lässt sich häufig eine erhöhte Variabilität
der Differenzen mit steigender Größenordnung der Messwerte beobachten.
Dies soll an folgendem Beispiel 2 illustriert werden (modifizierte Daten nach [12]). Bei 18 schwangeren Frauen wurde das fötale Lungenvolumen mit Hilfe eines Ultraschall-basierten,
3-dimensionalen Bildgebungsverfahrens von zwei unabhängigen Bewertern bestimmt. Abb.
[3]a zeigt das Streudiagramm der von den beiden Bewertern ermittelten Messwerte, einschließlich
der Winkelhalbierenden. Es deutet sich eine höhere Variabiltität der Messwertdifferenzen
bei höheren Lungenvolumenwerten an. Dies ist noch deutlicher im zughörigen Bland-Altman-Plot
(Abb. [3]b) zu erkennen. Bei einer solchen Struktur der Daten lässt sich mit Hilfe einer logarithmischen
Transformation der Messwerte eine gleichförmigere Variabilität über den gesamten Messwertbereich
erreichen. Der Bland-Altman-Plot der logarithmisch transformierten Werte ist in Abb. [3]c dargestellt. Durch die Transformation wurde eine gleichförmigere Streuung der Daten
erreicht. Für die Verzerrung der logarithmierten Daten ergibt sich ein Wert von 0,02,
die Übereinstimmungsgrenzen sind -0,23 und 0,27. Zur Interpretation der Werte müssen
diese auf die Originalskala rücktransformiert werden. Das geschieht durch die Anwendung
der Exponentialfunktion. Entsprechend ergibt sich eine Verzerrung von 1,02 mit Übereinstimmungsgrenzen
von 0,79 und 1,31 auf der Originalskala. Dabei ist jedoch zu beachten, dass die Transformation
der Differenz zweier Werte auf der logarithmischen Skala einen dimensionslosen Quotienten
liefert. Der rücktransformierte Bias-Wert von 1,02 auf der Originalskala besagt somit,
dass der von Bewerter 1 ermittelte Wert um durchschnittlich 2 % größer ist als die
Messung von Bewerter 2. Die Übereinstimmungsgrenzen besagen, dass für 95 % der Fälle
der Messwert von Bewerter 1 zwischen 21 % kleiner und 31 % größer ist als die Messung
von Bewerter 2. Alternativ zur log-Transformation der Daten kann man auch direkt den
Quotienten der Messwerte betrachten, was zu ähnlichen Ergebnissen führt (Abb. [3]d).
Abb. 3 (a) Streudiagramm mit Winkelhalbierender für die Daten aus Beispiel 2. (b) Bland-Altman-Plot für Originaldaten. (c) Bland-Altman-Plot für logarithmierte Daten. (d) Bland-Altman-Plot für Quotient der Daten.
Führt eine logarithmische Transformation bei komplizierteren Zusammenhängen zwischen
Mittelwert und Differenzen nicht zum Ziel, so lassen sich mit Hilfe regressionsanalytischer
Ansätze geeignete Übereinstimmungsgrenzen herleiten. Hierauf soll allerdings nicht
näher eingegangen werden; nähere Details finden sich in [2].
Konfidenzintervalle für die Übereinstimmungsgrenzen
Bei der Berechnung der Verzerrung und der Übereinstimmungsgrenzen aus einer konkreten
Stichprobe handelt es sich um Schätzungen des wahren Wertes in der zugrunde liegenden Population. Die Ergebnisse sind somit
einer Zufallsschwankung unterworfen. Unter der Annahme, dass die Differenzen der Messwerte
einer Normalverteilung folgen, lassen sich Standardfehler und Konfidenzintervalle
für Verzerrung und Übereinstimmungsgrenzen berechnen [2]
[10]. Für die Daten aus Beispiel 1 reicht das 95 %-Konfidenzintervall für den geschätzten
Bias-Wert d= -8,4 von 8,1 bis 17,7. Die Konfidenzintervalle für untere und obere Übereinstimmungsgrenze
sind -42,6 bis -25,8 und 9,0 bis 25,8. Aufgrund des eher kleinen Stichprobenumfangs
sind die Konfidenzintervalle recht breit und die Ergebnisse somit mit einer entsprechend
großen Unsicherheit behaftet.
Wiederholbarkeit von Messungen
Ein wichtiger Aspekt bei Methodenvergleichen ist die Wiederholbarkeit der Messwerte
der einzelnen Methoden. Eine hohe Variabilität zwischen wiederholten Messungen beeinträchtigt
die Güte der Übereinstimmung mit einer Vergleichsmethode. Eine schlechte Wiederholbarkeit
einer oder beider Methoden hat eine schlechte Übereinstimmung zwischen den Messmethoden
zur Folge [11].
Liegen für die zu vergleichenden Messmethoden jeweils zwei Messwiederholungen bei
jeder Messeinheit vor, so lässt sich die Bland-Altman-Methode zunächst jeweils für
die wiederholten Messungen der beiden Messmethoden anwenden. Mit Messwiederholungen
sind hier Messungen an derselben Messeinheit unter identischen Bedingungen gemeint,
die unabhängig voneinander sind und sich nicht gegenseitig beeinflussen. In diesem
Fall würde man eine durchschnittliche Differenz der Messwiederholungen von Null erwarten
[5]. Zum Vergleich der beiden Messmethoden hinsichtlich der Wiederholbarkeit der Messungen
kann die Standardabweichung s der Messwertdifferenzen herangezogen werden. Alternativ
kann der so genannte Wiederholbarkeitskoeffizient verwendet werden. Dieser berechnet sich als WK = 2 × s (oder genauer 1,96 × s, wobei
1,96 das 97,5 %-Quantil der Normalverteilung ist) und gibt die Differenz an, die von
95 % der wiederholten Messungen an einer Messeinheit nicht überschritten wird [5]. Das heißt, Veränderungen zwischen den Messungen, die über diese Differenz hinausgehen,
können dann (mit 5 %-igem Irrtumsvorbehalt) als „echte” Veränderungen interpretiert
werden, die nicht allein durch den Messfehler erklärbar sind. Die Intervalle von -WK
bis +WK für die beiden Messmethoden und die Übereinstimmungsgrenzen des Vergleichs
der Messmethoden können dann verwendet werden, um die Übereinstimmung der Messungen
innerhalb der Messmethoden mit der Übereinstimmung der Messungen zwischen den Messmethoden
zu vergleichen [5]. Bei mehr als zwei wiederholten Messungen können Verfahren der Varianzanalyse zur
Berechnung der Streuung der Messungen herangezogen werden [2]. Für den Vergleich der Messmethoden kann der mittlere Wert der wiederholten Messungen
pro Messmethode verwendet werden. Die Schätzung der Verzerrung zwischen den Messmethoden
bleibt bei diesem Vorgehen erhalten, die zugehörige Standardabweichung wird jedoch
unterschätzt. Bland & Altman [2] geben entsprechende Korrekturverfahren für diesen Fall an.
Weitere Anmerkungen
Die Übereinstimmung von Messmethoden ist mit einer einzelnen statistischen Maßzahl
nicht umfassend zu beschreiben. Neben der Verzerrung, d. h. der durchschnittlichen
Abweichung der Methoden, ist vor allen Dingen die Abweichung der individuellen Messungen
und somit die Streuung der Abweichungen von entscheidender Bedeutung. Sind z. B.
die Abweichungen der individuellen Messungen nach Methode 1 konsistent größer als
nach Methode 2, so kann - bei geringer Streuung - trotz einer großen Verzerrung durch
Subtraktion des Bias-Wertes d von den Messungen nach Methode 1 eine gute Übereinstimmung
mit den Messungen nach Methode 2 erzielt werden.
Das Hauptinteresse bei Methodenvergleichen liegt in der Quantifizierung des Unterschiedes
und nicht im Testen statistischer Hypothesen auf Gleichheit der Methoden. Die grafische
Methode nach Bland-Altman liefert eine einfache Möglichkeit, die Übereinstimmung von
Messmethoden anschaulich darzustellen und zu quantifizieren. Die Interpretation der
ermittelten Übereinstimmungsgrenzen ist jedoch eine klinische und keine statistische
Frage. Es bedarf einer sachwissenschaftlichen Bewertung, ob der Bereich zwischen den
Übereinstimmungsgrenzen von einer klinisch bedeutsamen Größenordnung ist oder nicht.
Wenn kein „Goldstandard” (d. h. ein „wahrer” Messwert) vorhanden ist, so lassen sich
nur Aussagen zur Vergleichbarkeit der Methoden machen, nicht aber darüber, welche
der Methoden die bessere ist bzw. ob überhaupt eine der Messmethoden adäquate Werte
liefert.
Das einfache und anschauliche Verfahren nach Bland und Altman hat sich als Verfahren
der Wahl zur Auswertung von Methodenvergleichsdaten etabliert. Die Relevanz der Methode
lässt sich auch daran ablesen, dass die Arbeit der Autoren aus dem Lancet [10] zu den zehn meist zitierten statistischen Arbeiten gehört [13].
Tab. 2 Übersetzung (deutsch - englisch)
<TD VALIGN="TOP">
Übereinstimmung
</TD><TD VALIGN="TOP">
agreement
</TD>
<TD VALIGN="TOP">
Kappa-Koeffizient
</TD><TD VALIGN="TOP">
kappa coefficient
</TD>
<TD VALIGN="TOP">
Wiederholbarkeit
</TD><TD VALIGN="TOP">
repeatability
</TD>
<TD VALIGN="TOP">
Zuverlässigkeit
</TD><TD VALIGN="TOP">
reliability
</TD>
<TD VALIGN="TOP">
Wiederholbarkeitskoeffizient
</TD><TD VALIGN="TOP">
repeatability coefficient
</TD>
<TD VALIGN="TOP">
Verzerrung
</TD><TD VALIGN="TOP">
bias
</TD>
<TD VALIGN="TOP">
Konkordanz-Korrelationskoeffizient
</TD><TD VALIGN="TOP">
concordance correlation coefficient
</TD>
<TD VALIGN="TOP">
Streudiagramm
</TD><TD VALIGN="TOP">
scatter plot
</TD>
<TD VALIGN="TOP">
Intraklassen-Korrelationskoeffizient
</TD><TD VALIGN="TOP">
intra-class correlation coefficient
</TD>
<TD VALIGN="TOP">
Gemischte Modelle
</TD><TD VALIGN="TOP">
mixed models
</TD>
<TD VALIGN="TOP">
Übereinstimmungsgrenzen
</TD><TD VALIGN="TOP">
limits of agreement
</TD>
kurzgefasst
Bei der Beurteilung der Übereinstimmung zweier auf einer kontinuierlichen Skala erfassten
Messmethoden spielen zwei Aspekte eine Rolle: 1) die durchschnittliche Übereinstimmung der Verfahren (Bias) und 2) die Streuung der individuellen Messwertdifferenzen. Die Bland-Altman-Methode berücksichtigt beide Aspekte im Rahmen
eines einfachen grafischen Verfahrens, das sich als Verfahren der Wahl zum Vergleich
von Messmethoden etabliert hat.