Neben der univariaten, das heißt auf ein einzelnes Merkmal bezogenen Analyse von
Daten aus einer klinischen Studie, ist man häufig daran interessiert, den Zusammenhang
zwischen zwei (bivariat) oder mehreren (multivariat) Variablen zu betrachten. Bei
Betrachtung von zwei quantitativen Merkmalen bietet sich als anschauliche, graphische
Darstellungsweise die Punktwolke an, bei der die Wertepaare durch einen Punkt in
einem Koordinatensystem abgebildet werden [Abb. 1]. Damit wird sofort visuell erfassbar, ob überhaupt ein Zusammenhang besteht, und
wenn ja, wie stark er ist. [Tab. 1] enthält die Werte für den systolischen Blutdruck und das Körpergewicht von 24
zufällig ausgewählten Patienten einer dermatologischen Ambulanz. [Abb. 1] zeigt die dazugehörige Punktwolke, die einen recht deutlichen Zusammenhang zwischen
den beiden Merkmalen erkennen lässt.
Eine Möglichkeit, den Zusammenhang zwischen Merkmalen statistisch zu beschreiben,
bietet die Regressionsanalyse. Bei der einfachen, linearen Regression, bei der Analyse
von zwei quantitativen Merkmalen, erfolgt anhand einer Geradengleichung die Vorhersage
von Werten einer abhängigen Varia-blen aus den Werten einer als unabhängig angesehenen
Variablen; es wird also ein Modell verwendet. Modelle können die Realität meist nur
unvollkommen beschreiben, aber das lineare Modell hat sich für viele medizinische
Anwendungen als sinnvoll und hilfreich erwiesen. Die Angemessenheit lässt sich häufig
bereits bei der visuellen Betrachtung der Punktwolke beurteilen.
Ähnlich wie der Mittelwert im univariaten Fall einen typischen Wert der Stichprobe
für das betrachtete Merkmal repräsentiert [2], liefert die Regressionsgerade einen typischen Wert der abhängigen Variablen bei
gegebenem Wert der unabhängigen. Das Stichwort der »Vorhersage« macht deutlich, dass
bei der Regression die Richtung des Zusammenhangs üblicherweise vorgegeben wird,
das heißt es können schon a priori sinnvoll eine abhängige (Outcome) Variable, deren
Werte vorhergesagt werden sollen, und eine unabhängige (Prädiktor) Variable definiert
werden. Für die Punktwolke wird als Konvention die abhängige Variable zumeist auf
der Ordinate (y-Achse) und die unabhängige Variable auf der Abszisse (x-Achse) abgebildet.
Abb. 1 Punktwolke für den Zusammenhang zwischen Körpergewicht (kg) und systolischen Blutdruck
(mm Hg) von 24 zufällig ausgewählten Patienten einer dermatologischen Ambulanz.
Abb. 2 Punktwolke mit Regressionsgerade und Regressionsgleichung für den Zusammenhang zwischen
Körpergewicht (kg) und systolischen Blutruck (mm Hg). Das Körpergewicht ist die unabhängige
(Predictor), der systolische Blutdruck die abhängige (Outcome) Variable.
Tab. 1 Körpergewicht (kg) und systolische Blutdruckwerte (mm Hg) von 24 zufällig ausgewählten
Patienten einer dermatologischen Ambulanz.
<TD VALIGN="TOP">
Patientennummer
</TD><TD VALIGN="TOP">
Körpergewicht (kg)
</TD><TD VALIGN="TOP">
systolischer Blutdruck (mm Hg)
</TD>
<TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
54,5
</TD><TD VALIGN="TOP">
128
</TD>
<TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
77,0
</TD><TD VALIGN="TOP">
154
</TD>
<TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
78,5
</TD><TD VALIGN="TOP">
180
</TD>
<TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
48,0
</TD><TD VALIGN="TOP">
96
</TD>
<TD VALIGN="TOP">
5
</TD><TD VALIGN="TOP">
90,0
</TD><TD VALIGN="TOP">
142
</TD>
<TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
86,5
</TD><TD VALIGN="TOP">
170
</TD>
<TD VALIGN="TOP">
7
</TD><TD VALIGN="TOP">
54,6
</TD><TD VALIGN="TOP">
122
</TD>
<TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
61,0
</TD><TD VALIGN="TOP">
130
</TD>
<TD VALIGN="TOP">
9
</TD><TD VALIGN="TOP">
66,0
</TD><TD VALIGN="TOP">
118
</TD>
<TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
54,0
</TD><TD VALIGN="TOP">
98
</TD>
<TD VALIGN="TOP">
11
</TD><TD VALIGN="TOP">
85,0
</TD><TD VALIGN="TOP">
172
</TD>
<TD VALIGN="TOP">
12
</TD><TD VALIGN="TOP">
80,0
</TD><TD VALIGN="TOP">
149
</TD>
<TD VALIGN="TOP">
13
</TD><TD VALIGN="TOP">
80,5
</TD><TD VALIGN="TOP">
150
</TD>
<TD VALIGN="TOP">
14
</TD><TD VALIGN="TOP">
96,7
</TD><TD VALIGN="TOP">
181
</TD>
<TD VALIGN="TOP">
15
</TD><TD VALIGN="TOP">
68,0
</TD><TD VALIGN="TOP">
170
</TD>
<TD VALIGN="TOP">
16
</TD><TD VALIGN="TOP">
50,0
</TD><TD VALIGN="TOP">
109
</TD>
<TD VALIGN="TOP">
17
</TD><TD VALIGN="TOP">
71,5
</TD><TD VALIGN="TOP">
140
</TD>
<TD VALIGN="TOP">
18
</TD><TD VALIGN="TOP">
55,0
</TD><TD VALIGN="TOP">
150
</TD>
<TD VALIGN="TOP">
19
</TD><TD VALIGN="TOP">
78,5
</TD><TD VALIGN="TOP">
139
</TD>
<TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
94,5
</TD><TD VALIGN="TOP">
157
</TD>
<TD VALIGN="TOP">
21
</TD><TD VALIGN="TOP">
68,7
</TD><TD VALIGN="TOP">
121
</TD>
<TD VALIGN="TOP">
22
</TD><TD VALIGN="TOP">
97,2
</TD><TD VALIGN="TOP">
160
</TD>
<TD VALIGN="TOP">
23
</TD><TD VALIGN="TOP">
53,0
</TD><TD VALIGN="TOP">
91
</TD>
<TD VALIGN="TOP">
24
</TD><TD VALIGN="TOP">
84,0
</TD><TD VALIGN="TOP">
161
</TD>
Eine Geradengleichung benötigt zwei Parameter: Zum einen die Steigung der Geraden,
die angibt, um wie viel die Werte der abhängigen Variable steigen oder fallen, wenn
sich die unabhängige Variable um eine Einheit verändert, und zum zweiten der Achsenabschnitt,
der das Basisniveau der abhängigen Variable angibt, wenn also die unabhängige Variable
den Wert Null annimmt. Die Steigung der Geraden wird als Regressionskoeffizient bezeichnet.
In [Abb. 2] ist die Regressionsgerade mit der entsprechenden Regressionsgleichung für die Daten
aus [Tab. 1] dargestellt. Es erscheint plausibel, den Blutdruck in Abhängigkeit vom Gewicht
und nicht umgekehrt zu betrachten. Die Geradengleichung zeigt an, dass der Wert des
systolischen Blutdrucks im Mittel um ca. 1,31 mm Hg ansteigt, wenn der Wert des Körpergewichts
um 1 kg zunimmt. Bei einer 70 kg schweren Person ist mit einem Blutdruck von 70 ×
1,31 + 46,6 ≈ 138 mm Hg zu rechnen. Die am besten »passende« Regressionsgerade wird
durch ein besonderes statistisches Schätzverfahren - die Kleinste-Quadrate-Methode
- gefunden, und zwar ist es diejenige Gerade, bei der die Summe der quadrierten (vertikalen)
Abstände zwischen den einzelnen Punkten und der Geraden minimal wird.
kurzgefasst: Mit der Regression lässt sich der Zusammenhang zwischen einer abhängigen und einer
oder mehreren unabhängigen Variablen darstellen. Die Regressionsgleichung liefert
den Wert der abhängigen Variable, wenn die unabhängige bekannt ist.
Für eine weitere Quantifizierung des beobachteten Zusammenhangs zwischen den Merkmalen
ist das Bestimmtheitsmaß (R2) ein sehr anschaulicher Parameter. Hierfür muss man sich zunächst vergegenwärtigen,
dass die Werte der abhängigen Variable - im Beispiel die Blutdruckwerte - bei univariater
Betrachtung um ihren Mittelwert »streuen«; diese Streuung wird als Summe der quadratischen
Abweichungen (der Einzelwerte von ihrem Mittelwert) ausgedrückt [3]. Die Blutdruckwerte streuen auch um die Regressionsgerade, aber in einem geringeren
Ausmaß als um ihren Mittelwert. Das Bestimmtheitsmaß bezeichnet nun den Anteil, um
den die Variabilität der abhängigen Variable durch die Regression, also durch die
zusätzliche Betrachtung der unabhängigen Variable, vermindert wird. Als Maß für die
Streuung um die Regressionsgerade wird wieder die Summe von Abweichungsquadraten
(der Einzelwerte von der Regressionsgerade) verwendet. Im Beispiel ergibt sich ein
Bestimmtheitsmaß von 0,62, also 62 % der »rohen« Variabilität der Blutdruckwerte
aus der Stichprobe kann durch das Körpergewicht der Patienten »erklärt« werden (unter
Annahme des linearen Modells).
Ein weiteres Maß für die Quantifizierung des Zusammenhangs zwischen zwei (quantitativen)
Merkmalen ist der Korrelationskoeffizient »r«. Der Absolutbetrag des Korrelationskoeffizienten nach Pearson ist einfach die Wurzel
aus dem Bestimmtheitsmaß: |r| = √ R2
. r kann Werte zwischen -1 (negativer Zusammenhang) und + 1 (positiver Zusammenhang)
annehmen. Das Vorzeichen von r ist dasselbe wie das des Regresionskoeffizienten.
Ein Korrelationskoeffizient von Null bedeutet, dass kein linearer Zusammenhang besteht.
Für das Beispiel ergibt sich |r| = √0,62 ≈ 0,79. Anstelle des Korrelationskoeffizienten nach Pearson kann auch der
Rangkorrelationskoeffizient nach Spearman berechnet werden. Er basiert, wie der Name
andeutet, nicht auf den Messwerten, sondern auf den Rangzahlen, die die Messwerte
in der sortierten Stichprobe einnehmen. Er ist in gleicher Weise zu interpretieren
wie der Korrelationskoeffizient nach Pearson und wird insbesondere bei der Betrachtung
von Scores benutzt.
Tab. 2 Übersetzungen (deutsch - englisch)
<TD VALIGN="TOP">
Kleinste-Quadrate-Methode
</TD><TD VALIGN="TOP">
least-square-method
</TD>
<TD VALIGN="TOP">
Vorhersage
</TD><TD VALIGN="TOP">
prediction
</TD>
<TD VALIGN="TOP">
Bestimmtheitsmaß (R2)
</TD><TD VALIGN="TOP">
coefficient of determination
</TD>
<TD VALIGN="TOP">
(Un)abhängige Variable
</TD><TD VALIGN="TOP">
(in)dependent variable
</TD>
<TD VALIGN="TOP">
Korrelationskoeffizient
</TD><TD VALIGN="TOP">
correlation coefficient
</TD>
<TD VALIGN="TOP">
Regression
</TD><TD VALIGN="TOP">
regression
</TD>
<TD VALIGN="TOP">
Regressionsgerade
(-koeffizient)
</TD><TD VALIGN="TOP">
regression
line (coefficient)
</TD>
<TD VALIGN="TOP">
Punktwolle
</TD><TD VALIGN="TOP">
scatter plot
</TD>
Der Korrelationskoeffizient ist eines der am häufigsten, leider oft auch fälschlich
eingesetzten Maße in der medizinischen Statistik. Deshalb soll auf folgende, für
eine adäquate Interpretation zu beachtende Punkte hingewiesen werden:
-
Der Korrelationskoeffizient, genauso wie die Regressionsgerade, liefert keine Aussage
über einen kausalen Zusammenhang.
-
Der Wert des Korrelationskoeffizienten kann sehr stark durch Extremwerte beeinflusst
werden. Das ist leicht nachzuvollziehen, da Extremwerte die Varianz eines Merkmals
stark erhöhen, und dann durch die Regression sehr viel von dieser Varianz »erklärt«
werden kann.
-
Die gemeinsame Betrachtung von zwei sehr unterschiedlichen Gruppen kann zu einer
hohen Korrelation zwischen Merkmalen führen, obwohl innerhalb jeder Gruppe nur eine
geringe oder gar keine Korrelation zwischen den Merkmalen besteht (Heterogenitätskorrelation).
-
Der Korrelationskoeffizient ist kein Maß für Übereinstimmung! Seine Verwendung beim
Vergleich zweier Messverfahren ist daher für sich allein nicht aussagefähig und
häufig nicht adäquat [1]
[4]. Ein Korrelationskoeffizient nahe 1 wird auch dann erreicht, wenn zum Beispiel
beim Vergleich zweier Verfahren zur Blutzuckermessung das eine Verfahren doppelt
so hohe Werte liefert wie das andere.
kurzgefasst: Der Korrelationskoeffizient R zeigt den linearen Zusammenhang zwischen 2 Variablen.
Er kann Werte zwischen -1 und + 1 einnehmen. Der Korrelationskoeffizient dient NICHT
der Darstellung von kausalen Zusammenhängen oder Übereinstimmungen.
. [Tab. 2] zeigt wieder die Übersetzungen für die Interpretation englischsprachiger Studien.