Lineare Regression
Lineare Regression
Mit Hilfe der linearen Regression lässt sich der Einfluss
einer oder mehrerer erklärender Variablen X 1
,...,Xm (z. B. X
1 = Alter, X
2 =
Geschlecht
und X
3 = Rauchen)
auf eine stetige Zielvariable Y (z. B. Y =
systolischer
Blutdruck) statistisch untersuchen [3].
Liegt nur eine erklärende Variable X vor,
spricht man von der einfachen linearen Regression (engl.:
simple linear regression) und verwendet die Geradengleichung [5]
Y = α + β X
.
Im Fall mehrerer erklärender Variablen X 1
,...,Xm liegt das Modell der multiplen linearen Regression
(engl.: multiple
linear regression) vor, das durch die Gleichung
Y = α + β 1
X
1
+ ... + β mXm
beschrieben wird [3]. Die Bedeutung
der multiplen Regressionsmodelle in der medizinischen Statistik
liegt zum einen darin, den gemeinsamen Einfluss mehrerer Variablen
auf eine Zielvariable untersuchen zu können und zum anderen
in der Möglichkeit, den interessierenden Effekt einer Variable
bezüglich anderer Variablen zu adjustieren,
um eine Verzerrung (engl.: bias) bei der
Effektschätzung zu reduzieren [3].
Logistische Regression
Logistische Regression
Die logistische Regression (engl.: logistic
regression) kommt als Auswertungsmethode in Frage, wenn man den
Einfluss erklärender Variablen X 1
,...,Xm auf eine Zielvariable Y
untersuchen möchte, und Y binäres
Messniveau besitzt (z. B. Y = Krankheit ja/nein).
Da Y nur die beiden Werte 1 = ja
und 0 = nein annehmen kann, ist die Anwendung
der linearen Regression in der Regel nicht sinnvoll. Betrachten
wir zur Modellentwicklung zunächst den einfachen Fall von
nur einer erklärenden Variable X. Der
Schlüssel zur quantitativen Beschreibung eines Zusammenhangs
zwischen Y und X liegt
darin, anstelle von Y die Wahrscheinlichkeit
für den Eintritt des Zielereignisses p = P( Y =
1) zu modellieren.
In medizinischen Anwendungen ist die Wahrscheinlichkeit p meist ein Risiko für eine
bestimmte Krankheit. Während Y nur
die beiden Ausprägungen 1 und 0 besitzt, kann das Risiko p jede beliebige Zahl zwischen 0 und
1 annehmen. Die Chance (engl.: odds) p/(1-p)
kann jede beliebige positive Zahl annehmen [2] und
der Logarithmus der Chance log[p/(1-p)], genannt logit,
besitzt die ganze reelle Zahlenmenge
als Wertebereich. Damit ist es häufig sinnvoll, eine lineare
Beziehung zwischen dem logit von p und X anzunehmen,
d. h.
logit (p) = log[ p
/(1-p)] = α+βX
,
was mathematisch äquivalent ist mit
exp bezeichnet hierbei die Exponentialfunktion.
Der rechte Term obiger Gleichung stellt die so genannte logistische
Funktion dar, daher erklärt sich die Bezeichnung »logistische
Regression«. Die Erweiterung auf ein multiples Modell mit
mehreren erklärenden Variablen erhält man wie
bei der linearen Regression, indem bX ersetzt
wird durch die Linearkombination β1
X
1+...+β mXm
. Zur Schätzung der logistischen
Regressionskoeffizienten werden in der Praxis iterative Algorithmen
eingesetzt.
Da in der medizinische Forschung oftmals binäre Zielvariablen auftreten,
wird die logistische Regression in der Praxis sehr häufig
angewendet. Eine besondere Stellung erhält das logistische Regressionsmodell
dadurch, dass man sowohl für prospektive Kohortenstudien als
auch für retrospektive Fall-Kontroll
Studien sinnvoll interpretierbare Effektschätzer erhält.
Das gebräuchliche Effektmaß in der Epidemiologie
ist das Odds Ratio (OR), das als Verhältnis
der Chancen zwischen exponierten und nicht exponierten Personen
definiert ist [2]. Aus dem Regressionskoeffizient β einer
logistischen Regression kann direkt das Odds Ratio berechnet werden
durch OR = exp(β).
In einem multiplen Modell kann für die Beziehung zwischen Y und einer erklärenden Variablen Xj
das aus bj berechnete ORj = exp
(bj) als das nach allen
anderen erklärenden Variablen adjustierte
Odds Ratio betrachtet werden. Bei stetigen erklärenden
Variablen bezieht sich der Wert des Odds Ratios auf die Erhöhung
der erklärenden Variablen um jeweils 1 Einheit bzw. auf
den Anstieg einer vorher definierten klinisch relevanten Differenz
(siehe Beispiel).
Wie bei der linearen Regression muss auch bei der logistischen Regression
die Modellgüte (engl.: goodness-of-fit)
untersucht werden. Auf die entsprechenden Methoden können
wir hier nicht eingehen. Der interessierte Leser sei auf die Literatur
verwiesen [5]. Außer der logistischen
Regression für binäre Zielvariablen gibt es Modellerweiterungen
für nominale und ordinale Daten. Das bekannteste Modell
ist hierbei das proportionale Odds Modell für
ordinale Zielvariablen [1].
Beispiel
Beispiel
Mit Hilfe der logistischen Regression wurde der Einfluss von
Risikofaktoren auf die Entwicklung der diabetischen Nephropathie
bei Typ 1 Diabetikern untersucht [7].
Betrachten wir zunächst nur das glykierte Hämoglobin
(HbA1c) als Risikofaktor. In der einfachen logistischen
Regressionsanalyse ist das HbA1c ein signifikanter Risikofaktor
(Tab. [1]).
Die Stärke des Effekts lässt sich mit Hilfe des
Odds Ratios angeben. Pro Einheit des HbA1c (1 %)
steigt die Chance nach 6 Jahren eine diabetische Nephropathie zu
entwickeln um den Faktor von OR = 1.6
(95 % Konfidenz-intervall 1,3-1,9).
Tab. 1 Einfache
logistische Regressionsanalyse für die Entwicklung einer
diabetischen Nephropathie nach 6 Jahren bei 480 Typ 1 Diabetikern.
<TD VALIGN="TOP">
Risikofaktor
</TD><TD VALIGN="TOP">
Regressionskoeffizient
</TD><TD VALIGN="TOP">
Standardfehler
</TD><TD VALIGN="TOP">
p-Wert
</TD><TD VALIGN="TOP">
Differenz für Odds Ratio
</TD><TD VALIGN="TOP">
Odds Ratio
</TD><TD VALIGN="TOP">
95 % Konfidenzintervall
</TD>
<TD VALIGN="TOP">
Achsenabschnitt
</TD><TD VALIGN="TOP">
- 5,089
</TD><TD VALIGN="TOP">
0,731
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
HbA1c
</TD><TD VALIGN="TOP">
+ 0,457
</TD><TD VALIGN="TOP">
0,089
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
1 %
</TD><TD VALIGN="TOP">
1,58
</TD><TD VALIGN="TOP">
1,33 - 1,88
</TD>
Dieser Zusammenhang lässt sich auch grafisch veranschaulichen,
indem das Risiko als Funktion des Risikofaktors dargestellt wird
(Abb. [1]).
Für HbA1c-Werte im Normalbereich (4,3-6,1 %)
liegt das Risiko, eine diabetische Nephropathie zu entwickeln, unter
10 %, während es bei extrem hohen HbA1c-Werten von
16 % und höher auf über 90 % ansteigt.
Abb. 1 Risiko für die Entwicklung
einer diabetische Nephropathie nach 6 Jahren in Abhängigkeit
vom HbA1c bei Typ 1 Diabetes, berechnet mit Hilfe einfacher
logistischer Regressionsanalyse (n = 480).
Tab. 2 Multiple
logistische Regressionsanalyse für die Entwicklung einer
diabetischen Nephropathie nach 6 Jahren bei 480 Typ 1 Diabetikern.
<TD VALIGN="TOP">
Risikofaktor
</TD><TD VALIGN="TOP">
Regressionskoeffizient
</TD><TD VALIGN="TOP">
Standardfehler
</TD><TD VALIGN="TOP">
p-Wert
</TD><TD VALIGN="TOP">
Differenz für Odds Ratio
</TD><TD VALIGN="TOP">
Odds Ratio
</TD><TD VALIGN="TOP">
95 % Konfidenzintervall
</TD>
<TD VALIGN="TOP">
Achsenabschnitt
</TD><TD VALIGN="TOP">
- 8,980
</TD><TD VALIGN="TOP">
1,736
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
HbA1c
</TD><TD VALIGN="TOP">
+ 0,464
</TD><TD VALIGN="TOP">
0,091
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
1 %
</TD><TD VALIGN="TOP">
1,59
</TD><TD VALIGN="TOP">
1,33 - 1,90
</TD>
<TD VALIGN="TOP">
diast. Blutdruck
</TD><TD VALIGN="TOP">
+ 0,048
</TD><TD VALIGN="TOP">
0,019
</TD><TD VALIGN="TOP">
0,0148
</TD><TD VALIGN="TOP">
5 mm Hg
</TD><TD VALIGN="TOP">
1,27
</TD><TD VALIGN="TOP">
1,05 - 1,54
</TD>
<TD VALIGN="TOP">
Diabetesdauer
</TD><TD VALIGN="TOP">
+ 0,004
</TD><TD VALIGN="TOP">
0,018
</TD><TD VALIGN="TOP">
0,8220
</TD><TD VALIGN="TOP">
5 Jahre
</TD><TD VALIGN="TOP">
1,02
</TD><TD VALIGN="TOP">
0,85 - 1,22
</TD>
<TD VALIGN="TOP">
Geschlecht
</TD><TD VALIGN="TOP">
- 0,025
</TD><TD VALIGN="TOP">
0,249
</TD><TD VALIGN="TOP">
0,9212
</TD><TD VALIGN="TOP">
männl. vs. weibl.
</TD><TD VALIGN="TOP">
0,98
</TD><TD VALIGN="TOP">
0,60 - 1,59
</TD>
Diese Ergebnisse verdeutlichen die starke Assoziation zwischen der
Stoffwechseleinstellung und dem Risiko diabetischer Spätschäden
bei Typ 1 Diabetes. Um zu zeigen, dass eine Reduktion des HbA1c auch
zu einer Reduktion des Risikos für diabetische Spätschäden
führt, benötigt man allerdings entsprechende Ergebnisse
einer randomisierten klinischen Therapiestudie, wie z. B.
den Diabetes Control and Complications Trial (DCCT, 4).
Neben dem glykierten Hämoglobin gibt es noch weitere
Risikofaktoren, die hier in Betracht gezogen werden müssen,
vor allem Blutdruck, Diabetesdauer und möglicherweise das
Geschlecht. Die Ergebnisse einer multiplen logistischen Regressionsanalyse
zeigen, dass das HbA1c und der diastolische Blutdruck
signifikante Risikofaktoren darstellen, während ein Effekt
der Diabetesdauer und des Geschlechts nicht nachweisbar ist (Tab. [2]).
Zur Darstellung des Odds Ratios wurde für den diastolischen Blutdruck
eine Differenz von 5 mm Hg und für die Diabetesdauer
von 5 Jahren gewählt, da eine Erhöhung dieser
Risikofaktoren um jeweils eine Einheit (1 mm Hg bzw. 1
Jahr) nicht als klinisch relevante Änderung angesehen wird.
Es lässt sich somit darstellen, dass bei einem Anstieg
des diastolischen Blutdrucks um 5 mm Hg die Chance, nach
6 Jahren eine diabetische Nephropathie zu entwickeln, um den Faktor
von OR = 1,3 (95 % Konfidenzintervall
1,1-1,5) erhöht ist. Für das HbA1c erhält
man ähnliche Resultate wie im einfachen Modell, d. h.
in diesem Fall gibt es kaum Unterschiede zwischen den rohen und
den adjustierten Resultaten bezüglich des Zusammenhangs
zwischen der Stoffwechseleinstellung und dem Risiko einer diabetischen
Nephropathie. Die englischen Bezeichnungen der hier diskutierten
Begriffe zeigt Tab. [3].
Tab. 3 Übersetzung
(deutsch - englisch).
<TD VALIGN="TOP">
Deutsch
</TD><TD VALIGN="TOP">
Englisch
</TD>
<TD VALIGN="TOP">
erklärende Variable
</TD><TD VALIGN="TOP">
explanatory variable
</TD>
<TD VALIGN="TOP">
Zielvariable
</TD><TD VALIGN="TOP">
response variable
</TD>
<TD VALIGN="TOP">
einfache lineare Regression
</TD><TD VALIGN="TOP">
simple linear regression
</TD>
<TD VALIGN="TOP">
multiple lineare Regression
</TD><TD VALIGN="TOP">
multiple linear regression
</TD>
<TD VALIGN="TOP">
adjustieren
</TD><TD VALIGN="TOP">
adjust
</TD>
<TD VALIGN="TOP">
Verzerrung
</TD><TD VALIGN="TOP">
bias
</TD>
<TD VALIGN="TOP">
logistische Regression
</TD><TD VALIGN="TOP">
logistic regression
</TD>
<TD VALIGN="TOP">
binär
</TD><TD VALIGN="TOP">
binary
</TD>
<TD VALIGN="TOP">
Chance
</TD><TD VALIGN="TOP">
odds
</TD>
<TD VALIGN="TOP">
Kohortenstudie
</TD><TD VALIGN="TOP">
cohort study
</TD>
<TD VALIGN="TOP">
Fall-Kontroll Studie
</TD><TD VALIGN="TOP">
case-control study
</TD>
<TD VALIGN="TOP">
Regressionskoeffizient
</TD><TD VALIGN="TOP">
regression coefficient
</TD>
<TD VALIGN="TOP">
adjustiertes Odds Ratio
</TD><TD VALIGN="TOP">
adjusted odds ratio
</TD>
<TD VALIGN="TOP">
Modellgüte
</TD><TD VALIGN="TOP">
goodness-of-fit
</TD>
<TD VALIGN="TOP">
proportionales Odds Modell
</TD><TD VALIGN="TOP">
proportional odds model
</TD>
|
kurzgefasst: Mit Hilfe der multiplen
logistischen Regression lässt sich der Einfluss erklärender
Variablen (Risikofaktoren) auf eine binäre Zielvariable
(z. B. Krankheit ja/nein) untersuchen. Aus den
Regressionskoeffizienten lassen sich adjustierte Odds Ratios als
Maß für die Stärke des Zusammenhangs
berechnen.
|