Lineare Regression
Lineare Regression
Mit Hilfe der linearen Regression lässt sich der Einfluss einer oder mehrerer erklärender
Variablen X 1,...,X m (z. B. X1 = Alter, X2 = Geschlecht und X3 = Rauchen) auf eine stetige Zielvariable Y (z. B. Y = systolischer Blutdruck) statistisch
untersuchen [3]. Liegt nur eine erklärende Variable X vor, spricht man von der einfachen linearen Regression (engl.: simple linear regression) und verwendet die Geradengleichung [5]
Y = α + β X .
Im Fall mehrerer erklärender Variablen X 1,...,X m liegt das Modell der multiplen linearen Regression (engl.: multiple linear regression) vor, das durch die Gleichung
Y = α + β1X 1 + ... + βmXm
beschrieben wird [3]. Die Bedeutung der multiplen Regressionsmodelle in der medizinischen Statistik liegt
zum einen darin, den gemeinsamen Einfluss mehrerer Variablen auf eine Zielvariable
untersuchen zu können und zum anderen in der Möglichkeit, den interessierenden Effekt
einer Variable bezüglich anderer Variablen zu adjustieren, um eine Verzerrung (engl.: bias) bei der Effektschätzung zu reduzieren [3].
Logistische Regression
Logistische Regression
Die logistische Regression (engl.: logistic regression) kommt als Auswertungsmethode in Frage, wenn man den
Einfluss erklärender Variablen X1,...,Xm auf eine Zielvariable Y untersuchen möchte, und Y binäres Messniveau besitzt (z. B. Y = Krankheit ja/nein). Da Y nur die beiden Werte 1 = ja und 0 = nein
annehmen kann, ist die Anwendung der linearen Regression in der Regel nicht sinnvoll.
Betrachten wir zur Modellentwicklung zunächst den einfachen Fall von nur einer erklärenden
Variable X. Der Schlüssel zur quantitativen Beschreibung eines Zusammenhangs zwischen
Y und X liegt darin, anstelle von Y die Wahrscheinlichkeit für den Eintritt des Zielereignisses
p = P(Y = 1) zu modellieren. In medizinischen Anwendungen ist die Wahrscheinlichkeit
p meist ein Risiko für eine bestimmte Krankheit. Während Y nur die beiden Ausprägungen
1 und 0 besitzt, kann das Risiko p jede beliebige Zahl zwischen 0 und 1 annehmen.
Die Chance (engl.: odds) p/(1-p) kann jede beliebige positive Zahl annehmen [2] und der Logarithmus der Chance log[p/(1-p)], genannt logit, besitzt die ganze reelle Zahlenmenge als Wertebereich. Damit ist es häufig sinnvoll,
eine lineare Beziehung zwischen dem logit von p und X anzunehmen, d. h.
logit (p) = log[ p/(1-p)] = α+βX ,
was mathematisch äquivalent ist mit
Der Term „exp” bezeichnet hierbei die Exponentialfunktion. Der rechte Term obiger Gleichung stellt
die so genannte logistische Funktion dar, daher erklärt sich die Bezeichnung „logistische
Regression”. Die Erweiterung auf ein multiples Modell mit mehreren erklärenden Variablen
erhält man wie bei der linearen Regression, indem βX ersetzt wird durch die Linearkombination
β1X1+...+β mXm. Zur Schätzung der logistischen Regressionskoeffizienten werden in der Praxis iterative
Algorithmen eingesetzt.
Da in der medizinische Forschung oftmals binäre Zielvariablen auftreten, wird die
logistische Regression in der Praxis sehr häufig angewendet. Eine besondere Stellung
erhält das logistische Regressionsmodell dadurch, dass man sowohl für prospektive Kohortenstudien als auch für retrospektive Fall-Kontroll Studien sinnvoll interpretierbare Effektschätzer erhält. Das gebräuchliche Effektmaß in der
Epidemiologie ist das Odds Ratio (OR), das als Verhältnis der Chancen zwischen exponierten und nicht exponierten Personen
definiert ist [2]. Aus dem Regressionskoeffizient β einer logistischen Regression kann direkt das
Odds Ratio berechnet werden durch OR = exp(β). In einem multiplen Modell kann für die Beziehung zwischen Y und einer erklärenden
Variablen Xj das aus β j berechnete ORj = exp(βj) als das nach allen anderen erklärenden Variablen adjustierte Odds Ratio betrachtet werden. Bei stetigen erklärenden Variablen bezieht sich der Wert des Odds
Ratios auf die Erhöhung der erklärenden Variablen um jeweils 1 Einheit bzw. auf den
Anstieg einer vorher definierten klinisch relevanten Differenz (siehe Beispiel).
Wie bei der linearen Regression muss auch bei der logistischen Regression die Modellgüte (engl.: goodness-of-fit) untersucht werden. Auf die entsprechenden Methoden können
wir hier nicht eingehen. Der interessierte Leser sei auf die Literatur verwiesen [5]. Außer der logistischen Regression für binäre Zielvariablen gibt es Modellerweiterungen
für nominale und ordinale Daten. Das bekannteste Modell ist hierbei das proportionale Odds Modell für ordinale Zielvariablen [1].
Beispiel
Beispiel
Mit Hilfe der logistischen Regression wurde der Einfluss von Risikofaktoren auf die
Entwicklung der diabetischen Nephropathie bei Typ 1 Diabetikern untersucht [7]. Betrachten wir zunächst nur das glykierte Hämoglobin (HbA1c) als Risikofaktor. In der einfachen logistischen Regressionsanalyse ist das HbA1c ein signifikanter Risikofaktor (Tab. [1]). Die Stärke des Effekts lässt sich mit Hilfe des Odds Ratios angeben. Pro Einheit
des HbA1c (1 %) steigt die Chance nach 6 Jahren eine diabetische Nephropathie zu entwickeln
um den Faktor von OR = 1.6 (95 % Konfidenz-intervall 1,3 - 1,9).
Tab. 1 Einfache logistische Regressionsanalyse für die Entwicklung einer diabetischen Nephropathie
nach 6 Jahren bei 480 Typ 1 Diabetikern.
<TD VALIGN="TOP">
Risikofaktor
</TD><TD VALIGN="TOP">
Regressionskoeffizient
</TD><TD VALIGN="TOP">
Standardfehler
</TD><TD VALIGN="TOP">
p-Wert
</TD><TD VALIGN="TOP">
Differenz für Odds Ratio
</TD><TD VALIGN="TOP">
Odds Ratio
</TD><TD VALIGN="TOP">
95 % Konfidenzintervall
</TD>
<TD VALIGN="TOP">
Achsenabschnitt
</TD><TD VALIGN="TOP">
- 5,089
</TD><TD VALIGN="TOP">
0,731
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
HbA1c
</TD><TD VALIGN="TOP">
+ 0,457
</TD><TD VALIGN="TOP">
0,089
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
1 %
</TD><TD VALIGN="TOP">
1,58
</TD><TD VALIGN="TOP">
1,33 - 1,88
</TD>
Dieser Zusammenhang lässt sich auch grafisch veranschaulichen, indem das Risiko als
Funktion des Risikofaktors dargestellt wird (Abb.
[1]). Für HbA1c-Werte im Normalbereich (4,3 - 6,1 %) liegt das Risiko, eine diabetische Nephropathie
zu entwickeln, unter 10 %, während es bei extrem hohen HbA1c-Werten von 16 % und höher auf über 90 % ansteigt.
Abb. 1 Risiko für die Entwicklung einer diabetischen Nephropathie nach 6 Jahren in Abhängigkeit
vom HbA1c bei Typ 1 Diabetes, berechnet mit Hilfe einfacher logistischer Regressionsanalyse
(n = 480).
Diese Ergebnisse verdeutlichen die starke Assoziation zwischen der Stoffwechseleinstellung
und dem Risiko diabetischer Spätschäden bei Typ 1 Diabetes. Um zu zeigen, dass eine
Reduktion des HbA1c auch zu einer Reduktion des Risikos für diabetische Spätschäden führt, benötigt man
allerdings entsprechende Ergebnisse einer randomisierten klinischen Therapiestudie,
wie z. B. den Diabetes Control and Complications Trial (DCCT, [4]).
Neben dem glykierten Hämoglobin gibt es noch weitere Risikofaktoren, die hier in Betracht
gezogen werden müssen, vor allem Blutdruck, Diabetesdauer und möglicherweise das Geschlecht.
Die Ergebnisse einer multiplen logistischen Regressionsanalyse zeigen, dass das HbA1c und der diastolische Blutdruck signifikante Risikofaktoren darstellen, während ein
Effekt der Diabetesdauer und des Geschlechts nicht nachweisbar ist (Tab. [2]).
Tab. 2 Multiple logistische Regressionsanalyse für die Entwicklung einer diabetischen Nephropathie
nach 6 Jahren bei 480 Typ 1 Diabetikern.
<TD VALIGN="TOP">
Risikofaktor
</TD><TD VALIGN="TOP">
Regressionskoeffizient
</TD><TD VALIGN="TOP">
Standardfehler
</TD><TD VALIGN="TOP">
p-Wert
</TD><TD VALIGN="TOP">
Differenz für Odds Ratio
</TD><TD VALIGN="TOP">
Odds Ratio
</TD><TD VALIGN="TOP">
95 % Konfidenzintervall
</TD>
<TD VALIGN="TOP">
Achsenabschnitt
</TD><TD VALIGN="TOP">
- 8,980
</TD><TD VALIGN="TOP">
1,736
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
HbA1c
</TD><TD VALIGN="TOP">
+ 0,464
</TD><TD VALIGN="TOP">
0,091
</TD><TD VALIGN="TOP">
0,0001
</TD><TD VALIGN="TOP">
1 %
</TD><TD VALIGN="TOP">
1,59
</TD><TD VALIGN="TOP">
1,33 - 1,90
</TD>
<TD VALIGN="TOP">
diast. Blutdruck
</TD><TD VALIGN="TOP">
+ 0,048
</TD><TD VALIGN="TOP">
0,019
</TD><TD VALIGN="TOP">
0,0148
</TD><TD VALIGN="TOP">
5 mm Hg
</TD><TD VALIGN="TOP">
1,27
</TD><TD VALIGN="TOP">
1,05 - 1,54
</TD>
<TD VALIGN="TOP">
Diabetesdauer
</TD><TD VALIGN="TOP">
+ 0,004
</TD><TD VALIGN="TOP">
0,018
</TD><TD VALIGN="TOP">
0,8220
</TD><TD VALIGN="TOP">
5 Jahre
</TD><TD VALIGN="TOP">
1,02
</TD><TD VALIGN="TOP">
0,85 - 1,22
</TD>
<TD VALIGN="TOP">
Geschlecht
</TD><TD VALIGN="TOP">
- 0,025
</TD><TD VALIGN="TOP">
0,249
</TD><TD VALIGN="TOP">
0,9212
</TD><TD VALIGN="TOP">
männl. vs. weibl.
</TD><TD VALIGN="TOP">
0,98
</TD><TD VALIGN="TOP">
0,60 - 1,59
</TD>
Zur Darstellung des Odds Ratios wurde für den diastolischen Blutdruck eine Differenz
von 5 mm Hg und für die Diabetesdauer von 5 Jahren gewählt, da eine Erhöhung dieser
Risikofaktoren um jeweils eine Einheit (1 mm Hg bzw. 1 Jahr) nicht als klinisch relevante
Änderung angesehen wird. Es lässt sich somit darstellen, dass bei einem Anstieg des
diastolischen Blutdrucks um 5 mm Hg die Chance, nach 6 Jahren eine diabetische Nephropathie
zu entwickeln, um den Faktor von OR = 1,3 (95 % Konfidenzintervall 1,1 - 1,5) erhöht
ist. Für das HbA1c erhält man ähnliche Resultate wie im einfachen Modell, d. h. in diesem Fall gibt
es kaum Unterschiede zwischen den rohen und den adjustierten Resultaten bezüglich
des Zusammenhangs zwischen der Stoffwechseleinstellung und dem Risiko einer diabetischen
Nephropathie. Die englischen Bezeichnungen der hier diskutierten Begriffe zeigt Tab. [3].
Tab. 3 Übersetzung (deutsch - englisch).
<TD VALIGN="TOP">
erklärende Variable
</TD><TD VALIGN="TOP">
explanatory variable
</TD>
<TD VALIGN="TOP">
Zielvariable
</TD><TD VALIGN="TOP">
response variable
</TD>
<TD VALIGN="TOP">
einfache lineare Regression
</TD><TD VALIGN="TOP">
simple linear regression
</TD>
<TD VALIGN="TOP">
multiple lineare Regression
</TD><TD VALIGN="TOP">
multiple linear regression
</TD>
<TD VALIGN="TOP">
adjustieren
</TD><TD VALIGN="TOP">
adjust
</TD>
<TD VALIGN="TOP">
Verzerrung
</TD><TD VALIGN="TOP">
bias
</TD>
<TD VALIGN="TOP">
logistische Regression
</TD><TD VALIGN="TOP">
logistic regression
</TD>
<TD VALIGN="TOP">
binär
</TD><TD VALIGN="TOP">
binary
</TD>
<TD VALIGN="TOP">
Chance
</TD><TD VALIGN="TOP">
odds
</TD>
<TD VALIGN="TOP">
Kohortenstudie
</TD><TD VALIGN="TOP">
cohort study
</TD>
<TD VALIGN="TOP">
Fall-Kontroll Studie
</TD><TD VALIGN="TOP">
case-control study
</TD>
<TD VALIGN="TOP">
Regressionskoeffizient
</TD><TD VALIGN="TOP">
regression coefficient
</TD>
<TD VALIGN="TOP">
adjustiertes Odds Ratio
</TD><TD VALIGN="TOP">
adjusted odds ratio
</TD>
<TD VALIGN="TOP">
Modellgüte
</TD><TD VALIGN="TOP">
goodness-of-fit
</TD>
<TD VALIGN="TOP">
proportionales Odds Modell
</TD><TD VALIGN="TOP">
proportional odds model
</TD>
kurzgefasst
Mit Hilfe der multiplen logistischen Regression lässt sich der Einfluss erklärender
Variablen (Risikofaktoren) auf eine binäre Zielvariable (z. B. Krankheit ja/nein)
untersuchen. Aus den Regressionskoeffizienten lassen sich adjustierte Odds Ratios
als Maß für die Stärke des Zusammenhangs berechnen.
Dieser Beitrag ist eine überarbeitete Fassung aus dem Supplement Statistik aus dem
Jahr 2002.