Der p-Wert ist das Ergebnis eines statistischen Signifikanztests [5]. Mit Hilfe eines Signifikanztests kann man a priori formulierte Hypothesen überprüfen.
Die „Nullhypothese” (H0) ist zumeist die Formulierung der Gleichheit (kein Effekt), die „Alternativhypothese”
( H1) die Formulierung eines Unterschieds (Effekts) bezüglich einer interessierenden Fragestellung.
Man kann die Hypothesen zweiseitig (Gleichheit vs. Unterschied) oder einseitig (Gleichheit
vs. positiver Effekt bzw. Gleichheit vs. negativer Effekt) formulieren. In der Regel
werden zweiseitige Hypothesenformulierungen verwendet [3].
Aus einer Zufallsstichprobe wird das für die Fragestellung relevante Effektmaß (zum Beispiel Mittelwert, Median,
Differenz zweier Mittelwerte, Regressionskoeffizient, Differenz zweier Wahrscheinlichkeiten,
Risk Ratio, Odds Ratio, etc.) geschätzt. Durch eine geeignete Normierung dieses Effektmaßes
erhält man eine Teststatistik. Beim t-Test beispielsweise wird das Effektmaß (Differenz zweier Mittelwerte) auf den Standardfehler
dieser Differenz normiert. Der p-Wert ist die Wahrscheinlichkeit, dass unter der Annahme,
die Nullhypothese sei wahr, die Teststatistik den beobachteten oder einen extremeren
Wert annimmt. Mit anderen (mathematisch nicht ganz exakten) Worten: Der p-Wert ist
die Wahrscheinlichkeit dafür, dass sich die Daten wie beobachtet (oder extremer) realisieren,
falls in Wirklichkeit die Nullhypothese zutrifft. Wenn diese Wahrscheinlichkeit klein
ist, so spricht dieses Ergebnis gegen die Nullhypothese und es ist Evidenz für die
Richtigkeit der Alternativhypothese vorhanden.
Vor der Datenerhebung wird eine maximale Irrtumswahrscheinlichkeit festgelegt (Signifikanzniveau α), die den Fehler 1. Art, nämlich die Nullhypothese abzulehnen, obwohl sie richtig
ist, begrenzt. Häufig gewählte Niveaus sind α = 0,05 und α = 0,01. Ist der p-Wert
kleiner als das festgelegte Signifkanzniveau, so liegt statistische Signifikanz zum
Niveau α vor.
Der p-Wert ist nicht die Wahrscheinlichkeit für die Richtigkeit der Nullhypothese
(häufigste Fehlinterpretation). Diesem Ereignis lässt sich (aus der Sicht der „klassischen
Statistik”) gar keine Wahrscheinlichkeit zuordnen [7]. Ob ein Effekt da ist oder nicht, ist zwar unbekannt, aber fix, und ist nicht das
Resultat eines Zufallsexperiments.
Statistische Signifikanz bedeutet nicht unbedingt auch praktische Relevanz [5]. Die Höhe des p-Werts hängt nicht nur von der Stärke des Effekts, sondern auch von
der Variabilität des geschätzten Effektmaßes ab und diese wiederum von der Variabilität
der Daten und der Größe der Stichprobe. Vor allem bei großen Stichproben kann man
daher sehr kleine p-Werte erhalten (und damit statistische Signifikanz), obwohl der
Effekt gering und möglicherweise sogar unbedeutend ist. In Tab. [1 ]findet man die Resultate von sechs t-Tests auf Unterschied (Alternativhypothese) zwischen zwei Gruppen für hypothetische
Daten (systolischer Blutdruck in mm Hg). Der p-Wert und damit auch die Signifikanz-Entscheidung
hängt von der Differenz der Mittelwerte, der Standardabweichung (SD) und den Stichprobenumfängen
(n1, n2) ab. Ein kleiner p-Wert sagt aus, dass es statistische Evidenz für einen Unterschied
(irgendeiner Stärke) gibt. Wie groß dieser Effekt ist, kann man am p-Wert nicht ablesen.
Für diesen Zweck muss man die Größe des geschätzten Effektmaßes interpretieren, am
besten im Zusammenhang mit einem Konfidenzintervall [2].
Tab. 1 Ergebnisse von t -Tests auf Unterschied (Alternativhypothese) zwischen zwei Gruppen
für hypothetische Daten (systolischer Blutdruck in mm Hg) mit variierender Differenz,
Stichprobengröße und Variabilität.
<TD VALIGN="TOP">
Test
</TD><TD VALIGN="TOP">
Stichproben-
umfänge
</TD><TD VALIGN="TOP">
Medikament
Mittelwert (SD)
</TD><TD VALIGN="TOP">
Placebo
Mittelwert (SD)
</TD><TD VALIGN="TOP">
Differenz der
Mittelwerte
</TD><TD VALIGN="TOP">
p -Wert
</TD><TD VALIGN="TOP">
Signifikanz bei α = 0,05
</TD>
<TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
n1 = n 2 = 10
</TD><TD VALIGN="TOP">
160 (22)
</TD><TD VALIGN="TOP">
180 (22)
</TD><TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
0,057
</TD><TD VALIGN="TOP">
n. s.
</TD>
<TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
n1 = n 2 = 10
</TD><TD VALIGN="TOP">
160 (15)
</TD><TD VALIGN="TOP">
180 (15)
</TD><TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
0,008
</TD><TD VALIGN="TOP">
s.
</TD>
<TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
n1 = n 2 = 20
</TD><TD VALIGN="TOP">
160 (22)
</TD><TD VALIGN="TOP">
180 (22)
</TD><TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
0,007
</TD><TD VALIGN="TOP">
s.
</TD>
<TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
n1 = n 2 = 50
</TD><TD VALIGN="TOP">
170 (22)
</TD><TD VALIGN="TOP">
180 (22)
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
0,025
</TD><TD VALIGN="TOP">
s.
</TD>
<TD VALIGN="TOP">
5
</TD><TD VALIGN="TOP">
n1 = n 2 = 5
</TD><TD VALIGN="TOP">
140 (50)
</TD><TD VALIGN="TOP">
180 (50)
</TD><TD VALIGN="TOP">
40
</TD><TD VALIGN="TOP">
0,242
</TD><TD VALIGN="TOP">
n. s.
</TD>
<TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
n1 = n 2 = 1 000
</TD><TD VALIGN="TOP">
178 (12)
</TD><TD VALIGN="TOP">
180 (12)
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
< 0,001
</TD><TD VALIGN="TOP">
s.
</TD>
<TD VALIGN="TOP" COLSPAN="7">
SD = Standardabweichung, n. s. = nicht signifikant, s. = signifikant
</TD>
Mit Hilfe eines Signifikanztests lässt sich ein beobachtetes Ergebnis statistisch
mit einem (geringen) Irrtumsvorbehalt vom Zufall abgrenzen. Ein nicht-signifikantes
Ergebnis bedeutet jedoch nicht, dass man nachgewiesen hat, dass kein Unterschied da
ist. Für diesen Zweck benötigt man Äquivalenztests [1]
[6].
kurzgefasst
Der sogenannte „p-Wert” ist das Ergebnis eines Signifikanz-tests zur Prüfung einer
vorab aufgestellten (Null-)Hypothese. Ist der p-Wert kleiner als das, ebenfalls vorab,
gewählte Irrtums-(Signifikanz-)Niveau a, dann gilt das Ergebnis als statistisch signifikant.
Statistische Signifikanz ist nicht gleichbedeutend mit klinischer Relevanz.
Die englischen Bezeichnungen der hier diskutierten Begriffe zeigt Tab. [2].
Tab. 2 Übersetzungen (deutsch - englisch)
<TD VALIGN="TOP">
p-Wert
</TD><TD VALIGN="TOP">
p-value
</TD>
<TD VALIGN="TOP">
Signifikanztest
</TD><TD VALIGN="TOP">
significance test
</TD>
<TD VALIGN="TOP">
Null- (Alternativ-) hypothese
</TD><TD VALIGN="TOP">
null (alternative) hypothesis
</TD>
<TD VALIGN="TOP">
Zufallsstichprobe
</TD><TD VALIGN="TOP">
random sample
</TD>
<TD VALIGN="TOP">
Teststatistik
</TD><TD VALIGN="TOP">
test statistic
</TD>
<TD VALIGN="TOP">
Signifikanzniveau
</TD><TD VALIGN="TOP">
significance level
</TD>
<TD VALIGN="TOP">
Konfidenzintervall
</TD><TD VALIGN="TOP">
confidence interval
</TD>
Dieser Beitrag ist eine überarbeitete Fassung aus dem Supplement Statistik aus dem
Jahr 2001.