Was ist der p-Wert?

R. Bender; S. Lange

doi:10.1055/s-2007-959030

RSS-Feed abonnieren

Bitte kopieren Sie die angezeigte URL und fügen sie dann in Ihren RSS-Reader ein.

https://www.thieme-connect.de/rss/thieme/de/10.1055-s-00000011.xml

Teilen / Bookmarken

Facebook X Linkedin Weibo

PDF herunterladen

Dtsch Med Wochenschr 2007; 132: e15-e16
DOI: 10.1055/s-2007-959030

Statistik | Statistics

Was ist der p-Wert?

- Artikel Nr. 7 der Statistik-Serie in der DMW -What is the p-value?R. Bender¹ , S. Lange¹

¹Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Köln

Weitere Informationen

Privatdozent Dr. rer. biol. hum. Ralf Bender

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Dillenburger Straße 27

51105 Köln

eMail: Ralf.Bender@iqwig.de

Publikationsverlauf

Publikationsdatum:
25. Mai 2007 (online)

Auch verfügbar auf

Abstract
Volltext
Referenzen

als PDF herunterladen Lizenzen und Reprints

Inhaltsübersicht

Literatur

#

Schlüsselwörter

p-Wert - Statistische Signifikanz - Signifikanzniveau - Konfidenzintervall

#

Key words

p-value - Statistical significance - Significance level - Confidence interval

Der p-Wert ist das Ergebnis eines statistischen Signifikanztests [5]. Mit Hilfe eines Signifikanztests kann man a priori formulierte Hypothesen überprüfen. Die „Nullhypothese” (H₀) ist zumeist die Formulierung der Gleichheit (kein Effekt), die „Alternativhypothese” ( H₁) die Formulierung eines Unterschieds (Effekts) bezüglich einer interessierenden Fragestellung. Man kann die Hypothesen zweiseitig (Gleichheit vs. Unterschied) oder einseitig (Gleichheit vs. positiver Effekt bzw. Gleichheit vs. negativer Effekt) formulieren. In der Regel werden zweiseitige Hypothesenformulierungen verwendet [3].

Aus einer Zufallsstichprobe wird das für die Fragestellung relevante Effektmaß (zum Beispiel Mittelwert, Median, Differenz zweier Mittelwerte, Regressionskoeffizient, Differenz zweier Wahrscheinlichkeiten, Risk Ratio, Odds Ratio, etc.) geschätzt. Durch eine geeignete Normierung dieses Effektmaßes erhält man eine Teststatistik. Beim t-Test beispielsweise wird das Effektmaß (Differenz zweier Mittelwerte) auf den Standardfehler dieser Differenz normiert. Der p-Wert ist die Wahrscheinlichkeit, dass unter der Annahme, die Nullhypothese sei wahr, die Teststatistik den beobachteten oder einen extremeren Wert annimmt. Mit anderen (mathematisch nicht ganz exakten) Worten: Der p-Wert ist die Wahrscheinlichkeit dafür, dass sich die Daten wie beobachtet (oder extremer) realisieren, falls in Wirklichkeit die Nullhypothese zutrifft. Wenn diese Wahrscheinlichkeit klein ist, so spricht dieses Ergebnis gegen die Nullhypothese und es ist Evidenz für die Richtigkeit der Alternativhypothese vorhanden.

Vor der Datenerhebung wird eine maximale Irrtumswahrscheinlichkeit festgelegt (Signifikanzniveau α), die den Fehler 1. Art, nämlich die Nullhypothese abzulehnen, obwohl sie richtig ist, begrenzt. Häufig gewählte Niveaus sind α = 0,05 und α = 0,01. Ist der p-Wert kleiner als das festgelegte Signifkanzniveau, so liegt statistische Signifikanz zum Niveau α vor.

Der p-Wert ist nicht die Wahrscheinlichkeit für die Richtigkeit der Nullhypothese (häufigste Fehlinterpretation). Diesem Ereignis lässt sich (aus der Sicht der „klassischen Statistik”) gar keine Wahrscheinlichkeit zuordnen [7]. Ob ein Effekt da ist oder nicht, ist zwar unbekannt, aber fix, und ist nicht das Resultat eines Zufallsexperiments.

Statistische Signifikanz bedeutet nicht unbedingt auch praktische Relevanz [5]. Die Höhe des p-Werts hängt nicht nur von der Stärke des Effekts, sondern auch von der Variabilität des geschätzten Effektmaßes ab und diese wiederum von der Variabilität der Daten und der Größe der Stichprobe. Vor allem bei großen Stichproben kann man daher sehr kleine p-Werte erhalten (und damit statistische Signifikanz), obwohl der Effekt gering und möglicherweise sogar unbedeutend ist. In Tab. [1 ]findet man die Resultate von sechs t-Tests auf Unterschied (Alternativhypothese) zwischen zwei Gruppen für hypothetische Daten (systolischer Blutdruck in mm Hg). Der p-Wert und damit auch die Signifikanz-Entscheidung hängt von der Differenz der Mittelwerte, der Standardabweichung (SD) und den Stichprobenumfängen (n₁, n₂) ab. Ein kleiner p-Wert sagt aus, dass es statistische Evidenz für einen Unterschied (irgendeiner Stärke) gibt. Wie groß dieser Effekt ist, kann man am p-Wert nicht ablesen. Für diesen Zweck muss man die Größe des geschätzten Effektmaßes interpretieren, am besten im Zusammenhang mit einem Konfidenzintervall [2].

*Tab. 1* Ergebnisse von t -Tests auf Unterschied (Alternativhypothese) zwischen zwei Gruppen für hypothetische Daten (systolischer Blutdruck in mm Hg) mit variierender Differenz, Stichprobengröße und Variabilität.
Test	Stichproben- umfänge	Medikament Mittelwert (SD)	Placebo Mittelwert (SD)	Differenz der Mittelwerte	p -Wert	Signifikanz bei α = 0,05
1	n₁ = n ₂ = 10	160 (22)	180 (22)	20	0,057	n. s.
2	n₁ = n ₂ = 10	160 (15)	180 (15)	20	0,008	s.
3	n₁ = n ₂ = 20	160 (22)	180 (22)	20	0,007	s.
4	n₁ = n ₂ = 50	170 (22)	180 (22)	10	0,025	s.
5	n₁ = n ₂ = 5	140 (50)	180 (50)	40	0,242	n. s.
6	n₁ = n ₂ = 1 000	178 (12)	180 (12)	2	< 0,001	s.
SD = Standardabweichung, n. s. = nicht signifikant, s. = signifikant

Mit Hilfe eines Signifikanztests lässt sich ein beobachtetes Ergebnis statistisch mit einem (geringen) Irrtumsvorbehalt vom Zufall abgrenzen. Ein nicht-signifikantes Ergebnis bedeutet jedoch nicht, dass man nachgewiesen hat, dass kein Unterschied da ist. Für diesen Zweck benötigt man Äquivalenztests [1] [6].

kurzgefasst

Der sogenannte „p-Wert” ist das Ergebnis eines Signifikanz-tests zur Prüfung einer vorab aufgestellten (Null-)Hypothese. Ist der p-Wert kleiner als das, ebenfalls vorab, gewählte Irrtums-(Signifikanz-)Niveau a, dann gilt das Ergebnis als statistisch signifikant. Statistische Signifikanz ist nicht gleichbedeutend mit klinischer Relevanz.

Die englischen Bezeichnungen der hier diskutierten Begriffe zeigt Tab. [2].

*Tab. 2* Übersetzungen (deutsch - englisch)
p-Wert	p-value
Signifikanztest	significance test
Null- (Alternativ-) hypothese	null (alternative) hypothesis
Zufallsstichprobe	random sample
Teststatistik	test statistic
Signifikanzniveau	significance level
Konfidenzintervall	confidence interval

Dieser Beitrag ist eine überarbeitete Fassung aus dem Supplement Statistik aus dem Jahr 2001.

#

Literatur

1 Altman D G, Bland J M. Absence of evidence is not evidence of absence. BMJ. 1995; 311 485

Google Scholar
2 Bender R, Lange S. Was ist ein Konfidenzintervall?. Dtsch Med Wochenschr. 2007; 132 e17-e18

Google Scholar
3 Altman D G, Bland J M. One and two sided tests of significance. BMJ. 1994; 309 248

Google Scholar
4 Guyatt G H, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S. Basic statistics for clinicians: 1. Hypothesis testing. CMAJ. 1995; 152 27-32

Google Scholar
5 Lange S. Statistische Signifikanz und klinische Relevanz. Z Hautkr. 2000; 75 225-229

Google Scholar
6 Lange S, Bender R, Ziegler A. Äquivalenzstudien und Nicht-Unterlegenheitsstudien. Dtsch Med Wochenschr. 2007; 132 e53-e56

Google Scholar
7 Pollard P, Richardson J TE. On the probability of making type I errors. Psychol Bull. 1987; 102 159-163

Google Scholar

Privatdozent Dr. rer. biol. hum. Ralf Bender

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Dillenburger Straße 27

51105 Köln

eMail: Ralf.Bender@iqwig.de

#

Literatur

1 Altman D G, Bland J M. Absence of evidence is not evidence of absence. BMJ. 1995; 311 485

Google Scholar
2 Bender R, Lange S. Was ist ein Konfidenzintervall?. Dtsch Med Wochenschr. 2007; 132 e17-e18

Google Scholar
3 Altman D G, Bland J M. One and two sided tests of significance. BMJ. 1994; 309 248

Google Scholar
4 Guyatt G H, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S. Basic statistics for clinicians: 1. Hypothesis testing. CMAJ. 1995; 152 27-32

Google Scholar
5 Lange S. Statistische Signifikanz und klinische Relevanz. Z Hautkr. 2000; 75 225-229

Google Scholar
6 Lange S, Bender R, Ziegler A. Äquivalenzstudien und Nicht-Unterlegenheitsstudien. Dtsch Med Wochenschr. 2007; 132 e53-e56

Google Scholar
7 Pollard P, Richardson J TE. On the probability of making type I errors. Psychol Bull. 1987; 102 159-163

Google Scholar

Privatdozent Dr. rer. biol. hum. Ralf Bender

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Dillenburger Straße 27

51105 Köln

eMail: Ralf.Bender@iqwig.de

Lizenzen und Reprints