Zentralbl Gynakol 2006; 128(6): 307-310
DOI: 10.1055/s-2006-942088
Übersicht

© Georg Thieme Verlag Stuttgart · New York

Nicht signifikant - was nun?

Not Significant - What Now?J. Gerß1
  • 1Universität Münster, Institut für Medizinische Informatik und Biomathematik
Further Information

Publication History

Publication Date:
10 January 2007 (online)

Zusammenfassung

In einem statistischen Testproblem wird eine wissenschaftliche Fragestellung in Form einer Nullhypothese und einer gegensätzlichen Alternative formuliert. Bei der Konstruktion einer geeigneten empirischen Entscheidungsregel konzentriert man sich üblicherweise auf die Kontrolle des Fehlers 1. Art, einer irrtümlichen Ablehnung der Nullhypothese. Dies hat zur Konsequenz, dass unter Umständen eine nicht unerhebliche Gefahr eines Fehlers 2. Art besteht. Im Falle eines nicht signifikanten Testergebnisses ist man also keineswegs sicher, dass die Nullhypothese tatsächlich gültig ist. Im Rahmen der Planung einer Studie kann man versuchen, einen solchen unerwünschten Ausgang eines Signifikanztests zu vermeiden. Gelingt dies nicht, so empfiehlt es sich, das nicht signifikante Testergebnis weitergehend zu bewerten. Dazu bietet es sich an, Konfidenzintervalle der getesteten Effekte zu erstellen. Der p-Wert kann in seiner Eigenschaft als Metrik als Maß der Evidenz gegen die Nullhypothese interpretiert werden. Darüber hinaus schätzt man im Rahmen einer nachträglichen Power-Analyse unter den gegebenen Umständen die Wahrscheinlichkeit eines signifikanten Testergebnisses. So zeigt sich möglicherweise, dass der angewandte Test - unter der Annahme der tatsächlichen Gültigkeit der Alternative - erwartungsgemäß kaum eine Chance gehabt hätte, dies zu erkennen. Anhand einer derartigen Aussage wird natürlich eine nicht signifikante Testentscheidung, die auf die Nullhypothese hindeutet, erheblich relativiert. Andererseits deutet eine große Power auf eine geringe Wahrscheinlichkeit eines Fehlers 2. Art hin.

Abstract

In a statistical significance test a scientific problem is expressed by formulating a null hypothesis and an opposite alternative. Construction of an empirical decision rule usually focuses on control of the α-error, i. e. the probability of erroneously refusing the null hypothesis. Contrary to the α-error, the β-error is not controlled and in general is of unknown size. Thus in case of a non-significant result the validity of the null hypothesis still may be highly questionable. Such an unwanted outcome of an applied test the researcher should try to avoid by choosing an appropriate study design. In case it occurs nevertheless, it is advised to further evaluate the (non-significant) result. This can be done by calculating confidence intervals of the tested effects. Furthermore the p-value can be interpreted as a metric measure of evidence against the null hypothesis. By means of a posterior power analysis the probability of a significant test result is estimated under the given circumstances. Thus possibly the applied test - under the assumption of actual validity of the alternative - turns out to have had hardly a chance of rejecting the null hypothesis. In this case the non-significant result (pointing towards the null hypothesis) is relativised substantially. On the other hand a large power points to a small probability of a β-error.