Sensitivität, Spezifität, positiver und negativer Vorhersagewert sind wichtige Kriterien
zur Beurteilung eines diagnostischen Verfahrens, insbesondere dann, wenn das Verfahren
ein dichotomes Ergebnis erbringt, der Test also positiv oder negativ ausfallen kann.
Diese Kriterien sind von großer Bedeutung sowohl für die Auswahl eines geeigneten
Tests als auch die Interpretation der Testergebnisse. Am einfachsten lässt sich dies
am Beispiel eines Screeningverfahrens demonstrieren. Im folgenden Beitrag soll deshalb
angenommen werden, eine Reha-Klinik plane die Einführung eines Screenings ihrer Patienten
auf psychische Begleiterkrankungen.
Die psychische Komorbidität bei organisch Kranken in der Rehabilitation ist beträchtlich.
Die Prävalenz aktueller psychischer Störungen liegt zwischen 20 und 30 % [1]
[2]. Inzwischen wird deshalb in mehreren Leitlinien gefordert, körperlich Kranke einem
Screeningverfahren im Hinblick auf psychische Störungen zu unterziehen, natürlich
immer vorausgesetzt, die betreffende Institution hält auch entsprechende Behandlungsangebote
vor (z. B. [3]). Damit ein Screening überhaupt sinnvoll ist, müssen bestimmte Bedingungen erfüllt
sein [4]:
-
Die Krankheit, um die es geht, muss zum einen ausreichend häufig und zum anderen gravierend
im Hinblick auf die Lebensqualität der Betroffenen sein,
-
eine wirksame Behandlung muss zur Verfügung stehen,
-
es müssen gute Screeningtests vorhanden sein, und
-
die Nützlichkeit eines Screenings (mit anschließender Behandlung je nach Testergebnis)
muss nachgewiesen sein.
Diese Voraussetzungen sind beispielsweise für die Depression erfüllt [5]
[6]
[7]
[8]
[9]. Deshalb nehmen die folgenden Ausführungen die Depression als Beispiel für eine
Zielkrankheit bzw. Störung, die durch ein Screening entdeckt werden soll; die vorgestellten
Konzepte sind jedoch analog auf beliebige andere Zielkrankheiten übertragbar.
Angenommen, ein Screeningtest hat eine Sensitivität von 80 % und eine Spezifität von
80 %. (Dies sind Zahlen, wie sie psychologische Screeningverfahren häufig aufweisen.)
Weiterhin angenommen, die Prävalenz der gesuchten Störung (hier: einer Depression)
in der untersuchten Population von Patienten der stationären medizinischen Rehabilitation
betrage 20 %. (Auch dies ist eine realistische Annahme.) Wie groß ist dann die Wahrscheinlichkeit,
dass ein positiv getesteter Patient auch tatsächlich eine Depression aufweist? Diese
Frage können die meisten von uns wahrscheinlich nicht ohne längeres Nachdenken beantworten.
Ein Grund dafür liegt darin, dass die Frage unter Angabe von bedingten Wahrscheinlichkeiten
gestellt wird. Bedingte Wahrscheinlichkeiten leuchten uns aber nicht intuitiv ein,
zumal dann nicht, wenn sie sich auf unterschiedliche Referenzgruppen beziehen [10]. Deshalb werden im Folgenden drei unterschiedliche Darstellungsweisen gewählt, die
die Konzepte, um die es geht, Schritt für Schritt näher bringen sollen. Die Darstellungsweisen
sind:
-
die klassische Definition der Begriffe anhand einer 4-Felder-Tafel [4],
-
eine grafische Präsentation „für die rechte Gehirnhälfte” [11],
-
ein Baumdiagramm mit natürlichen Häufigkeiten [10].
Die klassischen Kriterien für die Bewertung eines diagnostischen Tests (s. Abb. [1]) umfassen Sensitivität und Spezifität, Konzepte, die aus der Signalentdeckungstheorie
(signal detection theory) stammen [12]
[13]. Diese Kriterien können anhand eines 4-Felder-Schemas erläutert werden (Abb. [1 a]). In diesem 4-Felder-Schema werden das tatsächliche Vorhandensein einer Krankheit
(vorhanden oder nicht vorhanden)[1] und das Ergebnis eines diagnostischen Tests, welches positiv oder negativ ausfallen
kann, miteinander kombiniert. Ein guter Test fällt positiv aus, wenn die Störung tatsächlich
vorhanden ist (Feld a: richtig positiv), hingegen negativ, wenn die Störung tatsächlich
nicht vorhanden ist (Feld d: richtig negativ). Da Tests aber keine perfekte Validität
besitzen, kommen auch falsch positive (Feld b) und falsch negative (Feld c) Ergebnisse
vor. Das tatsächliche Vorhandensein wird in Validierungsstudien durch das Ergebnis
des Referenzstandards festgelegt. Referenzstandards können beispielsweise pathologische
Befunde oder Laborbefunde sein. Im Bereich psychologischer Merkmale gibt es derartige
objektive Kriterien (noch) nicht. Als Referenzstandard wird bei psychischen Störungen
meist ein strukturiertes klinisches Interview nach ICD-10 oder DSM-IV verwandt.[2]
Abb. 1 Kriterien zur Beurteilung eines diagnostischen Tests (nach [4]), Erläuterungen im Text, a) Vierfeldertafel, in der Aussage des Referenzstandards und Testergebnis kombiniert
werden, b) Sensitivität und Spezifität, c) positiver und negativer Vorhersagewert.
Sensitivität und Spezifität sind Kennwerte, die vom „tatsächlichen” Vorhandensein
einer Störung ausgehen, d. h. von der Klassifikation der Probanden je nach dem Ergebnis
des Referenzstandards. Die Sensitivität gibt an, wie viele derjenigen Patienten, die
eine Depression tatsächlich haben, vom Test auch als positiv identifiziert werden
(Abb. [1 b]). Bezugsgruppe der Sensitivität ist also die Gruppe derjenigen Probanden, die die
gesuchte Krankheit aufweisen. Die Sensitivität vermindert sich, wenn der Test viele
falsch negative Ergebnisse produziert, also eigentlich depressive Patienten nicht
entdeckt. Abb. [2] veranschaulicht dies grafisch: In einer Population von 100 Probanden (durch Kästchen
dargestellt) sind 20 depressiv (ausgefüllte Kreise) und 80 nicht (leere Kreise) (Prävalenz
20 %; Abb. [2 a]). Das Testergebnis ist durch die Schattierung der Kästchen dargestellt (Abb. [2 b]). Für die Bestimmung der Sensitivität greifen wir die Untergruppe derjenigen 20
Probanden heraus, die die Krankheit haben (Abb. [2 c]). Von diesen werden 80 %, d. h. 16 von 20, richtig positiv klassifiziert, also als
depressiv erkannt (Sensitivität 80 %). Bei 4 Probanden fällt der Test hingegen falsch
negativ aus; sie werden als gesund klassifiziert, obwohl sie eigentlich krank sind.
Abb. 2 Grafische Darstellung der Logik der Kriterien (mod. nach [11]), Erläuterungen im Text, a) Prävalenz, b) Testergebnis, c) Sensitivität, d) Spezifität, e) positiver Vorhersagewert, f) negativer Vorhersagewert.
Die Spezifität gibt an, wie viele Patienten, die keine Depression haben, vom Test auch als negativ klassifiziert werden (s. Abb. [1 b]). Ein Test mit hoher Spezifität erkennt Gesunde korrekt als gesund und fällt negativ
aus. Die Spezifität vermindert sich, wenn der Test viele falsch positive Ergebnisse
produziert. Für die Bestimmung der Spezifität ist demnach die Untergruppe der Gesunden
die Bezugsgröße. Wenn wir in unserem grafischen Beispiel die 80 Gesunden herausgreifen,
so werden von diesen bei einer Spezifität von 80 % 64 korrekt negativ getestet (Abb.
[2 d]). Die übrigen 16 werden fälschlicherweise als „krank” gemeldet, obwohl sie in Wirklichkeit
gesund sind (falsch positiv).
Sensitivität und Spezifität gehen, wie gesagt, vom tatsächlichen Vorhandensein bzw.
Nichtvorhandensein einer Krankheit aus, welches in einer Validierungsstudie mittels
eines Referenzstandards bestimmt wurde. Im klinischen Alltag haben wir einen derartigen
Referenzstandard aber meist nicht regelmäßig zur Verfügung. Hier sind wir zunächst
mit dem Testergebnis konfrontiert, das positiv oder negativ ausgefallen ist. Im Alltag
steht man deshalb häufiger vor der umgekehrten Frage, ob denn diejenigen Patienten,
die positiv getestet wurden, auch tatsächlich die entsprechende Störung besitzen,
nach der der Test sucht, also in unserem Beispiel eine Depression aufweisen. Hierüber
gibt der Vorhersagewert eines positiven Testergebnisses (auch positiver Vorhersagewert
oder positive Korrektheit genannt) Auskunft (s. Abb. [1 c]). Der Vorhersagewert eines positiven Tests gibt an, wie hoch der Anteil der tatsächlich
depressiven Patienten unter den positiv getesteten Patienten ist. Bezugsgruppe ist
jetzt die Gruppe der Testpositiven (nicht, wie bei der Sensitivität, der Kranken).
In der grafischen Darstellung (Abb. [2 e]) werden jetzt also die grau schattierten Kästchen herausgegriffen, und wir bestimmen,
wie viele von ihnen auch in Wirklichkeit erkrankt sind (ausgefüllte Kreise): Bei 32
Probanden ist der Test positiv ausgefallen, aber nur 16 davon sind laut Referenzstandard
depressiv. Nur die Hälfte der Patienten, die im Screening positiv getestet wurden,
hat auch tatsächlich eine Depression. Der positive Vorhersagewert beträgt somit 50
%.
Analog gibt der Vorhersagewert eines negativen Testergebnisses (negativer Vorhersagewert,
negative Korrektheit) Auskunft darüber, ob Testnegative auch tatsächlich „gesund”,
d. h. nicht depressiv, sind (s. Abb. [1 c]). Grafisch dargestellt, geht es jetzt um die Untergruppe der nicht schattierten
Kästchen (Abb. [2 f]). Von den 68 Testnegativen haben 64, d. h. 94 %, auch laut Referenzstandard keine
Depression. 4 Probanden wurden jedoch falsch negativ getestet, d. h. der Test signalisiert
„gesund”, obwohl de facto die gesuchte Störung vorliegt.
Für viele Leser noch leichter nachvollziehbar als die bisher verwandten Darstellungsweisen
ist möglicherweise ein Entscheidungsbaum unter Benutzung natürlicher Häufigkeiten
[10], wie er in Abb. [3] dargestellt ist. In Abb. [3 a] sind 100 Patienten dargestellt, von denen 20 depressiv sind und 80 nicht (Prävalenz
20 %). Von den 20 Depressiven werden bei einer Sensitivität von 80 % 16 als positiv
diagnostiziert, d. h. als depressiv erkannt. Von den 80 nicht Depressiven werden bei
einer Spezifität von 80 % 64 negativ getestet, d. h. als nicht depressiv identifiziert,
die übrigen 16 jedoch falsch positiv. Insgesamt finden sich also 16 + 16 = 32 Testpositive,
von denen jedoch nur 16 tatsächlich eine Depression aufweisen: Der prädiktive Wert
eines positiven Testergebnisses beträgt 50 %. Das bedeutet: Wer testpositiv ist, hat
nur in 50 % tatsächlich eine Depression. Wer testnegativ ist, hat allerdings ziemlich
sicher keine.
Abb. 3 Sensitivität, Spezifität und positiver Vorhersagewert unter Angabe natürlicher Häufigkeiten
(nach [10]), a) Prävalenz 20 %, b) Prävalenz 10 %.
Die Vorhersagewerte sind in hohem Maße von der Prävalenz, d. h. der Basisrate der
Störung in der untersuchten Population, abhängig [13].[3] Bei gleicher Sensitivität und Spezifität, aber einer niedrigeren Prävalenz von zum
Beispiel 10 %, sinkt der prädiktive Wert eines positiven Tests auf 31 % ab (Abb. [3 b]). (Umgekehrt steigt der zuvor schon hohe negative Vorhersagewert noch etwas an,
von 94 auf 97 %.) Je geringer die Prävalenz, d. h. die von vornherein bestehende Wahrscheinlichkeit,
dass eine Krankheit vorliegt, umso größer die Wahrscheinlichkeit, dass ein negatives
Testergebnis korrekt ist. Umso geringer umgekehrt auch die Wahrscheinlichkeit, dass
ein positives Testergebnis richtig positiv ist. Falsch positive Testergebnisse vermindern
aber den positiven Vorhersagewert. Hohe Sensitivität allein ist also kein anzustrebendes
Ziel. Einen Test mit einer Sensitivität von 100 % zu erzielen, wäre im Grunde ja ganz
einfach: Der Test müsste nur alle Patienten als positiv klassifizieren; dann würde
er mit Sicherheit auch die Depressiven erfassen. Ein solcher Test wäre jedoch nutzlos.
Es reicht deshalb nicht aus, dass Screeningtests eine hohe Sensitivität haben und
alle belasteten Patienten auch erkennen; vielmehr ist eine hohe Spezifität ebenso
wichtig, um eine Überdiagnostik zu vermeiden, die die diagnostischen und therapeutischen
Ressourcen einer Institution überfordern würde.
Bisher waren wir vom einfachen Fall ausgegangen, dass der Screeningtest ein dichotomes
Ergebnis (positiv oder negativ) erbringt. Es gibt jedoch auch Screeningverfahren,
die das Merkmal, um das es geht, auf einer kontinuierlichen Skala quantitativ messen.
Man kann hier von dimensionaler - im Unterschied zu kategorialer - Diagnostik sprechen.
Will man nun auf der Basis eines dimensional gemessenen Testergebnisses zu einer dichotomen
Entscheidung (Störung vorhanden vs. nicht vorhanden) gelangen, muss man die Skala
anhand eines Cut-off-Punkts in einen positiven und einen negativen Bereich einteilen.
Dieser Cut-off-Wert wird so festgelegt, dass eine dichotome Klassifizierung anhand
dieses Punkts mit einer möglichst hohen Sensitivität und Spezifität einhergeht. Man
trägt dazu Sensitivität und Spezifität für unterschiedliche Cut-off-Werte gegeneinander
ab. Eine derartige Grafik wird Receiver-Operating-Characteristics-Kurve (ROC-Kurve)
genannt [12]
[13]. Abb. [4] (aus [5]) zeigt solche ROC-Kurven für drei verschiedene Screeningtests zur Entdeckung einer
depressiven Störung. Jeder Punkt entspricht einem Cut-off-Wert, und auf den Achsen
sind die dazugehörigen Werte der Sensitivität und Spezifität abgetragen. Setzt man
den Cut-off-Wert niedrig an, so erzielt man eine hohe Sensitivität, d. h. erfasst
viele Kranke, auf Kosten einer geringen Spezifität, d. h. man erfasst auch viele Gesunde.
Setzt man den Cut-off-Wert hoch an, so liegt die Spezifität entsprechend hoch, d.
h. man erfasst wenige Gesunde, sodass die Testpositiven mit großer Wahrscheinlichkeit
auch krank sind, allerdings auf Kosten einiger Kranker, die durch die Maschen fallen.
Sensitivität und Spezifität weisen also einen „trade-off” auf. Der optimale Cut-off-Punkt
ist derjenige, bei dem sowohl Sensitivität als auch Spezifität möglichst hoch sind.[4] Grafisch stellt sich dies so dar, dass der Cut-off-Wert in derjenigen Ecke zu liegen
kommt, in der Sensitivität und Spezifität jeweils 100 % betragen. Die ROC-Kurven guter
Tests bewegen sich möglichst weit in diese Ecke, während sich weniger gute Tests nicht
sehr weit von der Diagonalen, die einer zufälligen Klassifikation entspricht, wegbewegen.
Die Güte unterschiedlicher Tests lässt sich durch die Größe der Fläche unter der Kurve
(area under the curve, AUC) bestimmen: Je weiter weg die ROC-Kurve von der Diagonalen
zu liegen kommt und sich in die Richtung der Ecke mit möglichst hoher Sensitivität
und Spezifität bewegt, desto größer die AUC und desto besser der Test. Löwe et al.
[5] haben eine solche vergleichende Evaluation dreier deutschsprachiger dimensionaler
Screeningtests für Depression durchgeführt. Sie prüften die Depressionsskala des Gesundheitsfragebogens
für Patienten (Patient Health Questionnaire - PHQ, [14]), die Hospital Anxiety and Depression Scale (HADS, [15]) und den WHO Well Being Index (WBI-5, [16]) gegen die durch ein diagnostisches Interview (SCID, [17]) nach DSM-IV festgestellte Diagnose einer depressiven Störung (major depressive
disorder) als Referenzstandard. „Testsieger” wurde der PHQ. Seine AUC war signifikant
größer als diejenige von HADS und WBI-5. Für alle drei Verfahren wurden optimale Cut-off-Werte
bestimmt. Für diese Cut-off-Werte betrugen die jeweiligen Sensitivitäten 98 % (PHQ),
94 % (WBI-5) und 85 % (HADS) und die Spezifitäten 80 % (PHQ), 78 % (WBI-5) und 76
% (HADS). Der PHQ besitzt darüber hinaus einen kategorialen Algorithmus für die Verdachtsdiagnose
einer depressiven Störung, dessen Sensitivität 83 % und Spezifität 90 % betrugen.
Abb. 4 ROC-Kurven für drei Screeningtests zur Entdeckung einer depressiven Störung. Jeder
Punkt entspricht einem Cut-off-Wert. Referenzstandard strukturiertes klinisches Interview
nach DSM-IV (aus [5]). Anm.: PHQ: Patient Health Questionnaire, HADS: Hospital Anxiety and Depression
Scale, WBI-5: WHO Well Being Index, PK: kategorialer Algorithmus des PHQ, AD: ärztliche
Diagnose.
Sensitivität, Spezifität und die beiden Vorhersagewerte sind Aspekte der Validität.
Daneben spielen auch die übrigen Testgütekriterien für die Auswahl eines Tests eine
Rolle [18]: Reliabilität (Messgenauigkeit, Reproduzierbarkeit) und Objektivität (Unabhängigkeit
vom Untersucher). Bei Screeningtests, die mit geringem Aufwand eine große Zahl von
Patienten „filtern” sollen, ist auch die Ökonomie des Verfahrens wichtig. Sowohl das
Ausfüllen als auch das Auswerten sollten einen möglichst geringen Zeitaufwand erfordern,
um eine möglichst große Akzeptanz bei Patienten wie Personal zu erzielen.