Grundlagen
Ein Ziel jeder wissenschaftlichen Bemühung ist es, zu Ergebnissen zu gelangen, die
keine problemspezifischen ergebnisrelevanten Zweifel mehr aufkommen lassen und daher
Allgemeingut der Forschergemeinschaft werden können. In der therapeutisch-klinischen
Forschung werden kausale Fragen bearbeitet: Ist die untersuchte Prüfsubstanz Ursache
(kausale Bedingung) der nach ihrer Anwendung zu beobachtenden Erscheinungen? An die Antwort ist die
wissenschaftliche Forderung zu stellen, dass sie soweit wie möglich nicht mehr angezweifelt
werden kann, dass sie nach heutiger Terminologie Evidenz-basiert ist, im Interesse
der Patienten und nicht nur zur Befriedigung wissenschaftlicher Desiderata.
Jede kausal bedingte Beziehung manifestiert sich als Veränderung eines bestehenden
Zustandes oder Prozesses. Die Änderung wird durch einen Vergleich erkannt. Ein Vergleich
ist nur verlässlich, wenn die zu vergleichenden Gegenstände gleich sind und die außer
der Ursache noch mitwirkenden Einflussfaktoren ausreichend eliminiert oder neutralisiert
sind. Zu vergleichende Kollektive müssen möglichst „homogen” sein. Unter „Homogenität” von verschiedenen Kollektiven wird ihre qualitative und quantitative Gleichheit
in Bezug auf alle relevanten, bekannten, bekannten, aber nicht erfassten, und nicht
bekannten Einflussgrößen verstanden. Die Gleichheit bezieht sich auf die Häufigkeitsverteilung
von Eigenschaften zwischen Gruppen (ihre „Struktur”; interkollektive Homogenität) und/oder auf die Gleichheit der Einheiten in einer Gruppe (intrakollektive Homogenität). Was „Gleichheit” genau ausdrücken soll, wird später erörtert. Unter natürlichen
Verhältnissen besteht keine Homogenität. Sie muss für die Zwecke des Vergleichs geschaffen
werden. Das gelingt stets nur mehr oder weniger gut. Für das Kriterium „gut genug”
liefert uns die Statistik bisher nur ungenügende Definitionen.
Verbesserungen der Homogenität, gleichbedeutend mit Verringerungen der Heterogenität, lassen sich auf verschiedene Weise erreichen. Zu unterscheiden sind prospektive
Homogenisierung vor Prüfungsbeginn und retrospektive Homogenisierung nach Ende der
Behandlung. Die Methoden werden weiter unten genauer erörtert und hier nur zur Übersicht
skizziert. Prospektiv wird fast stets die Homogenisierung durch die Wahl geeigneter
Zulassungskriterien angewandt, welche eine Aufnahme in die Prüfung vom Vorliegen bestimmter
Eigenschaften wie Alter, Krankheitsform oder -Dauer abhängig machen. Weitere Methoden
sind die Bildung in sich möglichst homogener Untergruppen („Schichten”, „Strata”),
wobei die Schichtungsvariable als Kovariable in die Analyse mit einzubeziehen ist,
bzw. die Bildung möglichst homogener Paare, deren Mitglieder 2 verschiedenen Gruppen
zugewiesen werden. Mit allen genannten Verfahren werden nur die ins Auge genommenen
Einflussfaktoren berücksichtigt, nicht andere bekannte und die nicht bekannten Faktoren.
Dies ist nur mit zufälliger Zuteilung der Patienten zu den Gruppen („Randomisierung”) möglich. Neutralisieren lassen sich im Patienten über längere Zeit stabil vorliegende
Einflussgrößen beim Individualvergleich, in welchem am Einzelfall der Trend des Krankheitsverlaufs
vor und während der Prüfung miteinander verglichen wird. – Retrospektive Homogenisierung
ist möglich mithilfe nachträglicher Paarbildung und Schichtung.
Alle Studienpläne, in denen prospektiv eine Prüfung-interne Vergleichsgruppe mitgeführt
wird, und der Prüfung-interne Individualvergleich sind als kontrollierte Studien zu
bezeichnen. Zu Zweifeln am Individualvergleich wird weiter unten Stellung genommen.
Alle Studien mit Prüfung-externem, so genanntem historischen Vergleich werden nicht
als kontrolliert klassifiziert. Die amtliche Neuzulassung von Medikamenten verlangt
heute in den meisten Staaten kontrollierte Studien mit Ausnahme von schweren Krankheiten,
die bisher überhaupt nicht therapierbar waren wie seinerzeit die tuberkulöse Meningitis.
Außer unzureichender Vergleichbarkeit (Strukturgleichheit) gibt es noch weitere nichtzufällige
Störungen, die alle „systematische Fehler”, auch „bias” oder „Verzerrungen” genannt werden. Die wichtigsten Verzerrungen betreffen, abgesehen
vom schon erwähnten Design einer Studie, die Wahl der Kontrolltherapie; die Form der
Zuteilung auf die verschiedenen Gruppen beim Kollektivvergleich; die Durchführung;
die Ermittlung der Ergebnisse; deren Auswertung, Interpretation und Bericht.
Außer den systematischen Verzerrungen gibt es die der natürlichen zufälligen Variation.
Diese lässt sich nicht beseitigen. Man kann sie nur durch intrakollektive Homogenisierung
und große Fallzahlen reduzieren. Der Einfluss der dann noch verbleibenden Variation
muss durch geeignete statistische Verfahren ermittelt und beim therapeutischen Urteil
in Rechnung gestellt werden. Eine befriedigende Angleichung der Verteilungshäufigkeit
von Eigenschaften durch Steigerung der Fallzahlen wird nach dem so genannten Gesetz
der großen Zahlen[1] erst mit einer hohen Patientenzahl je Gruppe oder Stratum erreicht. Derartige Großversuche
sind jedoch nur selten realisierbar. Es sind in letzter Zeit Versuche unternommen
worden, die mit kleineren Fallzahlen trotz Randomisierung auftretenden störenden Ungleichheiten
durch „eingeschränkte Randomisierung” zu reduzieren. Dazu wird im Text Stellung genommen.
– Die systematischen Verzerrungen drücken sich in der Lage von Durchschnittswerten
aus, die zufällige Variation in deren Streubereich.
Anwendung der Grundlagen
Die Anfänge kontrollierter Studien
Klinische chemotherapeutische Untersuchungen werden bei der Lungentuberkulose erstmals
mit Einführung der Goldtherapie 1917 relevant, über die im Lauf von etwa 20 Jahren
weltweit mehr als 500 überwiegend positiv eingestellte Arbeiten publiziert wurden
[1]. Die Ergebnisse widersprachen einander, ein klares Bild war nicht zu gewinnen [1]
[2]. Die erste Studie, in der versucht wurde, die bisherigen methodischen Unzulänglichkeiten
systematisch zu vermeiden, wurde 1931 von Amberson u. Mitarb. [2] publiziert. Sie wurde bereits als kontrollierte Studie mit zufälliger Zuteilung
und einem detaillierten Untersuchungsprotokoll angelegt. Aus Patienten mit einem guten
Allgemeinzustand und Formen der Tuberkulose, die nach Literaturangaben gut auf die
Goldtherapie ansprechen sollten, wurden 2 Gruppen aus einander möglichst ähnlichen
Paaren zusammengestellt, von denen ein Mitglied einer Gruppe A, das andere einer Gruppe
B zugeteilt wurde. Jede Gruppe bestand aus 12 Patienten. Dann wurde durch Münzwurf
entschieden, welches der beiden Kollektive die Prüf- bzw. die Kontrollgruppe bildete.
Zufällig war also nur die Zuteilung der Gruppen zu den Therapieformen ( = Clusterrandomisierung),
nicht die Zuteilung der zugelassenen Patienten zu einer Gruppe. Die Prüfgruppe erhielt
das Goldpräparat, der Kontrollgruppe wurde das Lösungsmittel des Goldpräparates injiziert.
Alle übrigen Bedingungen waren für beide Gruppen gleich. Die Behandlung wurde nach
einer Vorbeobachtung von 30 Tagen begonnen und 8 Wochen fortgesetzt. Die Goldtherapie
erwies sich als unwirksam. In der Diskussion wurde allgemein auf die methodischen
Erfordernisse therapeutisch-klinischer Prüfungen eingegangen. Hervorgehoben wurden
folgende Möglichkeiten der Verzerrung: die natürliche Fluktuation im Krankheitsverlauf;
Fehlen eines über die Routine hinausgehenden Untersuchungsprogramms; eine zu ungenaue
und zu laxe Art der Beobachtung; keine ausreichende Vergleichbarkeit der Gruppen wegen
mangelnder Berücksichtigung des Charakters der Läsionen; Nichtberücksichtigung der
vorzeitigen Ausscheider; keine Beschreibung der angewandten bakteriologischen Technik;
Fehlinterpretation von Röntgenbefunden und Auskultation.
Martinis grundlegende Arbeiten
Die nächste Publikation, die sich mit der Methodik der klinischen Prüfung einer medikamentösen
Therapie der Lungentuberkulose auseinandersetzt, ist unseres Wissens die von Martini
aus dem Jahre 1934 [3]. Paul Martini (1889 – 1964), Ordinarius für Innere Medizin in Bonn, hat im deutschen
Sprachraum das Bewusstsein der Ärzte dafür geweckt, dass die Ermittlung des Wertes
therapeutischer Maßnahmen nicht einfach auf klinischen Eindrücken und Intuition basieren
darf, wenn sie verbindliche Geltung beanspruchen will. Über 30 Jahre, bis zu seinem
Tod, hat sich Martini für die Aufstellung und Beachtung von Regeln der Prüfung eingesetzt,
die ein möglichst verzerrungsfreies und statistisch fundiertes therapeutisches Urteil
erlauben sollen. Er war zuerst ein Rufer in der Wüste, wurde aber dank seiner beharrlichen,
unerschrockenen, sachlich fundierten und formulierten Kritik zu einer maßgebenden
Instanz. So sind auch seine Richtlinien zur therapeutischen Prüfung bei Lungentuberkulose
auf Wunsch von Institutionen verfasst worden und in seiner Methodenlehre ab 1947 wiedergegeben
[3]
[4]
[5]
[6]
[7]. Mit seinem Doktoranden Rosendahl veröffentlichte er eine umfassende vernichtende
Kritik der Goldtherapie bei Tuberkulose [1]. Er hat nur eine einzige eigene therapeutische Prüfung bei Tuberkulose publiziert,
zusammen mit seinen Mitarbeitern. Sie betrifft das Thiosemicarbazon (TSC) Conteben®
[5]. Allen genannten Veröffentlichungen Martinis liegt seit 1934 eine einheitliche generelle
Einstellung zur Problematik zugrunde. Die Zitate können daher als pars pro toto gelten.
Martini weist auf eine ganze Reihe von Möglichkeiten der Verzerrung hin, die sich
mit denen von Amberson u. Mitarb. weitgehend decken. Im Gegensatz zu den amerikanischen
Autoren hält er aber den Individualvergleich im Prinzip für eine bessere Methode als
den Kollektivvergleich [3]
[7, S. 32]. Der Individualvergleich verlangt jedoch nach Martini bei der Tuberkulose eine Vorbeobachtungsperiode
von 2 – 3 Monaten zum Ausschluss von in der Testperiode auftretenden „spontanen” Besserungen,
die fälschlich als Therapieeffekt gedeutet werden. Die frischen, noch überwiegend
akuten Stadien der Lungentuberkulose laufen jedoch zu schnell ab, als dass mit der
Prüfmedikation 2 – 3 Monate gewartet werden könnte. Infolgedessen kommt für diese
Formen nur der Kollektivvergleich mit zufälliger Zuteilung der Patienten zu den Kollektiven
infrage. Dabei müssen sämtliche Patienten untereinander in Bezug auf die zahlreichen
den natürlichen Krankheitsverlauf beeinflussenden Faktoren weitgehend gleich (homogen)
sein ([6], S. 163). Dazu wird meist die Bildung von Untergruppen (Strata) erforderlich sein.
– Der Individualvergleich ist also nur bei chronischer Tuberkulose durchführbar, und
zwar in Perioden ohne Tendenz zur Besserung. Der Individualvergleich kann auch nicht
zum sukzedanen Vergleich zweier Antituberkulotika dienen, die beide eine gewisse Wirkung
haben. Denn es muss entgegen der Auffassung von Martini angenommen werden, dass dann
eine Testperiode von einigen Wochen doch schon die Prüfbedingungen für die zweite
später gegebene Testsubstanz irreversibel verändert. Dafür sprechen die vielen Berichte
über eine schon wenige Tage nach Behandlungsbeginn nachweisbar werdende Besserung
selbst durch schwach wirkende Substanzen wie TSC oder PAS (Paraaminosalizylsäure).
Sie lässt sich beobachten bei Haut- und Schleimhauttuberkulosen (z. B. [8]
[9]
[10]
[11]) und ist bei pulmonalen Prozessen an der Bakterienausscheidung auch messbar (z. B.
[12]). Außerdem besteht bei 2 hinter einander geschalteten Monotherapien für 2 – 3 Monate
das Risiko einer Resistenzentwicklung der Bakterien gegen beide Medikamente. Der individuelle
Vergleich kann also nur die Frage beantworten: Ist die Behandlung mit der Prüfsubstanz
P wirksamer als die gleiche Behandlung ohne die Substanz P, bei im Übrigen gleich
gebliebenen Umständen? Trotz dieser Einschränkung könnte der Individualvergleich eine
wichtige Rolle in der Phase der ersten Wirksamkeitsprüfung eines neuen Therapiekandidaten
spielen. Es lohnt sich deshalb, diese Methodik zu analysieren, zumal man aus ethischen
Gründen Patienten mit frischer und daher schneller heilender Tuberkulose die Chance
einer Dauerheilung durch die bereits zur Verfügung stehenden Mittel nicht nehmen darf.
Damit ist der ethische Aspekt von Arzneimittelprüfungen angedeutet. Er hat nach unser
aller Grundverständnis der Arzt-Patient-Beziehung Vorrang vor allen methodologischen
Forderungen und wirkt sich auf die Studienplanung begrenzend aus.
Für den Individualvergleich führt Martini vor allem 2 Argumente ins Feld. Das erste
behauptet, dass Kollektivvergleiche bei chronischer Tuberkulose unmöglich seien; das
zweite will begründen, dass die Ergebnisse von Individualvergleichen besonders verlässlich
seien.
Martinis 1. These, mit kritischen Bemerkungen
Die erste These besagte damals, weil bei Chronikern Kollektivvergleiche und Paarbildung
unmöglich seien, es gäbe keine Alternative zum Individualvergleich bei ihnen, ein
Schluss ex negativo ad positivum. Bei chronischer Lungentuberkulose sei jeder Fall,
bedingt durch die im Laufe der Zeit eingetretenen verschiedenen Abwandlungen der Krankheit,
zu einem Individuum geworden, so dass ein Kranker nur in sich selbst und mit sich
selbst verglichen werden könne [13]. Am konkretesten sind späte Ausführungen Martinis. Danach hat ein statistisch signifikanter
Unterschied nur dann einen realen Beweiswert, wenn die zu vergleichenden Gruppen homogen
sind ([7], S. 223). Jedoch: „Beim chronisch Kranken muss damit gerechnet werden, dass die
Angriffsmöglichkeiten eines zu prüfenden Mittels bei einem mehr oder minder großen
Teil der Patienten völlig andere sind als bei (zu ergänzen: den übrigen Fällen mit)
der gleichen ‚Diagnose’” ([7], S. 26). Hier ist also klar Homogenität auf gleiches Einwirkungsvermögen der Prüfsubstanz
bezogen und deren Vorhandensein infrage gestellt. Dieses Problem ist aber nicht theoretisch,
sondern nur empirisch zu lösen. Martini sieht zu sehr auf die anatomischen und physiologischen
Unterschiede, die bei den einzelnen chronisch Kranken die Pharmakokinetik und die
Wirkungsbedingungen der Prüfsubstanz in den Herden beeinflussen. Er berücksichtigt
zu wenig, dass diese Faktoren in Relation zu Wirkungstyp und Wirkungsintensität der
Substanz gesehen werden müssen. Hohe Wirksamkeit kann viele Unterschiede in den Wirkungsbedingungen
überspielen. Wie weit das zutrifft, kann nur nach Abschluss der Prüfperiode geklärt
werden. Inhomogenes Reagieren auf die Prüfsubstanz wird erst bei Ende der Prüfung
erkennbar. Das ist anzunehmen, wenn Versager bzw. besonders gut ansprechende Patienten
bestimmte gemeinsame unterscheidende Merkmale aufweisen, welche das abweichende Verhalten
erklären können und dafür prognostisch geeignet sind, z. B. [15]. – Falls Martinis These der Unmöglichkeit von Kollektivvergleichen zutrifft, dann
dürften mehrere voneinander unabhängige Kollektivvergleiche mit gleicher Fragestellung
und vergleichbarer Methodik nicht zu gleichen Ergebnissen führen. 1958 hat Bartmann
durch eine statistisch gestützte Analyse (heute: „Metaanalyse”) wahrscheinlich gemacht,
dass die gleichartigen Ergebnisse mehrerer Studien beim Vergleich von Isoniazid (INH)
allein mit INH in Kombination nicht zufallsbedingt sind [16]. Bis 1985 hatte die antituberkulöse Chemotherapie einen Wirksamkeitsgrad erreicht,
der bei 98 – 100 % unvorbehandelter Kranker zur klinischen Heilung führte und mit
Rückfällen von < 2,5 % nach 2 Jahren einherging [17]. Unterschiede zwischen den Kranken hinsichtlich der Wirkungsmöglichkeit von Chemotherapeutika
spielten keine Rolle mehr. Martinis Argument ex negativo war für die Tuberkulose hinfällig
geworden. Es ist auch hinfällig aus einem anderen Grund, den schon Hill angeführt
hat [18]. Wenn keine Vergleichsgruppen wegen der Individualität der Krankheitsfälle gebildet
werden können, dann ist auch kein historischer Vergleich möglich und beim Individualvergleich
keine Einzel-Prognose der Therapiechancen, weil diese Vergleiche die Bildung von Gruppen
zur Erfassung von Typen voraussetzen.
Martinis 2. These
Martinis 2. These besagt, dass bei der von ihm vorgeschlagenen Methode des Individualvergleichs
schon jeder Einzelfall einen erheblichen Beweisgrad in sich trägt. Er nähere sich
der exakten Induktion (damit wird meist eine Induktion auf der Grundlage von Experimenten
gemeint), im Gegensatz zur generalisierenden Induktion einer allgemeinen Materialsammlung
([6], S. 99). In welchen Merkmalen drückt sich die Beweiskraft aus? „Je rascher, unerwarteter,
günstiger die Abweichung des Verlaufs nach Einsatz der zu prüfenden Therapie in einem
Einzelfall zum Ausdruck kommt, umso beweiskräftiger ist dieser Einzelfall für sich
allein” ([7], S. 236). Was unter „rascher”, „unerwarteter”, „günstiger” in diesem Zusammenhang
genau verstanden werden soll, ist nicht definiert oder an Beispielen gezeigt. Die
„Beweiskraft” ist unter diesen Umständen kein Begriff, der intersubjektiv zuverlässig
gebraucht werden kann. Solange das unmöglich ist, kann er nur als Ausdruck einer subjektiven
Überzeugung für die Nichtzufälligkeit der betreffenden klinischen Beobachtung angesehen
werden. – In der Diskussion dieser Fragen ist auch behauptet worden, dass schon bei
Vorliegen eines einzelnen Falles von chronischer Lungentuberkulose, bei welchem die
Kriterien für einen Erfolg der Prüftherapie besonders stark ausgeprägt sind, ein positives
Urteil über die Prüfsubstanz abgegeben werden könne [19]
[20], worauf Berg prompt ein Gegenbeispiel lieferte [21]. Martinis These von der Beweiskraft des Einzelfalls ist von ihm selbst relativiert
worden ([6], S. 99): „… es haftet dem einzelnen Fall doch immer noch soviel Zufälliges und Unkontrollierbares
an, dass wir auch hier zu einem ausreichenden Beweis immer eine Reihe von klinischen
Beobachtungen brauchen”. Also ist der Einzelfall kein zuverlässiger Beweis. So subjektiv
eindrucksvoll ein Einzelfall bei der Individualanalyse auch sein mag, er ist, wenn
es sich nicht um eine Krankheitsform handelt, die bis dahin unbeeinflussbar war, nur
ein Element für das therapeutische Urteil wie jeder andere Proband der Studie bzw. der
betreffenden Prüfgruppe beim kollektiven Vergleich.– In den letzten Jahren ist von
übernational wirkenden Behörden, die für die Aufstellung von Leitlinien zur Wirksamkeitsprüfung
von Arzneimitteln zuständig sind (ICH, EMEA), die Klassifizierung des Individualvergleichs
als kontrollierte Prüfung infrage gestellt worden. In EMEA [22] heißt es: „In so-called base-line controlled studies the patients' state over time
is compared with their baseline state. Although these studies are sometimes thought
to use „the patient as his own control” they do not have in fact an internal control.
Rather, changes from baseline are compared with an estimate what would have happened
to the patient in the absence of treatment with the test drug … Such estimates are
generally made on the basis of general knowledge without reference to a specific control
population … Designers and analysts of such trials need to be aware to justify its
use”. Dass bei der Individualanalyse der Effekt beim behandelten Patienten mit seiner
Prognose verglichen wird, ist von den Anhängern der Methode selbst klar ausgesprochen
worden [5]
[23]. Auf welch schwachen Füßen sie bezüglich der Intersubjektivität steht, ergibt sich
aus Bemerkungen Martinis. Die Verlässlichkeit der Prognose hängt von einer ausreichenden
Vorbeobachtung ab. Diese muss solange durchgeführt werden, dass „man sich mit Wahrscheinlichkeit
vor dem Auftreten spontaner Veränderungen gesichert fühlen kann” ([6], S. 160; [7], S. 224/5). Und es gilt, „dass eine komplexe Prognosestellung überhaupt und erst
recht nur sehr erfahrenen Fachleuten erlaubt ist” ([6], S. 163). Die Prognose ist also das Produkt eines sich sicher fühlenden sehr erfahrenen
Spezialisten. Das ist natürlich ein recht unsicherer Punkt für eine Methodik, die
zu intersubjektiv verbindlichen Ergebnissen führen soll. Hinzu kommt, dass keine noch
so lange Vorbeobachtung vor dem Auftreten spontaner Schwankungen schützen kann. Denn
diese Schwankungen sind nach Martini unvorhersehbar und unerklärbar ([3], S. 88), erfüllen also die Kriterien der Zufälligkeit. Das bedeutet, dass man im
Einzelfall nicht vorhersehen kann, wann ein solches Ereignis eintritt, und, da es
zudem selten sein soll ([5], S. 555), ob es überhaupt eintritt. Und selbst wenn das der Fall sein sollte, ist
es bei einem genügenden Umfang des Kollektivs für die Beurteilung des Ergebnisses
meist praktisch irrelevant.
Trotz alledem, der Individualvergleich ist damit nicht verloren. Denn die Prognose
ist gar nicht notwendig. Man muss nur die prospektive Sichtweise aufgeben, die der
Vergleich mit der Prognose erfordert, und stattdessen nach Abschluss der Therapie
fragen: Gab es nach Beginn der Prüftherapie eine Trendänderung im Verlauf bei im Übrigen
gleich gebliebenen Umständen? Diese Frage ist empirischer und nicht hypothetischer
Natur und kann bei geeigneter Studienplanung mit den Methoden der Trendstatistik (Regressionsanalysen)
– und im Erfolgsfall und bei genügend häufig durchgeführten Untersuchungen mit statistischer
Signifikanz sogar für den einzelnen Patienten – beantwortet werden. Zur Klärung der
Verlässlichkeit und Repräsentativität solcher Einzelergebnisse müssen diese natürlich
zusammengefasst werden, um für die Gesamtheit oder ihre Untergruppen den Vertrauensbereich
(Konfidenzintervall) zu ermitteln und daraus die entsprechenden Schlüsse zu ziehen.
Der Individualvergleich neutralisiert die individuell permanent vorhandenen Einflussfaktoren
wie Alter, Geschlecht, bleibende Schäden, aber nicht die erst im Laufe der Prüfung
auftretenden individuellen und kollektiven Störungen. Letztere lassen sich nur durch
Bildung paralleler Vergleichsgruppen auffangen. Der Individualvergleich ist aber noch
aus einem anderen, viel allgemeineren Grund nicht verloren: Er ist unentbehrlich.
Jeder Kollektivvergleich ist zwangsläufig zunächst ein Individualvergleich bei jedem
Mitglied des Kollektivs. Die Bewertung der Kollektive ergibt sich nur aus der Zusammenfassung
der Ergebnisse der Individualvergleiche. Wir sehen: Es gibt zwischen Individualvergleich
und Kollektivvergleich keinen Unterschied in der Sache. Beide benötigen den anderen.
Der Unterschied liegt lediglich in der Gewichtung der beiden Vorgehensweisen[2].
Kontrollierte Studien in Großbritannien und USA
Eine weitere richtungweisende Veröffentlichung aus der Anfangszeit der antituberkulösen
Chemotherapie ist eine Empfehlung von Hinshaw und Feldman aus dem Jahre 1945 [24]. Sie diente der Vermeidung methodischer Unzulänglichkeiten, welche die amerikanischen
Veröffentlichungen über die klinische Wirksamkeit verschiedener Sulfone unverwertbar
machten. Einige Monate später begann die klinische Prüfung von Streptomycin (SM),
an der Hinshaw und Feldman maßgeblich beteiligt waren [25]. Ihre Empfehlungen sind darin nicht beachtet. Es gibt in dieser Studie keine Vergleichsgruppe,
es liegt auch kein ausreichender Individualvergleich vor, die Bewertung der röntgenologischen
Veränderungen ist nicht definiert, die bakteriologische Technik ist nicht angegeben,
auch nicht die Zeitabstände, in denen die Daten erhoben wurden. – Zu historischen
Details der klinischen Prüfung von SM siehe [26]
[27]
[28]
[29].
Bei den Untersuchungen in den folgenden Jahren begegnen wir einem eigentümlichen Phänomen.
Realisiert werden kontrollierte randomisierte Studien zunächst nur von 3 Institutionen
in der Welt: von der US Veterans Administration in Kooperation mit Krankenhäusern
der Armed Forces (VAAF), von dem US Public Health Service (USPHS) und vom British
Medical Research Council (BMRC). Die 3 Einrichtungen haben folgende Merkmale gemeinsam:
Sie sind Regierungsbehörden, und zwar mit dem ausdrücklichen Auftrag, Forschungen
zu wichtigen Fragen der Volksgesundheit (und damit der Tuberkulose) zu initiieren,
zu finanzieren und sich an der Planung und Durchführung zu beteiligen. Als Behörden
kommt ihnen eine gewisse Autorität zu. In den zuständigen Abteilungen arbeiteten angesehene
Kliniker zusammen mit Laborexperten und Statistikern oder Epidemiologen, alle mit
wissenschaftlicher Erfahrung und organisatorischen Fähigkeiten, J.B. Barnwell und
A.M. Walker bei den VAAF [30], C.E. Palmer und S.H. Ferebee beim USPHS [31], sowie P. D'A. Hart, M. Daniels und A.B. Hill beim BMRC [28]
[29]. Die Tuberkulose war von den Politikern als eine drohende Nachkriegsgefahr erkannt,
so dass den Institutionen auch genügend Geld bewilligt wurde. Die VAAF verfügten über
eigene Tuberkulosekrankenhäuser, der USPHS und der BMRC mussten geeignete Kliniken
für die Studien gewinnen, wobei sich der USPHS auf die Trudeau Society, die wissenschaftliche
US-Tuberkulosegesellschaft, stützte [32] und der BMRC auf die engen persönlichen Kontakte seiner Forscher mit großen Kliniken,
vor allem in London. Es war eine wirklich einmalige Konstellation von Umständen, welche
die Durchführung großer multizentrischer randomisierter kontrollierter Studien ermöglichte.
Im deutschen Sprachraum gab es weder in Deutschland noch in der Schweiz oder Österreich
entsprechende Institutionen, auch nicht in Frankreich. Nicht nur in all diesen Ländern
wurden klinisch-therapeutische Prüfungen, zumindest im ersten Nachkriegsjahrzehnt,
so gut wie gar nicht in der Weise durchgeführt und/oder publiziert, dass sie den Ansprüchen
zur Vermeidung von Verzerrungen genügt hätten. Das trifft auch für die Prüfungen in
USA und England zu, die nicht in Zusammenarbeit mit den genannten Regierungsinstitutionen
durchgeführt wurden. 22 therapeutische Prüfungen, die in der Zeitschrift Chest von
1946 – 1954 veröffentlicht wurden [33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53], haben wir nach lediglich 4 Gesichtspunkten überprüft:
-
kontrolliert als Kollektiv- oder Individualvergleich bzw. durch Paarbildung?;
-
wenn Kollektivvergleich: randomisiert?;
-
interkollektive Homogenität überprüft?;
-
Ergebniskriterien adäquat und durch andere Wissenschaftler überprüf- und nachmachbar?
In keiner Studie wurde ein Individualvergleich durchgeführt, in einer eine Paarbildung,
in 4 ein Kollektivvergleich, davon nur in einer mit Randomisierung. 17 von 22 Prüfungen
waren also unkontrolliert. Bei den zur gleichen Zeit erschienenen Arbeiten in der
American Review of Tuberculosis sah es etwas besser aus: in keiner von 17 Prüfungen
[54]
[55]
[56]
[57]
[58]
[59]
[60]
[61]
[62]
[63]
[64]
[65]
[66]
[67]
[68]
[69]
[70]
[71] ein Individualvergleich, keine Paarbildung, in 7 ein Kollektivvergleich, 4 davon
mit Randomisierung durch Alternation, nicht kontrolliert also 10 Untersuchungen; Prüfung
auf interkollektive Homogenität in 7 Arbeiten, davon 4-mal mit unbefriedigendem Ergebnis.
Keine der Arbeiten erfüllt aber alle 4 genannten Kriterien. In England sind Publikationen
von chemotherapeutischen Prüfungen relativ spärlich. In 4 Zeitschriften sind wir auf
13 Veröffentlichungen gestoßen [72]
[73]
[74]
[75]
[76]
[77]
[78]
[79]
[80]
[81]
[82]
[83]
[84]. Von diesen waren nur 3 kontrolliert; 1 durch Individualvergleich, 1 durch Paarbildung,
1 durch Kollektivvergleich mit Alternierung. Keine der 13 Arbeiten erfüllte alle Kriterien.
– Auch bei der VAAF und dem USPHS war es nicht möglich, von Anfang an eine Randomisierung
durchzuführen. Es bedurfte einer „Erziehung” ([30], S. 27) und des Lernens aus Fehlern und der zunehmenden Erfahrung mit kooperativen
Prüfungen, die bei den Prüfern das Bewusstsein für die Relativität der eigenen Ergebnisse
schärfte. Die VAAF begann mit Individualvergleichen [30]. Die konsequente Randomisierung innerhalb jeder beteiligten Klinik wurde erst im
Oktober 1948 eingeführt [30], aber noch 1952 wurde eine kooperative nicht kontrollierte Studie mit Viomycin begonnen
[54]. Über die Gründe findet sich nur eine sybillinische Antwort von Walker, zitiert
bei [30]: „… for reasons that can be visualized we did not adopt the method” (der Alternierung
oder Randomisierung von Anfang an). Bei den vom USPHS und der Trudeau Society unterstützten
SM-Studien gab es keine parallele Kontrollgruppe [32], jedoch in der ersten vom USPHS selbst organisierten und im November 1947 begonnenen
multizentrischen SM-Großstudie. In ihr sind die Patienten durch Alternierung nach
der Endzahl ihrer Patientennummer randomisiert [85]. Die ersten Isoniazid-Prüfungen in den USA sind ebenfalls nicht als kontrollierte
Prüfungen angelegt [44]
[45]
[92]. Selbst Martini genügt in seiner Conteben-Studie nicht den eigenen Maßstäben: es
gibt keine Trenddarstellung, nur eine tabellarische, nicht quantifizierte Beschreibung
der Fälle, keine Teststatistik, keine Definition der Krankheitsschweregrade, keine
Angaben zur bakteriologischen Technik, keine Erwähnung von Resistenzbestimmungen,
über die Ausfälle wegen Verschlechterung nur die Angabe ihrer Zahl.
Was sind die Ursachen dieser desillusionierenden Differenzen zwischen Soll und Ist,
zwischen Ideal und Realität? Sie sind auch in anderen Wissensgebieten anzutreffen,
z. B. in der Ursachenforschung von Infektionskrankheiten ([86], S. 322 f.). Der Forderung, dem Problem-spezifischen Zweifel so weit wie möglich
die Basis zu entziehen, wird nicht nachgekommen. Urteile sind dann Entscheidungen
unter Unsicherheit, gefällt unter äußerem oder innerem Druck oder wegen praktischer
Beschränkungen.
Zwei terminologische Zwischenbemerkungen
-
Unter Randomisierung verstehen wir jedes Zuteilungsverfahren der Patienten auf die
Gruppen nach dem Zufallsprinzip. In der Statistik wird jetzt oft nur dann von Randomisierung
gesprochen, wenn jede mögliche Manipulierung bei der Gruppenbildung ausgeschlossen
ist. Daher wird eine Alternierung nicht als Randomisierung klassifiziert. Man kann
aber von einer alternierenden Zuteilung, die korrekt durchgeführt ist, nicht sagen,
dass sie nicht randomisiert ist. Wir benutzen daher Randomisierung als Oberbegriff
und unterscheiden bei Bedarf manipulierbare und nichtmanipulierbare Randomisierung.
Eine „nichtmanipulierbare” Randomisierung gibt es natürlich nur, wenn in ausreichendem
Maß Kontrollinstanzen vorhanden sind. Man muss hier unterscheiden zwischen dem Zuteilungsverfahren
(der Randomisierung) an sich und der Durchführung der Randomisierung.
-
Zum Begriff der „observational study” („Beobachtungsstudie”). Im statistisch-epidemiologischen Schrifttum ist die Definition
von Cochran, 1965, allgemein gebräuchlich. Sie lautet nach Rosenbaum [116], in Übereinstimmung mit anderen Zitaten, so: Die observational study ist „an empirical
comparison of treated and controlled groups in which the objective is to elucidate
cause – and effect relationships [in which it] is not feasible to use controlled experimentation,
in the sense of being able to impose the procedures or treatments whose effect it
is desired to discover, or to assign subjects at random to different procedures”.
Also, ein Kollektivvergleich ist eine therapeutische „observational study”, wenn sie
nicht als willkürlicher, gezielter und auf seine Wirksamkeit kontrollierter Eingriff angelegt werden kann oder nicht randomisiert werden kann (I). Der Einfachheit halber
wollen wir die Wortfolge in (I) von „als” bis „kontrollierter Eingriff” auf „willkürlicher
Eingriff*” abkürzen. Wie der Gebrauch von (I) in der Literatur zeigt, wird (I) verstanden
als: " wenn er nicht als willkürlicher Eingriff* angelegt oder nicht randomisiert
ist. (II). Diese verneinende Formulierung des „wenn”-Satzteils in (II) kann logisch
korrekt ins Positive umgewandelt werden zu: wenn er ein willkürlicher Eingriff* ist
und randomisiert ist (III). Dieser positive ”wenn”-Satz (III) kann nun den „wenn”-Teil
von (I) ersetzen: Ein Kollektivvergleich ist eine observational study, wenn es nicht
der Fall ist, dass er als willkürlicher Eingriff* angelegt ist und nicht randomisiert ist (IV). Aber wie ist dann der häufig vorkommende Fall zu klassifizieren,
der die Kriterien des willkürlichen Eingriffs* erfüllt, aber nicht randomisiert ist?
Er wird von Cochrans Definition nicht erfasst. Trotzdem wird in der statistisch-epidemiologischen
Literatur auf „controlled, but not randomized” „observational” angewendet, siehe auch
[116], obwohl ja überhaupt nicht rein beobachtet, sondern „controlled experimentation”
getrieben wird. Damit wird eine Bedeutungsverschiebung vorgenommen. Sie besteht sprachlogisch
darin, dass Cochran zu „observational study” einen anderen Begriff als Kontradiktion
setzt als er in vielen Sprachen wie Englisch, Französisch, Deutsch üblich ist. In
allen diesen Sprachen gilt als Kontradiktion, i. e. als eine bedeutungsgleiche Negation
von „observational study” „controlled study” im Sinne von: „nicht: willkürlicher Eingriff*”.
Cochran dagegen kreiert die neue Kontradiktion „nicht: willkürlicher Eingriff* und
nicht: „randomisiert”. Dieser scheinbar minimale Unterschied zerstört unsere international
verbreitete Gebrauchsweise von „observational”. Man sollte Cochrans Kontradiktion
nicht übernehmen. Denn sie hat weitreichende Folgen für unseren Sprachgebrauch von
„controlled” und „observational”, Folgen, von denen wir heute noch nicht eindeutig
sagen können, ob sie generell Nutzen bringen, solange das Leistungsverhältnis zwischen nicht-randomisierten und
randomisierten kontrollierten Studien sowie der Erfolg der Verfahren zur Verbesserung
unzulänglich randomisierter Studien nicht voll geklärt sind. Wir werden daher unter
„observational study” wie bisher eine geplante Untersuchung verstehen, in der eine
Gruppe von Personen mit einem nicht in der Studie beigefügten (natürlichen) Merkmal
verglichen wird mit einer gleichartigen Gruppe, die lediglich dieses Merkmal nicht
aufweist. Cochrans Definition liefert die Suchregel für die weltweiten Literaturrecherchen
nach kontrollierten Studien durch die Cochrane-Zentren. Dieser Regel fällt die größte
Menge der Studien zum Opfer. Damit verwirft man ein gewaltiges Material, aus dem sich
durch gute Metaanalysen vermutlich viele nicht weiter bezweifelbare Informationen herausholen
ließen. – Psychologisch könnte man die skizzierte Bedeutungsverschiebung als wissenschaftspolitisch
wohlbekannten Versuch interpretieren, mithilfe von Umdefinitionen ein Arbeitsgebiet
zum Teilgebiet eines anderen zu machen, im vorliegenden Fall die klinische therapeutische
Prüfung zu einem Teilgebiet der Epidemiologie, statt sie wie bisher als klinische
Pharmakologie anzusehen.
Kontrollierte Studien in Deutschland, die Bedeutung der W.A.T.L.
Im deutschsprachigen Raum wurden zunächst keine Kollektivvergleiche durchgeführt.
Die erste randomisierte Studie wurde unseres Wissens von Tanner und Merian in der
Schweiz gemacht und 1958 veröffentlicht [87], die zweite wurde 1965 von Schütz und Bartmann in Deutschland publiziert [88]. Die ersten multizentrischen kontrollierten und randomisierten Prüfungen wurden
in Deutschland 1964 von der Wissenschaftlichen Arbeitsgemeinschaft für die Therapie
von Lungenkrankheiten (W.A.T.L.) begonnen [12]. Beide Autoren waren daran aktiv beteiligt. Die Abneigung oder Indifferenz gegen
Kollektivvergleiche hatte eine Reihe von Gründen. Zunächst den Umstand, dass in diesem
Raum die in USA und England gegebenen Voraussetzungen nicht bestanden. Dazu gehört
auch, dass die Verteilung der Prüfsubstanzen und damit die Auswahl der Prüfer und
die Formulierung der Prüfpläne nicht wie bei SM in USA und England maßgeblich in der
Hand öffentlicher Institutionen lag, sondern von den forschenden Pharmafirmen bestimmt
bzw. beeinflusst wurden. Im Falle des INH z. B. wurde in Deutschland die Testsubstanz
von der Bayer AG wie bei TSC an einzelne Chefärzte vergeben, die in der Planung und
Durchführung ihrer Prüfung offensichtlich weitgehend frei waren. In der Schweiz wurden
die Prüfungen multizentrisch unter intensiver Mitwirkung der Firma Hoffmann La Roche
zentral geplant, nach einem gemeinsamen Programm ohne Vergleichsgruppen durchgeführt
und zentral ausgewertet. Verfasser der Publikation waren Mitarbeiter der Firma [89]. Prinzipiell gleich wurde bei der Prüfung von Cycloserin vorgegangen [90]
[91]. Natürlich lag den Entdeckern und Herstellern von INH daran, möglichst schnell und
ökonomisch Klarheit darüber zu gewinnen, ob sie mit einer Zulassung rechnen und die
Großproduktion vorbereiten konnten. Auch die Prüfer waren daran interessiert, sich
so schnell wie möglich ein Bild zu machen, primär der Sache wegen, sekundär oder tertiär
aber auch, um durch frühe und daher häufig zitierte Veröffentlichungen den eigenen
Bekanntheitsgrad zu steigern. Nicht anders war es in USA und England, wenn die ersten
klinischen Untersuchungen durch die Pharmaindustrie initiiert wurden, siehe [92]
[93], ebenso in Schweden. Dort wurden nach den ersten durch Firmen veranlassten Prüfungen
vom Therapeutic Trials Committee of the Swedish National Association against Tuberculosis
methodisch ausgezeichnete kontrollierte randomisierte multizentrische Prüfungen durchgeführt
[94]
[95]. – Viele Kliniker waren der Ansicht, dass ein Vergleich mit früheren Erfahrungen
bei ähnlich gelagerten Fällen als Kontrolle ausreichend sei. Das kann aber nur für
Krankheitsformen mit stets ungünstigem Ausgang gelten, nicht, wenn auch ohne spezifische
Therapie Heilungen eintreten. Was tatsächlich zufällig passieren kann, wird oft unterschätzt,
ebenso das Risiko einer Verallgemeinerung der eigenen Ergebnisse aus einer beschränkten
Zahl von Beobachtungen. Der Mensch glaubt oft mehr zu wissen, als er jeweils wissen
kann ([86], S. 333). Von dieser Schwäche sind auch Wissenschaftler nicht frei.
In den amerikanischen und englischen Studien, die nicht von VAAF, USPHS oder BMRC
durchgeführt sind, werden Fragen der Versuchsplanung kaum angesprochen, nur in 5/52
der von uns zitierten Arbeiten. In den Veröffentlichungen aus dem deutschen Sprachraum
ist das jedoch häufig der Fall. Meist werden unter Berufung auf Martini Kollektivvergleiche
abgelehnt, weil eine ausreichende Homogenisierung der Gruppen unmöglich sei [20]
[23]
[96]
[97]
[98]
[99]
[100]. Weitere Argumente sind: zu großer praktischer Aufwand [98]
[100]; zwangsläufig eingeschränkte Zuverlässigkeit in Großversuchen wie denen von VAAF
und USPHS [98]
[102]
[103], ethische Unverantwortbarkeit, wobei manchmal irrtümlich unterstellt wird, dass
zum Vergleich nur eine Plazebo-Gruppe dienen könne. Zu diesen Einwänden ist zu sagen,
dass, wie bereits ausgeführt, die sich auf Martini stützenden Gegenargumente nicht
stichhaltig sind. – Bei den Großversuchen können die Ergebnisse nicht die sein, die
mit der besten röntgenologischen und bakteriologischen Technik herauskämen, sondern
Werte, die vermutlich zu optimistisch sind, weil nicht-optimale Untersuchungstechniken
wegen unzureichender Sensitivität die Raten von Kavernenschluss und Sputumkonversion
scheinbar erhöhen. Das muss aber nicht den Vergleich der Gruppen verzerren. Eine Illustration
zu den Problemen der Großversuche liefert die Diskussionsbemerkung eines Teilnehmers
der VAAF-Studien [104]. Die Auseinandersetzung mit methodischen Fragen hatte aber nicht zur Folge, dass
die eigenen Untersuchungen der meisten Kritiker des Kollektivvergleichs methodisch
gut geplant waren. Das trifft nach einer Analyse von 22 Studien durch Trendelenburg
auch noch für die Jahre 1960 – 1963 zu [105].
Ethische Aspekte kontrollierter Studien
Die ethischen Aspekte sind immer wieder diskutiert worden, bis in die Gegenwart, besonders
nachdem die ersten wirksamen Antituberkulotika zur Verfügung standen. Es sei nicht
verantwortbar, der Vergleichsgruppe eine wirksame Therapie vorzuenthalten [98]
[99]
[100]. Dieser Einwand ist berechtigt, war aber in praxi nicht aktuell, da es immer wieder
Patienten gab, deren Bakterien gegen die verfügbaren wirksamen Antituberkulotika resistent
geworden waren, so dass man ihnen überhaupt kein ausreichend wirksames Mittel vorenthalten
konnte. Bei den Vergleichen verschiedener Behandlungsschemata aus bekannten wirksamen
Substanzen stellt sich das Problem gar nicht, man sucht ja nur nach einer gegenüber
dem Standard besseren Lösung. Ein weiterer Argumentationsstrang betrifft die Frage
einer wesentlichen Störung des Arzt-Patientenverhältnisses. Der Patient werde zu einer
Nummer, zum Versuchskaninchen degradiert; kontrollierte, randomisierte Prüfungen würden
gegen den hippokratischen Eid verstoßen usw. ([106]
[107]
[108]
[109]; als Antwort: [110]
[111]
[112]). Das Problem adäquat zu behandeln würde den Rahmen dieses Aufsatzes sprengen. Unter
der Durchführung einer kontrollierten Prüfung muss das Verhältnis zwischen behandelndem
Arzt und Patient nicht leiden, vorausgesetzt, der Patient wurde fair über das Vorhaben
aufgeklärt und nicht zur Teilnahme gedrängt. Der Patient wird ja nicht bei der Durchführung
zur Nummer, sondern erst bei der Auswertung, welche das Arzt-Patientenverhältnis überhaupt
nicht berührt. Die Einstellung für oder gegen kontrollierte Studien hängt letztlich
davon ab, welche ethische Grundposition man vertritt. Die Gegner sind der Auffassung,
die Lilford [107] klar formuliert hat, dass „the obligation to respect individual autonomy outweighs
the common good in all but most extreme cases”. Die Befürworter dagegen geben der
Gemeinschaft gegenüber dem Individuum Priorität, weil kein Mensch im Laufe seines
Lebens ohne Mitmenschen weiter existieren kann, und daher Handlungen, welche dem Wohl
der Gemeinschaft dienen, letztlich in der Regel auch dem Einzelnen dienen. Über die
Frage der Rangordnung dieser beiden Werte kann man nicht mehr diskutieren, weil wir
mit ihr die höchste Ebene hinter uns gelassen haben, auf der noch sachliche Argumente
zur Verfügung stehen. Offensichtlich hält die Mehrzahl der Ärzte kontrollierte randomisierte
Studien, die unter gebührender Beachtung der humanen Aspekte durchgeführt werden,
nicht für unethisch, und sie werden von Patienten akzeptiert.
Neuere methodische Aspekte des Kollektiv-Vergleichs
Wir wollen uns nun wieder den methodischen Aspekten der Kollektivvergleiche zuwenden.
Dass solche Vergleiche möglich und brauchbar sind, steht außer Frage. Aber wie verlässlich
sind die Ergebnisse? Die Randomisierung soll gegen Heterogenität der Gruppen schützen.
Das kann sie, wenn nicht stratifiziert wird, zuverlässig nur, wenn der Gruppenumfang
groß genug ist, wie zuvor ausgeführt; dies war nur in wenigen Großprüfungen der Fall.
In den letzten Jahrzehnten sind verschiedene Methoden entwickelt worden, um Ungleichheiten
bei der zufälligen Zuteilung vorzubeugen, was übrigens Martini schon 1940 praktiziert
hat und „ausgleichende Alternierung” nannte ([6], S. 17; [113]). Sie wird heute als „eingeschränkte Randomisierung” bezeichnet. Damit lässt sich
zwar ein guter Ausgleich für bekannte Einflussfaktoren wie Alter oder Krankheitstyp
usw. erreichen. Wie sich dabei die Verteilung von nicht erfassten bekannten und unbekannten
Einflussfaktoren verschieben kann, ist bisher nicht bekannt. Das CPMP-Komitee der
European Agency for the Evaluation of Medicinal Products (EMEA) schreibt 2003: „Dynamic
allocation (Verfahren, welche die zufällige Zuteilung der Patienten bei interkollektiver
Ungleichheit der Einflussgrößen durch eine kompensierende Zuteilung unterbrechen)
is strongly discouraged” ([114], S. 4). – Mit weiteren Argumenten für die Randomisierung haben sich Abel und Koch
auseinander gesetzt ([115]; s. jedoch [129]), u. a. dem, Randomisierung sei die Basis für statistische Signifikanzteste. Die
Randomisierung ist jedoch weder hinreichende noch notwendige Bedingung für verlässliche
derartige Schlüsse. Die Randomisierung kann auch nicht als Basis für Schlüsse auf
die kausale Rolle einer Behandlung bei beobachteter Besserung dienen. Statistische
Analysen können niemals eine Verursachung nachweisen. Das geht nur mit dem Kausalexperiment
[86]. Die Randomisierung ist auch keine hinreichende oder notwendige Bedingung für eine
maskierte („verblindete”) Zuteilung der Patienten. Der einzige methodische Grund für
eine Randomisierung ist der Ausgleich unbekannter bzw. bekannter, aber nicht quantifizierbarer
oder nicht komparativ ordnungsfähiger Einflussfaktoren (z. B. Dispositionen wie Infektionsabwehr).
Deswegen muss, wer spezifische Zweifel soweit wie möglich ausräumen will, randomisieren.
Wegen des oft nicht voll befriedigenden Ausgleichs muss statistisch zu Beginn und
– wegen der Ausfälle – auch am Ende der Studie geprüft werden, ob die Gruppen als
Stichproben aus der gleichen Grundgesamtheit anzusehen sind – siehe dazu [128]. Metaanalysen von weiteren gleichartigen Prüfungen müssen zeigen, dass das Therapieergebnis
ausreichend reproduzierbar ist. Die Metaanalysen müssen später unbedingt durch langfristige
Nachbeobachtungen, die ihre eigenen methodischen Probleme haben, ergänzt werden.
Die Aussagekraft therapeutischer nichtrandomisierter Kollektivstudien wurde mithilfe
verschiedener statistischer Verfahren verbessert (Übersichten in [116]
[117]). Sie zielen auf eine Schätzung der möglichen Einflüsse unbekannter Faktoren und
auf die nachträgliche Bereinigung bei bekannten Faktoren ab. Unterschiede in der Verlässlichkeit
zwischen randomisierten und nichtrandomisierten Studien sind wegen methodischer Mängel
der durchgeführten Metaanalysen [118]
[119]
[120]
[121]
[122]
[123]
[124]
[125]
[126] nicht abschätzbar. Dazu mit Recht Eysenck: „A good review is based on intimate personal
knowledge of the field, the participants, the problems that arise, the reputation
of different laboratories, the likely trustworthiness of individual scientists, and
other partly subjective but extremely relevant considerations. Meta-analysis rules
out any such subjective factors. It can be done by simply feeding the published results
to a computer (so geschehen in den betreffenden Metaanalysen) and coming up with an
effect size. The computer avoids the bias of the subjective approach but simply adds
together the biases of the authors of the original reports – which may or may not
balance out” [127].
Schlussfolgerung
Alle Arten des Vergleichs von Kollektiven haben einen Schwachpunkt gemeinsam: die
Feststellung der Vergleichbarkeit der Gruppen, des Grades der interkollektiven Homogenität,
ihrer Ähnlichkeit bezüglich der Wirkungsmöglichkeiten eines Therapeutikums. Die zur
Verfügung stehenden statistischen Verfahren erlauben nur eine Aussage darüber, ob
2 Stichproben aus derselben Grundgesamtheit stammen. Diese Aussage bezieht sich lediglich
auf statistische Signifikanteste, die Überlegenheit nachweisen sollen. Gleichheit
kann mit diesem Ansatz nicht nachgewiesen werden. Für derartige Fragestellungen könnte
man aber Äquivalenz- oder Nicht-Unterlegenheitsstudien heranziehen, wobei für die
diskutierte Vergleichbarkeit von Gruppen die direkte Gegenüberstellung mittels eines
Tests insgesamt kritisch zu bewerten ist [128]. Gefragt ist aber nach der Ähnlichkeit der Wirkungsmöglichkeiten der Therapeutika
zwischen den Mitgliedern einer Grundgesamtheit. Diese Kenntnis ist erforderlich, weil auch
zwischen den Mitgliedern derselben Grundgesamtheit, die sich ja nicht durch gleiches
Einwirkungsvermögen eines Therapeutikums definieren lässt, mit erheblichen Differenzen
in den Merkmalen gerechnet werden muss, welche die Bedingungen des Erfolges sind,
die ein Therapeutikum haben kann. Die meisten dieser Bedingungen wie Infektionsabwehr
oder Regenerationsfähigkeit, die zudem nur als Komplex positiver und negativer Einflüsse
wirksam werden, sind qualitativ oft, quantitativ meist derzeit nicht erfassbar. Und
selbst wenn sie es wären: Umfang und Grad der notwendigen Übereinstimmung, deren Kenntnis
für ein Urteil über die Vergleichbarkeit erforderlich ist, sind keine für alle Vergleiche
feste Größe, was ja auch die Entwicklung der antituberkulösen Therapie zeigt. Der
notwendige Grad der Vergleichbarkeit hängt, wie schon erwähnt, wesentlich auch von
Eigenschaften der Testsubstanz, von ihrer Wirksamkeit und z. T. auch von ihrem Wirkungstyp
ab. Ist die Wirksamkeit groß, werden viele Störfaktoren irrelevant. Da die klinische
Wirkung einer neuen Substanz nicht sicher vorauszusehen ist, sollte die Vergleichbarkeit
der Gruppen bei ganz neuen Mitteln so gut wie möglich gesichert werden. Die Basis
therapeutischer Prüfungen ist der Vergleich, die Basis des Vergleichs ist die Vergleichbarkeit,
die zumindest gegenwärtig nicht durch Maß und Zahl bestimmt werden kann, sondern subjektiv
gefärbt mittels Erfahrung und Intuition geschätzt werden muss. Hierfür sollte nach
Abhilfe gesucht werden. Vielleicht könnten Verfahren der taxonomischen Statistik nützlich
sein.
Die Methodologie therapeutischer Prüfungen kann sich also über einen Mangel an Aufgaben
nicht beklagen. Und: Problemlösungen evozieren neue Probleme, solange der Mensch forscht.