Grundlagen
            
            Ein Ziel jeder wissenschaftlichen Bemühung ist es, zu Ergebnissen zu gelangen, die
               keine problemspezifischen ergebnisrelevanten Zweifel mehr aufkommen lassen und daher
               Allgemeingut der Forschergemeinschaft werden können. In der therapeutisch-klinischen
               Forschung werden kausale Fragen bearbeitet: Ist die untersuchte Prüfsubstanz Ursache
               (kausale Bedingung) der nach ihrer Anwendung zu beobachtenden Erscheinungen? An die Antwort ist die
               wissenschaftliche Forderung zu stellen, dass sie soweit wie möglich nicht mehr angezweifelt
               werden kann, dass sie nach heutiger Terminologie Evidenz-basiert ist, im Interesse
               der Patienten und nicht nur zur Befriedigung wissenschaftlicher Desiderata.
            
            
            Jede kausal bedingte Beziehung manifestiert sich als Veränderung eines bestehenden
               Zustandes oder Prozesses. Die Änderung wird durch einen Vergleich erkannt. Ein Vergleich
               ist nur verlässlich, wenn die zu vergleichenden Gegenstände gleich sind und die außer
               der Ursache noch mitwirkenden Einflussfaktoren ausreichend eliminiert oder neutralisiert
               sind. Zu vergleichende Kollektive müssen möglichst „homogen” sein. Unter „Homogenität” von verschiedenen Kollektiven wird ihre qualitative und quantitative Gleichheit
               in Bezug auf alle relevanten, bekannten, bekannten, aber nicht erfassten, und nicht
               bekannten Einflussgrößen verstanden. Die Gleichheit bezieht sich auf die Häufigkeitsverteilung
               von Eigenschaften zwischen Gruppen (ihre „Struktur”; interkollektive Homogenität) und/oder auf die Gleichheit der Einheiten in einer Gruppe (intrakollektive Homogenität). Was „Gleichheit” genau ausdrücken soll, wird später erörtert. Unter natürlichen
               Verhältnissen besteht keine Homogenität. Sie muss für die Zwecke des Vergleichs geschaffen
               werden. Das gelingt stets nur mehr oder weniger gut. Für das Kriterium „gut genug”
               liefert uns die Statistik bisher nur ungenügende Definitionen.
            
            
            Verbesserungen der Homogenität, gleichbedeutend mit Verringerungen der Heterogenität, lassen sich auf verschiedene Weise erreichen. Zu unterscheiden sind prospektive
               Homogenisierung vor Prüfungsbeginn und retrospektive Homogenisierung nach Ende der
               Behandlung. Die Methoden werden weiter unten genauer erörtert und hier nur zur Übersicht
               skizziert. Prospektiv wird fast stets die Homogenisierung durch die Wahl geeigneter
               Zulassungskriterien angewandt, welche eine Aufnahme in die Prüfung vom Vorliegen bestimmter
               Eigenschaften wie Alter, Krankheitsform oder -Dauer abhängig machen. Weitere Methoden
               sind die Bildung in sich möglichst homogener Untergruppen („Schichten”, „Strata”),
               wobei die Schichtungsvariable als Kovariable in die Analyse mit einzubeziehen ist,
               bzw. die Bildung möglichst homogener Paare, deren Mitglieder 2 verschiedenen Gruppen
               zugewiesen werden. Mit allen genannten Verfahren werden nur die ins Auge genommenen
               Einflussfaktoren berücksichtigt, nicht andere bekannte und die nicht bekannten Faktoren.
               Dies ist nur mit zufälliger Zuteilung der Patienten zu den Gruppen („Randomisierung”) möglich. Neutralisieren lassen sich im Patienten über längere Zeit stabil vorliegende
               Einflussgrößen beim Individualvergleich, in welchem am Einzelfall der Trend des Krankheitsverlaufs
               vor und während der Prüfung miteinander verglichen wird. – Retrospektive Homogenisierung
               ist möglich mithilfe nachträglicher Paarbildung und Schichtung.
            
            
            Alle Studienpläne, in denen prospektiv eine Prüfung-interne Vergleichsgruppe mitgeführt
               wird, und der Prüfung-interne Individualvergleich sind als kontrollierte Studien zu
               bezeichnen. Zu Zweifeln am Individualvergleich wird weiter unten Stellung genommen.
               Alle Studien mit Prüfung-externem, so genanntem historischen Vergleich werden nicht
               als kontrolliert klassifiziert. Die amtliche Neuzulassung von Medikamenten verlangt
               heute in den meisten Staaten kontrollierte Studien mit Ausnahme von schweren Krankheiten,
               die bisher überhaupt nicht therapierbar waren wie seinerzeit die tuberkulöse Meningitis.
            
            
            Außer unzureichender Vergleichbarkeit (Strukturgleichheit) gibt es noch weitere nichtzufällige
               Störungen, die alle „systematische Fehler”, auch „bias” oder „Verzerrungen” genannt werden. Die wichtigsten Verzerrungen betreffen, abgesehen
               vom schon erwähnten Design einer Studie, die Wahl der Kontrolltherapie; die Form der
               Zuteilung auf die verschiedenen Gruppen beim Kollektivvergleich; die Durchführung;
               die Ermittlung der Ergebnisse; deren Auswertung, Interpretation und Bericht.
            
            
            Außer den systematischen Verzerrungen gibt es die der natürlichen zufälligen Variation.
               Diese lässt sich nicht beseitigen. Man kann sie nur durch intrakollektive Homogenisierung
               und große Fallzahlen reduzieren. Der Einfluss der dann noch verbleibenden Variation
               muss durch geeignete statistische Verfahren ermittelt und beim therapeutischen Urteil
               in Rechnung gestellt werden. Eine befriedigende Angleichung der Verteilungshäufigkeit
               von Eigenschaften durch Steigerung der Fallzahlen wird nach dem so genannten Gesetz
               der großen Zahlen[1] erst mit einer hohen Patientenzahl je Gruppe oder Stratum erreicht. Derartige Großversuche
               sind jedoch nur selten realisierbar. Es sind in letzter Zeit Versuche unternommen
               worden, die mit kleineren Fallzahlen trotz Randomisierung auftretenden störenden Ungleichheiten
               durch „eingeschränkte Randomisierung” zu reduzieren. Dazu wird im Text Stellung genommen.
               – Die systematischen Verzerrungen drücken sich in der Lage von Durchschnittswerten
               aus, die zufällige Variation in deren Streubereich.
            
             
         
            
            Anwendung der Grundlagen
            
            
            Die Anfänge kontrollierter Studien
            
            Klinische chemotherapeutische Untersuchungen werden bei der Lungentuberkulose erstmals
               mit Einführung der Goldtherapie 1917 relevant, über die im Lauf von etwa 20 Jahren
               weltweit mehr als 500 überwiegend positiv eingestellte Arbeiten publiziert wurden
               [1]. Die Ergebnisse widersprachen einander, ein klares Bild war nicht zu gewinnen [1]
               [2]. Die erste Studie, in der versucht wurde, die bisherigen methodischen Unzulänglichkeiten
               systematisch zu vermeiden, wurde 1931 von Amberson u. Mitarb. [2] publiziert. Sie wurde bereits als kontrollierte Studie mit zufälliger Zuteilung
               und einem detaillierten Untersuchungsprotokoll angelegt. Aus Patienten mit einem guten
               Allgemeinzustand und Formen der Tuberkulose, die nach Literaturangaben gut auf die
               Goldtherapie ansprechen sollten, wurden 2 Gruppen aus einander möglichst ähnlichen
               Paaren zusammengestellt, von denen ein Mitglied einer Gruppe A, das andere einer Gruppe
               B zugeteilt wurde. Jede Gruppe bestand aus 12 Patienten. Dann wurde durch Münzwurf
               entschieden, welches der beiden Kollektive die Prüf- bzw. die Kontrollgruppe bildete.
               Zufällig war also nur die Zuteilung der Gruppen zu den Therapieformen ( = Clusterrandomisierung),
               nicht die Zuteilung der zugelassenen Patienten zu einer Gruppe. Die Prüfgruppe erhielt
               das Goldpräparat, der Kontrollgruppe wurde das Lösungsmittel des Goldpräparates injiziert.
               Alle übrigen Bedingungen waren für beide Gruppen gleich. Die Behandlung wurde nach
               einer Vorbeobachtung von 30 Tagen begonnen und 8 Wochen fortgesetzt. Die Goldtherapie
               erwies sich als unwirksam. In der Diskussion wurde allgemein auf die methodischen
               Erfordernisse therapeutisch-klinischer Prüfungen eingegangen. Hervorgehoben wurden
               folgende Möglichkeiten der Verzerrung: die natürliche Fluktuation im Krankheitsverlauf;
               Fehlen eines über die Routine hinausgehenden Untersuchungsprogramms; eine zu ungenaue
               und zu laxe Art der Beobachtung; keine ausreichende Vergleichbarkeit der Gruppen wegen
               mangelnder Berücksichtigung des Charakters der Läsionen; Nichtberücksichtigung der
               vorzeitigen Ausscheider; keine Beschreibung der angewandten bakteriologischen Technik;
               Fehlinterpretation von Röntgenbefunden und Auskultation.
            
            
            
            
            Martinis grundlegende Arbeiten
            
            Die nächste Publikation, die sich mit der Methodik der klinischen Prüfung einer medikamentösen
               Therapie der Lungentuberkulose auseinandersetzt, ist unseres Wissens die von Martini
               aus dem Jahre 1934 [3]. Paul Martini (1889 – 1964), Ordinarius für Innere Medizin in Bonn, hat im deutschen
               Sprachraum das Bewusstsein der Ärzte dafür geweckt, dass die Ermittlung des Wertes
               therapeutischer Maßnahmen nicht einfach auf klinischen Eindrücken und Intuition basieren
               darf, wenn sie verbindliche Geltung beanspruchen will. Über 30 Jahre, bis zu seinem
               Tod, hat sich Martini für die Aufstellung und Beachtung von Regeln der Prüfung eingesetzt,
               die ein möglichst verzerrungsfreies und statistisch fundiertes therapeutisches Urteil
               erlauben sollen. Er war zuerst ein Rufer in der Wüste, wurde aber dank seiner beharrlichen,
               unerschrockenen, sachlich fundierten und formulierten Kritik zu einer maßgebenden
               Instanz. So sind auch seine Richtlinien zur therapeutischen Prüfung bei Lungentuberkulose
               auf Wunsch von Institutionen verfasst worden und in seiner Methodenlehre ab 1947 wiedergegeben
               [3]
               [4]
               [5]
               [6]
               [7]. Mit seinem Doktoranden Rosendahl veröffentlichte er eine umfassende vernichtende
               Kritik der Goldtherapie bei Tuberkulose [1]. Er hat nur eine einzige eigene therapeutische Prüfung bei Tuberkulose publiziert,
               zusammen mit seinen Mitarbeitern. Sie betrifft das Thiosemicarbazon (TSC) Conteben®
               [5]. Allen genannten Veröffentlichungen Martinis liegt seit 1934 eine einheitliche generelle
               Einstellung zur Problematik zugrunde. Die Zitate können daher als pars pro toto gelten.
            
            
            Martini weist auf eine ganze Reihe von Möglichkeiten der Verzerrung hin, die sich
               mit denen von Amberson u. Mitarb. weitgehend decken. Im Gegensatz zu den amerikanischen
               Autoren hält er aber den Individualvergleich im Prinzip für eine bessere Methode als
               den Kollektivvergleich [3]
               [7, S. 32]. Der Individualvergleich verlangt jedoch nach Martini bei der Tuberkulose eine Vorbeobachtungsperiode
               von 2 – 3 Monaten zum Ausschluss von in der Testperiode auftretenden „spontanen” Besserungen,
               die fälschlich als Therapieeffekt gedeutet werden. Die frischen, noch überwiegend
               akuten Stadien der Lungentuberkulose laufen jedoch zu schnell ab, als dass mit der
               Prüfmedikation 2 – 3 Monate gewartet werden könnte. Infolgedessen kommt für diese
               Formen nur der Kollektivvergleich mit zufälliger Zuteilung der Patienten zu den Kollektiven
               infrage. Dabei müssen sämtliche Patienten untereinander in Bezug auf die zahlreichen
               den natürlichen Krankheitsverlauf beeinflussenden Faktoren weitgehend gleich (homogen)
               sein ([6], S. 163). Dazu wird meist die Bildung von Untergruppen (Strata) erforderlich sein.
               – Der Individualvergleich ist also nur bei chronischer Tuberkulose durchführbar, und
               zwar in Perioden ohne Tendenz zur Besserung. Der Individualvergleich kann auch nicht
               zum sukzedanen Vergleich zweier Antituberkulotika dienen, die beide eine gewisse Wirkung
               haben. Denn es muss entgegen der Auffassung von Martini angenommen werden, dass dann
               eine Testperiode von einigen Wochen doch schon die Prüfbedingungen für die zweite
               später gegebene Testsubstanz irreversibel verändert. Dafür sprechen die vielen Berichte
               über eine schon wenige Tage nach Behandlungsbeginn nachweisbar werdende Besserung
               selbst durch schwach wirkende Substanzen wie TSC oder PAS (Paraaminosalizylsäure).
               Sie lässt sich beobachten bei Haut- und Schleimhauttuberkulosen (z. B. [8]
               [9]
               [10]
               [11]) und ist bei pulmonalen Prozessen an der Bakterienausscheidung auch messbar (z. B.
               [12]). Außerdem besteht bei 2 hinter einander geschalteten Monotherapien für 2 – 3 Monate
               das Risiko einer Resistenzentwicklung der Bakterien gegen beide Medikamente. Der individuelle
               Vergleich kann also nur die Frage beantworten: Ist die Behandlung mit der Prüfsubstanz
               P wirksamer als die gleiche Behandlung ohne die Substanz P, bei im Übrigen gleich
               gebliebenen Umständen? Trotz dieser Einschränkung könnte der Individualvergleich eine
               wichtige Rolle in der Phase der ersten Wirksamkeitsprüfung eines neuen Therapiekandidaten
               spielen. Es lohnt sich deshalb, diese Methodik zu analysieren, zumal man aus ethischen
               Gründen Patienten mit frischer und daher schneller heilender Tuberkulose die Chance
               einer Dauerheilung durch die bereits zur Verfügung stehenden Mittel nicht nehmen darf.
               Damit ist der ethische Aspekt von Arzneimittelprüfungen angedeutet. Er hat nach unser
               aller Grundverständnis der Arzt-Patient-Beziehung Vorrang vor allen methodologischen
               Forderungen und wirkt sich auf die Studienplanung begrenzend aus.
            
            
            Für den Individualvergleich führt Martini vor allem 2 Argumente ins Feld. Das erste
               behauptet, dass Kollektivvergleiche bei chronischer Tuberkulose unmöglich seien; das
               zweite will begründen, dass die Ergebnisse von Individualvergleichen besonders verlässlich
               seien.
            
            
            
            
            Martinis 1. These, mit kritischen Bemerkungen
            
            Die erste These besagte damals, weil bei Chronikern Kollektivvergleiche und Paarbildung
               unmöglich seien, es gäbe keine Alternative zum Individualvergleich bei ihnen, ein
               Schluss ex negativo ad positivum. Bei chronischer Lungentuberkulose sei jeder Fall,
               bedingt durch die im Laufe der Zeit eingetretenen verschiedenen Abwandlungen der Krankheit,
               zu einem Individuum geworden, so dass ein Kranker nur in sich selbst und mit sich
               selbst verglichen werden könne [13]. Am konkretesten sind späte Ausführungen Martinis. Danach hat ein statistisch signifikanter
               Unterschied nur dann einen realen Beweiswert, wenn die zu vergleichenden Gruppen homogen
               sind ([7], S. 223). Jedoch: „Beim chronisch Kranken muss damit gerechnet werden, dass die
               Angriffsmöglichkeiten eines zu prüfenden Mittels bei einem mehr oder minder großen
               Teil der Patienten völlig andere sind als bei (zu ergänzen: den übrigen Fällen mit)
               der gleichen ‚Diagnose’” ([7], S. 26). Hier ist also klar Homogenität auf gleiches Einwirkungsvermögen der Prüfsubstanz
               bezogen und deren Vorhandensein infrage gestellt. Dieses Problem ist aber nicht theoretisch,
               sondern nur empirisch zu lösen. Martini sieht zu sehr auf die anatomischen und physiologischen
               Unterschiede, die bei den einzelnen chronisch Kranken die Pharmakokinetik und die
               Wirkungsbedingungen der Prüfsubstanz in den Herden beeinflussen. Er berücksichtigt
               zu wenig, dass diese Faktoren in Relation zu Wirkungstyp und Wirkungsintensität der
               Substanz gesehen werden müssen. Hohe Wirksamkeit kann viele Unterschiede in den Wirkungsbedingungen
               überspielen. Wie weit das zutrifft, kann nur nach Abschluss der Prüfperiode geklärt
               werden. Inhomogenes Reagieren auf die Prüfsubstanz wird erst bei Ende der Prüfung
               erkennbar. Das ist anzunehmen, wenn Versager bzw. besonders gut ansprechende Patienten
               bestimmte gemeinsame unterscheidende Merkmale aufweisen, welche das abweichende Verhalten
               erklären können und dafür prognostisch geeignet sind, z. B. [15]. – Falls Martinis These der Unmöglichkeit von Kollektivvergleichen zutrifft, dann
               dürften mehrere voneinander unabhängige Kollektivvergleiche mit gleicher Fragestellung
               und vergleichbarer Methodik nicht zu gleichen Ergebnissen führen. 1958 hat Bartmann
               durch eine statistisch gestützte Analyse (heute: „Metaanalyse”) wahrscheinlich gemacht,
               dass die gleichartigen Ergebnisse mehrerer Studien beim Vergleich von Isoniazid (INH)
               allein mit INH in Kombination nicht zufallsbedingt sind [16]. Bis 1985 hatte die antituberkulöse Chemotherapie einen Wirksamkeitsgrad erreicht,
               der bei 98 – 100 % unvorbehandelter Kranker zur klinischen Heilung führte und mit
               Rückfällen von < 2,5 % nach 2 Jahren einherging [17]. Unterschiede zwischen den Kranken hinsichtlich der Wirkungsmöglichkeit von Chemotherapeutika
               spielten keine Rolle mehr. Martinis Argument ex negativo war für die Tuberkulose hinfällig
               geworden. Es ist auch hinfällig aus einem anderen Grund, den schon Hill angeführt
               hat [18]. Wenn keine Vergleichsgruppen wegen der Individualität der Krankheitsfälle gebildet
               werden können, dann ist auch kein historischer Vergleich möglich und beim Individualvergleich
               keine Einzel-Prognose der Therapiechancen, weil diese Vergleiche die Bildung von Gruppen
               zur Erfassung von Typen voraussetzen.
            
            
            
            
            Martinis 2. These
            
            Martinis 2. These besagt, dass bei der von ihm vorgeschlagenen Methode des Individualvergleichs
               schon jeder Einzelfall einen erheblichen Beweisgrad in sich trägt. Er nähere sich
               der exakten Induktion (damit wird meist eine Induktion auf der Grundlage von Experimenten
               gemeint), im Gegensatz zur generalisierenden Induktion einer allgemeinen Materialsammlung
               ([6], S. 99). In welchen Merkmalen drückt sich die Beweiskraft aus? „Je rascher, unerwarteter,
               günstiger die Abweichung des Verlaufs nach Einsatz der zu prüfenden Therapie in einem
               Einzelfall zum Ausdruck kommt, umso beweiskräftiger ist dieser Einzelfall für sich
               allein” ([7], S. 236). Was unter „rascher”, „unerwarteter”, „günstiger” in diesem Zusammenhang
               genau verstanden werden soll, ist nicht definiert oder an Beispielen gezeigt. Die
               „Beweiskraft” ist unter diesen Umständen kein Begriff, der intersubjektiv zuverlässig
               gebraucht werden kann. Solange das unmöglich ist, kann er nur als Ausdruck einer subjektiven
               Überzeugung für die Nichtzufälligkeit der betreffenden klinischen Beobachtung angesehen
               werden. – In der Diskussion dieser Fragen ist auch behauptet worden, dass schon bei
               Vorliegen eines einzelnen Falles von chronischer Lungentuberkulose, bei welchem die
               Kriterien für einen Erfolg der Prüftherapie besonders stark ausgeprägt sind, ein positives
               Urteil über die Prüfsubstanz abgegeben werden könne [19]
               [20], worauf Berg prompt ein Gegenbeispiel lieferte [21]. Martinis These von der Beweiskraft des Einzelfalls ist von ihm selbst relativiert
               worden ([6], S. 99): „… es haftet dem einzelnen Fall doch immer noch soviel Zufälliges und Unkontrollierbares
               an, dass wir auch hier zu einem ausreichenden Beweis immer eine Reihe von klinischen
               Beobachtungen brauchen”. Also ist der Einzelfall kein zuverlässiger Beweis. So subjektiv
               eindrucksvoll ein Einzelfall bei der Individualanalyse auch sein mag, er ist, wenn
               es sich nicht um eine Krankheitsform handelt, die bis dahin unbeeinflussbar war, nur
               ein Element für das therapeutische Urteil wie jeder andere Proband der Studie bzw. der
               betreffenden Prüfgruppe beim kollektiven Vergleich.– In den letzten Jahren ist von
               übernational wirkenden Behörden, die für die Aufstellung von Leitlinien zur Wirksamkeitsprüfung
               von Arzneimitteln zuständig sind (ICH, EMEA), die Klassifizierung des Individualvergleichs
               als kontrollierte Prüfung infrage gestellt worden. In EMEA [22] heißt es: „In so-called base-line controlled studies the patients' state over time
               is compared with their baseline state. Although these studies are sometimes thought
               to use „the patient as his own control” they do not have in fact an internal control.
               Rather, changes from baseline are compared with an estimate what would have happened
               to the patient in the absence of treatment with the test drug … Such estimates are
               generally made on the basis of general knowledge without reference to a specific control
               population … Designers and analysts of such trials need to be aware to justify its
               use”. Dass bei der Individualanalyse der Effekt beim behandelten Patienten mit seiner
               Prognose verglichen wird, ist von den Anhängern der Methode selbst klar ausgesprochen
               worden [5]
               [23]. Auf welch schwachen Füßen sie bezüglich der Intersubjektivität steht, ergibt sich
               aus Bemerkungen Martinis. Die Verlässlichkeit der Prognose hängt von einer ausreichenden
               Vorbeobachtung ab. Diese muss solange durchgeführt werden, dass „man sich mit Wahrscheinlichkeit
               vor dem Auftreten spontaner Veränderungen gesichert fühlen kann” ([6], S. 160; [7], S. 224/5). Und es gilt, „dass eine komplexe Prognosestellung überhaupt und erst
               recht nur sehr erfahrenen Fachleuten erlaubt ist” ([6], S. 163). Die Prognose ist also das Produkt eines sich sicher fühlenden sehr erfahrenen
               Spezialisten. Das ist natürlich ein recht unsicherer Punkt für eine Methodik, die
               zu intersubjektiv verbindlichen Ergebnissen führen soll. Hinzu kommt, dass keine noch
               so lange Vorbeobachtung vor dem Auftreten spontaner Schwankungen schützen kann. Denn
               diese Schwankungen sind nach Martini unvorhersehbar und unerklärbar ([3], S. 88), erfüllen also die Kriterien der Zufälligkeit. Das bedeutet, dass man im
               Einzelfall nicht vorhersehen kann, wann ein solches Ereignis eintritt, und, da es
               zudem selten sein soll ([5], S. 555), ob es überhaupt eintritt. Und selbst wenn das der Fall sein sollte, ist
               es bei einem genügenden Umfang des Kollektivs für die Beurteilung des Ergebnisses
               meist praktisch irrelevant.
            
            
            Trotz alledem, der Individualvergleich ist damit nicht verloren. Denn die Prognose
               ist gar nicht notwendig. Man muss nur die prospektive Sichtweise aufgeben, die der
               Vergleich mit der Prognose erfordert, und stattdessen nach Abschluss der Therapie
               fragen: Gab es nach Beginn der Prüftherapie eine Trendänderung im Verlauf bei im Übrigen
               gleich gebliebenen Umständen? Diese Frage ist empirischer und nicht hypothetischer
               Natur und kann bei geeigneter Studienplanung mit den Methoden der Trendstatistik (Regressionsanalysen)
               – und im Erfolgsfall und bei genügend häufig durchgeführten Untersuchungen mit statistischer
               Signifikanz sogar für den einzelnen Patienten – beantwortet werden. Zur Klärung der
               Verlässlichkeit und Repräsentativität solcher Einzelergebnisse müssen diese natürlich
               zusammengefasst werden, um für die Gesamtheit oder ihre Untergruppen den Vertrauensbereich
               (Konfidenzintervall) zu ermitteln und daraus die entsprechenden Schlüsse zu ziehen.
               Der Individualvergleich neutralisiert die individuell permanent vorhandenen Einflussfaktoren
               wie Alter, Geschlecht, bleibende Schäden, aber nicht die erst im Laufe der Prüfung
               auftretenden individuellen und kollektiven Störungen. Letztere lassen sich nur durch
               Bildung paralleler Vergleichsgruppen auffangen. Der Individualvergleich ist aber noch
               aus einem anderen, viel allgemeineren Grund nicht verloren: Er ist unentbehrlich.
               Jeder Kollektivvergleich ist zwangsläufig zunächst ein Individualvergleich bei jedem
               Mitglied des Kollektivs. Die Bewertung der Kollektive ergibt sich nur aus der Zusammenfassung
               der Ergebnisse der Individualvergleiche. Wir sehen: Es gibt zwischen Individualvergleich
               und Kollektivvergleich keinen Unterschied in der Sache. Beide benötigen den anderen.
               Der Unterschied liegt lediglich in der Gewichtung der beiden Vorgehensweisen[2].
            
            
            
            
            Kontrollierte Studien in Großbritannien und USA
            
            Eine weitere richtungweisende Veröffentlichung aus der Anfangszeit der antituberkulösen
               Chemotherapie ist eine Empfehlung von Hinshaw und Feldman aus dem Jahre 1945 [24]. Sie diente der Vermeidung methodischer Unzulänglichkeiten, welche die amerikanischen
               Veröffentlichungen über die klinische Wirksamkeit verschiedener Sulfone unverwertbar
               machten. Einige Monate später begann die klinische Prüfung von Streptomycin (SM),
               an der Hinshaw und Feldman maßgeblich beteiligt waren [25]. Ihre Empfehlungen sind darin nicht beachtet. Es gibt in dieser Studie keine Vergleichsgruppe,
               es liegt auch kein ausreichender Individualvergleich vor, die Bewertung der röntgenologischen
               Veränderungen ist nicht definiert, die bakteriologische Technik ist nicht angegeben,
               auch nicht die Zeitabstände, in denen die Daten erhoben wurden. – Zu historischen
               Details der klinischen Prüfung von SM siehe [26]
               [27]
               [28]
               [29].
            
            
            Bei den Untersuchungen in den folgenden Jahren begegnen wir einem eigentümlichen Phänomen.
               Realisiert werden kontrollierte randomisierte Studien zunächst nur von 3 Institutionen
               in der Welt: von der US Veterans Administration in Kooperation mit Krankenhäusern
               der Armed Forces (VAAF), von dem US Public Health Service (USPHS) und vom British
               Medical Research Council (BMRC). Die 3 Einrichtungen haben folgende Merkmale gemeinsam:
               Sie sind Regierungsbehörden, und zwar mit dem ausdrücklichen Auftrag, Forschungen
               zu wichtigen Fragen der Volksgesundheit (und damit der Tuberkulose) zu initiieren,
               zu finanzieren und sich an der Planung und Durchführung zu beteiligen. Als Behörden
               kommt ihnen eine gewisse Autorität zu. In den zuständigen Abteilungen arbeiteten angesehene
               Kliniker zusammen mit Laborexperten und Statistikern oder Epidemiologen, alle mit
               wissenschaftlicher Erfahrung und organisatorischen Fähigkeiten, J.B. Barnwell und
               A.M. Walker bei den VAAF [30], C.E. Palmer und S.H. Ferebee beim USPHS [31], sowie P. D'A. Hart, M. Daniels und A.B. Hill beim BMRC [28]
               [29]. Die Tuberkulose war von den Politikern als eine drohende Nachkriegsgefahr erkannt,
               so dass den Institutionen auch genügend Geld bewilligt wurde. Die VAAF verfügten über
               eigene Tuberkulosekrankenhäuser, der USPHS und der BMRC mussten geeignete Kliniken
               für die Studien gewinnen, wobei sich der USPHS auf die Trudeau Society, die wissenschaftliche
               US-Tuberkulosegesellschaft, stützte [32] und der BMRC auf die engen persönlichen Kontakte seiner Forscher mit großen Kliniken,
               vor allem in London. Es war eine wirklich einmalige Konstellation von Umständen, welche
               die Durchführung großer multizentrischer randomisierter kontrollierter Studien ermöglichte.
               Im deutschen Sprachraum gab es weder in Deutschland noch in der Schweiz oder Österreich
               entsprechende Institutionen, auch nicht in Frankreich. Nicht nur in all diesen Ländern
               wurden klinisch-therapeutische Prüfungen, zumindest im ersten Nachkriegsjahrzehnt,
               so gut wie gar nicht in der Weise durchgeführt und/oder publiziert, dass sie den Ansprüchen
               zur Vermeidung von Verzerrungen genügt hätten. Das trifft auch für die Prüfungen in
               USA und England zu, die nicht in Zusammenarbeit mit den genannten Regierungsinstitutionen
               durchgeführt wurden. 22 therapeutische Prüfungen, die in der Zeitschrift Chest von
               1946 – 1954 veröffentlicht wurden [33]
               [34]
               [35]
               [36]
               [37]
               [38]
               [39]
               [40]
               [41]
               [42]
               [43]
               [44]
               [45]
               [46]
               [47]
               [48]
               [49]
               [50]
               [51]
               [52]
               [53], haben wir nach lediglich 4 Gesichtspunkten überprüft:
            
            
            
               - 
                  
                  
kontrolliert als Kollektiv- oder Individualvergleich bzw. durch Paarbildung?;
                  
                   
               - 
                  
                  
wenn Kollektivvergleich: randomisiert?;
                  
                   
               - 
                  
                  
interkollektive Homogenität überprüft?;
                  
                   
               - 
                  
                  
Ergebniskriterien adäquat und durch andere Wissenschaftler überprüf- und nachmachbar?
                  
                   
            
            
            In keiner Studie wurde ein Individualvergleich durchgeführt, in einer eine Paarbildung,
               in 4 ein Kollektivvergleich, davon nur in einer mit Randomisierung. 17 von 22 Prüfungen
               waren also unkontrolliert. Bei den zur gleichen Zeit erschienenen Arbeiten in der
               American Review of Tuberculosis sah es etwas besser aus: in keiner von 17 Prüfungen
               [54]
               [55]
               [56]
               [57]
               [58]
               [59]
               [60]
               [61]
               [62]
               [63]
               [64]
               [65]
               [66]
               [67]
               [68]
               [69]
               [70]
               [71] ein Individualvergleich, keine Paarbildung, in 7 ein Kollektivvergleich, 4 davon
               mit Randomisierung durch Alternation, nicht kontrolliert also 10 Untersuchungen; Prüfung
               auf interkollektive Homogenität in 7 Arbeiten, davon 4-mal mit unbefriedigendem Ergebnis.
               Keine der Arbeiten erfüllt aber alle 4 genannten Kriterien. In England sind Publikationen
               von chemotherapeutischen Prüfungen relativ spärlich. In 4 Zeitschriften sind wir auf
               13 Veröffentlichungen gestoßen [72]
               [73]
               [74]
               [75]
               [76]
               [77]
               [78]
               [79]
               [80]
               [81]
               [82]
               [83]
               [84]. Von diesen waren nur 3 kontrolliert; 1 durch Individualvergleich, 1 durch Paarbildung,
               1 durch Kollektivvergleich mit Alternierung. Keine der 13 Arbeiten erfüllte alle Kriterien.
               – Auch bei der VAAF und dem USPHS war es nicht möglich, von Anfang an eine Randomisierung
               durchzuführen. Es bedurfte einer „Erziehung” ([30], S. 27) und des Lernens aus Fehlern und der zunehmenden Erfahrung mit kooperativen
               Prüfungen, die bei den Prüfern das Bewusstsein für die Relativität der eigenen Ergebnisse
               schärfte. Die VAAF begann mit Individualvergleichen [30]. Die konsequente Randomisierung innerhalb jeder beteiligten Klinik wurde erst im
               Oktober 1948 eingeführt [30], aber noch 1952 wurde eine kooperative nicht kontrollierte Studie mit Viomycin begonnen
               [54]. Über die Gründe findet sich nur eine sybillinische Antwort von Walker, zitiert
               bei [30]: „… for reasons that can be visualized we did not adopt the method” (der Alternierung
               oder Randomisierung von Anfang an). Bei den vom USPHS und der Trudeau Society unterstützten
               SM-Studien gab es keine parallele Kontrollgruppe [32], jedoch in der ersten vom USPHS selbst organisierten und im November 1947 begonnenen
               multizentrischen SM-Großstudie. In ihr sind die Patienten durch Alternierung nach
               der Endzahl ihrer Patientennummer randomisiert [85]. Die ersten Isoniazid-Prüfungen in den USA sind ebenfalls nicht als kontrollierte
               Prüfungen angelegt [44]
               [45]
               [92]. Selbst Martini genügt in seiner Conteben-Studie nicht den eigenen Maßstäben: es
               gibt keine Trenddarstellung, nur eine tabellarische, nicht quantifizierte Beschreibung
               der Fälle, keine Teststatistik, keine Definition der Krankheitsschweregrade, keine
               Angaben zur bakteriologischen Technik, keine Erwähnung von Resistenzbestimmungen,
               über die Ausfälle wegen Verschlechterung nur die Angabe ihrer Zahl.
            
            
            Was sind die Ursachen dieser desillusionierenden Differenzen zwischen Soll und Ist,
               zwischen Ideal und Realität? Sie sind auch in anderen Wissensgebieten anzutreffen,
               z. B. in der Ursachenforschung von Infektionskrankheiten ([86], S. 322 f.). Der Forderung, dem Problem-spezifischen Zweifel so weit wie möglich
               die Basis zu entziehen, wird nicht nachgekommen. Urteile sind dann Entscheidungen
               unter Unsicherheit, gefällt unter äußerem oder innerem Druck oder wegen praktischer
               Beschränkungen.
            
            
            
            
            Zwei terminologische Zwischenbemerkungen
            
            
               - 
                  
                  
Unter Randomisierung verstehen wir jedes Zuteilungsverfahren der Patienten auf die
                     Gruppen nach dem Zufallsprinzip. In der Statistik wird jetzt oft nur dann von Randomisierung
                     gesprochen, wenn jede mögliche Manipulierung bei der Gruppenbildung ausgeschlossen
                     ist. Daher wird eine Alternierung nicht als Randomisierung klassifiziert. Man kann
                     aber von einer alternierenden Zuteilung, die korrekt durchgeführt ist, nicht sagen,
                     dass sie nicht randomisiert ist. Wir benutzen daher Randomisierung als Oberbegriff
                     und unterscheiden bei Bedarf manipulierbare und nichtmanipulierbare Randomisierung.
                     Eine „nichtmanipulierbare” Randomisierung gibt es natürlich nur, wenn in ausreichendem
                     Maß Kontrollinstanzen vorhanden sind. Man muss hier unterscheiden zwischen dem Zuteilungsverfahren
                     (der Randomisierung) an sich und der Durchführung der Randomisierung.
                  
                   
               - 
                  
                  
Zum Begriff der „observational study” („Beobachtungsstudie”). Im statistisch-epidemiologischen Schrifttum ist die Definition
                     von Cochran, 1965, allgemein gebräuchlich. Sie lautet nach Rosenbaum [116], in Übereinstimmung mit anderen Zitaten, so: Die observational study ist „an empirical
                     comparison of treated and controlled groups in which the objective is to elucidate
                     cause – and effect relationships [in which it] is not feasible to use controlled experimentation,
                     in the sense of being able to impose the procedures or treatments whose effect it
                     is desired to discover, or to assign subjects at random to different procedures”.
                     Also, ein Kollektivvergleich ist eine therapeutische „observational study”, wenn sie
                     nicht als willkürlicher, gezielter und auf seine Wirksamkeit kontrollierter Eingriff angelegt werden kann oder nicht randomisiert werden kann (I). Der Einfachheit halber
                     wollen wir die Wortfolge in (I) von „als” bis „kontrollierter Eingriff” auf „willkürlicher
                     Eingriff*” abkürzen. Wie der Gebrauch von (I) in der Literatur zeigt, wird (I) verstanden
                     als: " wenn er nicht als willkürlicher Eingriff* angelegt oder nicht randomisiert
                     ist. (II). Diese verneinende Formulierung des „wenn”-Satzteils in (II) kann logisch
                     korrekt ins Positive umgewandelt werden zu: wenn er ein willkürlicher Eingriff* ist
                     und randomisiert ist (III). Dieser positive ”wenn”-Satz (III) kann nun den „wenn”-Teil
                     von (I) ersetzen: Ein Kollektivvergleich ist eine observational study, wenn es nicht
                     der Fall ist, dass er als willkürlicher Eingriff* angelegt ist und nicht randomisiert ist (IV). Aber wie ist dann der häufig vorkommende Fall zu klassifizieren,
                     der die Kriterien des willkürlichen Eingriffs* erfüllt, aber nicht randomisiert ist?
                     Er wird von Cochrans Definition nicht erfasst. Trotzdem wird in der statistisch-epidemiologischen
                     Literatur auf „controlled, but not randomized” „observational” angewendet, siehe auch
                     [116], obwohl ja überhaupt nicht rein beobachtet, sondern „controlled experimentation”
                     getrieben wird. Damit wird eine Bedeutungsverschiebung vorgenommen. Sie besteht sprachlogisch
                     darin, dass Cochran zu „observational study” einen anderen Begriff als Kontradiktion
                     setzt als er in vielen Sprachen wie Englisch, Französisch, Deutsch üblich ist. In
                     allen diesen Sprachen gilt als Kontradiktion, i. e. als eine bedeutungsgleiche Negation
                     von „observational study” „controlled study” im Sinne von: „nicht: willkürlicher Eingriff*”.
                     Cochran dagegen kreiert die neue Kontradiktion „nicht: willkürlicher Eingriff* und
                     nicht: „randomisiert”. Dieser scheinbar minimale Unterschied zerstört unsere international
                     verbreitete Gebrauchsweise von „observational”. Man sollte Cochrans Kontradiktion
                     nicht übernehmen. Denn sie hat weitreichende Folgen für unseren Sprachgebrauch von
                     „controlled” und „observational”, Folgen, von denen wir heute noch nicht eindeutig
                     sagen können, ob sie generell Nutzen bringen, solange das Leistungsverhältnis zwischen nicht-randomisierten und
                     randomisierten kontrollierten Studien sowie der Erfolg der Verfahren zur Verbesserung
                     unzulänglich randomisierter Studien nicht voll geklärt sind. Wir werden daher unter
                     „observational study” wie bisher eine geplante Untersuchung verstehen, in der eine
                     Gruppe von Personen mit einem nicht in der Studie beigefügten (natürlichen) Merkmal
                     verglichen wird mit einer gleichartigen Gruppe, die lediglich dieses Merkmal nicht
                     aufweist. Cochrans Definition liefert die Suchregel für die weltweiten Literaturrecherchen
                     nach kontrollierten Studien durch die Cochrane-Zentren. Dieser Regel fällt die größte
                     Menge der Studien zum Opfer. Damit verwirft man ein gewaltiges Material, aus dem sich
                     durch gute Metaanalysen vermutlich viele nicht weiter bezweifelbare Informationen herausholen
                     ließen. – Psychologisch könnte man die skizzierte Bedeutungsverschiebung als wissenschaftspolitisch
                     wohlbekannten Versuch interpretieren, mithilfe von Umdefinitionen ein Arbeitsgebiet
                     zum Teilgebiet eines anderen zu machen, im vorliegenden Fall die klinische therapeutische
                     Prüfung zu einem Teilgebiet der Epidemiologie, statt sie wie bisher als klinische
                     Pharmakologie anzusehen.
                  
                   
            
            
            
            
            Kontrollierte Studien in Deutschland, die Bedeutung der W.A.T.L.
            
            Im deutschsprachigen Raum wurden zunächst keine Kollektivvergleiche durchgeführt.
               Die erste randomisierte Studie wurde unseres Wissens von Tanner und Merian in der
               Schweiz gemacht und 1958 veröffentlicht [87], die zweite wurde 1965 von Schütz und Bartmann in Deutschland publiziert [88]. Die ersten multizentrischen kontrollierten und randomisierten Prüfungen wurden
               in Deutschland 1964 von der Wissenschaftlichen Arbeitsgemeinschaft für die Therapie
               von Lungenkrankheiten (W.A.T.L.) begonnen [12]. Beide Autoren waren daran aktiv beteiligt. Die Abneigung oder Indifferenz gegen
               Kollektivvergleiche hatte eine Reihe von Gründen. Zunächst den Umstand, dass in diesem
               Raum die in USA und England gegebenen Voraussetzungen nicht bestanden. Dazu gehört
               auch, dass die Verteilung der Prüfsubstanzen und damit die Auswahl der Prüfer und
               die Formulierung der Prüfpläne nicht wie bei SM in USA und England maßgeblich in der
               Hand öffentlicher Institutionen lag, sondern von den forschenden Pharmafirmen bestimmt
               bzw. beeinflusst wurden. Im Falle des INH z. B. wurde in Deutschland die Testsubstanz
               von der Bayer AG wie bei TSC an einzelne Chefärzte vergeben, die in der Planung und
               Durchführung ihrer Prüfung offensichtlich weitgehend frei waren. In der Schweiz wurden
               die Prüfungen multizentrisch unter intensiver Mitwirkung der Firma Hoffmann La Roche
               zentral geplant, nach einem gemeinsamen Programm ohne Vergleichsgruppen durchgeführt
               und zentral ausgewertet. Verfasser der Publikation waren Mitarbeiter der Firma [89]. Prinzipiell gleich wurde bei der Prüfung von Cycloserin vorgegangen [90]
               [91]. Natürlich lag den Entdeckern und Herstellern von INH daran, möglichst schnell und
               ökonomisch Klarheit darüber zu gewinnen, ob sie mit einer Zulassung rechnen und die
               Großproduktion vorbereiten konnten. Auch die Prüfer waren daran interessiert, sich
               so schnell wie möglich ein Bild zu machen, primär der Sache wegen, sekundär oder tertiär
               aber auch, um durch frühe und daher häufig zitierte Veröffentlichungen den eigenen
               Bekanntheitsgrad zu steigern. Nicht anders war es in USA und England, wenn die ersten
               klinischen Untersuchungen durch die Pharmaindustrie initiiert wurden, siehe [92]
               [93], ebenso in Schweden. Dort wurden nach den ersten durch Firmen veranlassten Prüfungen
               vom Therapeutic Trials Committee of the Swedish National Association against Tuberculosis
               methodisch ausgezeichnete kontrollierte randomisierte multizentrische Prüfungen durchgeführt
               [94]
               [95]. – Viele Kliniker waren der Ansicht, dass ein Vergleich mit früheren Erfahrungen
               bei ähnlich gelagerten Fällen als Kontrolle ausreichend sei. Das kann aber nur für
               Krankheitsformen mit stets ungünstigem Ausgang gelten, nicht, wenn auch ohne spezifische
               Therapie Heilungen eintreten. Was tatsächlich zufällig passieren kann, wird oft unterschätzt,
               ebenso das Risiko einer Verallgemeinerung der eigenen Ergebnisse aus einer beschränkten
               Zahl von Beobachtungen. Der Mensch glaubt oft mehr zu wissen, als er jeweils wissen
               kann ([86], S. 333). Von dieser Schwäche sind auch Wissenschaftler nicht frei.
            
            
            In den amerikanischen und englischen Studien, die nicht von VAAF, USPHS oder BMRC
               durchgeführt sind, werden Fragen der Versuchsplanung kaum angesprochen, nur in 5/52
               der von uns zitierten Arbeiten. In den Veröffentlichungen aus dem deutschen Sprachraum
               ist das jedoch häufig der Fall. Meist werden unter Berufung auf Martini Kollektivvergleiche
               abgelehnt, weil eine ausreichende Homogenisierung der Gruppen unmöglich sei [20]
               [23]
               [96]
               [97]
               [98]
               [99]
               [100]. Weitere Argumente sind: zu großer praktischer Aufwand [98]
               [100]; zwangsläufig eingeschränkte Zuverlässigkeit in Großversuchen wie denen von VAAF
               und USPHS [98]
               [102]
               [103], ethische Unverantwortbarkeit, wobei manchmal irrtümlich unterstellt wird, dass
               zum Vergleich nur eine Plazebo-Gruppe dienen könne. Zu diesen Einwänden ist zu sagen,
               dass, wie bereits ausgeführt, die sich auf Martini stützenden Gegenargumente nicht
               stichhaltig sind. – Bei den Großversuchen können die Ergebnisse nicht die sein, die
               mit der besten röntgenologischen und bakteriologischen Technik herauskämen, sondern
               Werte, die vermutlich zu optimistisch sind, weil nicht-optimale Untersuchungstechniken
               wegen unzureichender Sensitivität die Raten von Kavernenschluss und Sputumkonversion
               scheinbar erhöhen. Das muss aber nicht den Vergleich der Gruppen verzerren. Eine Illustration
               zu den Problemen der Großversuche liefert die Diskussionsbemerkung eines Teilnehmers
               der VAAF-Studien [104]. Die Auseinandersetzung mit methodischen Fragen hatte aber nicht zur Folge, dass
               die eigenen Untersuchungen der meisten Kritiker des Kollektivvergleichs methodisch
               gut geplant waren. Das trifft nach einer Analyse von 22 Studien durch Trendelenburg
               auch noch für die Jahre 1960 – 1963 zu [105].
            
            
            
            
            Ethische Aspekte kontrollierter Studien
            
            Die ethischen Aspekte sind immer wieder diskutiert worden, bis in die Gegenwart, besonders
               nachdem die ersten wirksamen Antituberkulotika zur Verfügung standen. Es sei nicht
               verantwortbar, der Vergleichsgruppe eine wirksame Therapie vorzuenthalten [98]
               [99]
               [100]. Dieser Einwand ist berechtigt, war aber in praxi nicht aktuell, da es immer wieder
               Patienten gab, deren Bakterien gegen die verfügbaren wirksamen Antituberkulotika resistent
               geworden waren, so dass man ihnen überhaupt kein ausreichend wirksames Mittel vorenthalten
               konnte. Bei den Vergleichen verschiedener Behandlungsschemata aus bekannten wirksamen
               Substanzen stellt sich das Problem gar nicht, man sucht ja nur nach einer gegenüber
               dem Standard besseren Lösung. Ein weiterer Argumentationsstrang betrifft die Frage
               einer wesentlichen Störung des Arzt-Patientenverhältnisses. Der Patient werde zu einer
               Nummer, zum Versuchskaninchen degradiert; kontrollierte, randomisierte Prüfungen würden
               gegen den hippokratischen Eid verstoßen usw. ([106]
               [107]
               [108]
               [109]; als Antwort: [110]
               [111]
               [112]). Das Problem adäquat zu behandeln würde den Rahmen dieses Aufsatzes sprengen. Unter
               der Durchführung einer kontrollierten Prüfung muss das Verhältnis zwischen behandelndem
               Arzt und Patient nicht leiden, vorausgesetzt, der Patient wurde fair über das Vorhaben
               aufgeklärt und nicht zur Teilnahme gedrängt. Der Patient wird ja nicht bei der Durchführung
               zur Nummer, sondern erst bei der Auswertung, welche das Arzt-Patientenverhältnis überhaupt
               nicht berührt. Die Einstellung für oder gegen kontrollierte Studien hängt letztlich
               davon ab, welche ethische Grundposition man vertritt. Die Gegner sind der Auffassung,
               die Lilford [107] klar formuliert hat, dass „the obligation to respect individual autonomy outweighs
               the common good in all but most extreme cases”. Die Befürworter dagegen geben der
               Gemeinschaft gegenüber dem Individuum Priorität, weil kein Mensch im Laufe seines
               Lebens ohne Mitmenschen weiter existieren kann, und daher Handlungen, welche dem Wohl
               der Gemeinschaft dienen, letztlich in der Regel auch dem Einzelnen dienen. Über die
               Frage der Rangordnung dieser beiden Werte kann man nicht mehr diskutieren, weil wir
               mit ihr die höchste Ebene hinter uns gelassen haben, auf der noch sachliche Argumente
               zur Verfügung stehen. Offensichtlich hält die Mehrzahl der Ärzte kontrollierte randomisierte
               Studien, die unter gebührender Beachtung der humanen Aspekte durchgeführt werden,
               nicht für unethisch, und sie werden von Patienten akzeptiert.
            
            
            
            
            Neuere methodische Aspekte des Kollektiv-Vergleichs
            
            Wir wollen uns nun wieder den methodischen Aspekten der Kollektivvergleiche zuwenden.
               Dass solche Vergleiche möglich und brauchbar sind, steht außer Frage. Aber wie verlässlich
               sind die Ergebnisse? Die Randomisierung soll gegen Heterogenität der Gruppen schützen.
               Das kann sie, wenn nicht stratifiziert wird, zuverlässig nur, wenn der Gruppenumfang
               groß genug ist, wie zuvor ausgeführt; dies war nur in wenigen Großprüfungen der Fall.
               In den letzten Jahrzehnten sind verschiedene Methoden entwickelt worden, um Ungleichheiten
               bei der zufälligen Zuteilung vorzubeugen, was übrigens Martini schon 1940 praktiziert
               hat und „ausgleichende Alternierung” nannte ([6], S. 17; [113]). Sie wird heute als „eingeschränkte Randomisierung” bezeichnet. Damit lässt sich
               zwar ein guter Ausgleich für bekannte Einflussfaktoren wie Alter oder Krankheitstyp
               usw. erreichen. Wie sich dabei die Verteilung von nicht erfassten bekannten und unbekannten
               Einflussfaktoren verschieben kann, ist bisher nicht bekannt. Das CPMP-Komitee der
               European Agency for the Evaluation of Medicinal Products (EMEA) schreibt 2003: „Dynamic
               allocation (Verfahren, welche die zufällige Zuteilung der Patienten bei interkollektiver
               Ungleichheit der Einflussgrößen durch eine kompensierende Zuteilung unterbrechen)
               is strongly discouraged” ([114], S. 4). – Mit weiteren Argumenten für die Randomisierung haben sich Abel und Koch
               auseinander gesetzt ([115]; s. jedoch [129]), u. a. dem, Randomisierung sei die Basis für statistische Signifikanzteste. Die
               Randomisierung ist jedoch weder hinreichende noch notwendige Bedingung für verlässliche
               derartige Schlüsse. Die Randomisierung kann auch nicht als Basis für Schlüsse auf
               die kausale Rolle einer Behandlung bei beobachteter Besserung dienen. Statistische
               Analysen können niemals eine Verursachung nachweisen. Das geht nur mit dem Kausalexperiment
               [86]. Die Randomisierung ist auch keine hinreichende oder notwendige Bedingung für eine
               maskierte („verblindete”) Zuteilung der Patienten. Der einzige methodische Grund für
               eine Randomisierung ist der Ausgleich unbekannter bzw. bekannter, aber nicht quantifizierbarer
               oder nicht komparativ ordnungsfähiger Einflussfaktoren (z. B. Dispositionen wie Infektionsabwehr).
               Deswegen muss, wer spezifische Zweifel soweit wie möglich ausräumen will, randomisieren.
               Wegen des oft nicht voll befriedigenden Ausgleichs muss statistisch zu Beginn und
               – wegen der Ausfälle – auch am Ende der Studie geprüft werden, ob die Gruppen als
               Stichproben aus der gleichen Grundgesamtheit anzusehen sind – siehe dazu [128]. Metaanalysen von weiteren gleichartigen Prüfungen müssen zeigen, dass das Therapieergebnis
               ausreichend reproduzierbar ist. Die Metaanalysen müssen später unbedingt durch langfristige
               Nachbeobachtungen, die ihre eigenen methodischen Probleme haben, ergänzt werden.
            
            
            Die Aussagekraft therapeutischer nichtrandomisierter Kollektivstudien wurde mithilfe
               verschiedener statistischer Verfahren verbessert (Übersichten in [116]
               [117]). Sie zielen auf eine Schätzung der möglichen Einflüsse unbekannter Faktoren und
               auf die nachträgliche Bereinigung bei bekannten Faktoren ab. Unterschiede in der Verlässlichkeit
               zwischen randomisierten und nichtrandomisierten Studien sind wegen methodischer Mängel
               der durchgeführten Metaanalysen [118]
               [119]
               [120]
               [121]
               [122]
               [123]
               [124]
               [125]
               [126] nicht abschätzbar. Dazu mit Recht Eysenck: „A good review is based on intimate personal
               knowledge of the field, the participants, the problems that arise, the reputation
               of different laboratories, the likely trustworthiness of individual scientists, and
               other partly subjective but extremely relevant considerations. Meta-analysis rules
               out any such subjective factors. It can be done by simply feeding the published results
               to a computer (so geschehen in den betreffenden Metaanalysen) and coming up with an
               effect size. The computer avoids the bias of the subjective approach but simply adds
               together the biases of the authors of the original reports – which may or may not
               balance out” [127].
            
            
            
            
            Schlussfolgerung
            
            Alle Arten des Vergleichs von Kollektiven haben einen Schwachpunkt gemeinsam: die
               Feststellung der Vergleichbarkeit der Gruppen, des Grades der interkollektiven Homogenität,
               ihrer Ähnlichkeit bezüglich der Wirkungsmöglichkeiten eines Therapeutikums. Die zur
               Verfügung stehenden statistischen Verfahren erlauben nur eine Aussage darüber, ob
               2 Stichproben aus derselben Grundgesamtheit stammen. Diese Aussage bezieht sich lediglich
               auf statistische Signifikanteste, die Überlegenheit nachweisen sollen. Gleichheit
               kann mit diesem Ansatz nicht nachgewiesen werden. Für derartige Fragestellungen könnte
               man aber Äquivalenz- oder Nicht-Unterlegenheitsstudien heranziehen, wobei für die
               diskutierte Vergleichbarkeit von Gruppen die direkte Gegenüberstellung mittels eines
               Tests insgesamt kritisch zu bewerten ist [128]. Gefragt ist aber nach der Ähnlichkeit der Wirkungsmöglichkeiten der Therapeutika
               zwischen den Mitgliedern einer Grundgesamtheit. Diese Kenntnis ist erforderlich, weil auch
               zwischen den Mitgliedern derselben Grundgesamtheit, die sich ja nicht durch gleiches
               Einwirkungsvermögen eines Therapeutikums definieren lässt, mit erheblichen Differenzen
               in den Merkmalen gerechnet werden muss, welche die Bedingungen des Erfolges sind,
               die ein Therapeutikum haben kann. Die meisten dieser Bedingungen wie Infektionsabwehr
               oder Regenerationsfähigkeit, die zudem nur als Komplex positiver und negativer Einflüsse
               wirksam werden, sind qualitativ oft, quantitativ meist derzeit nicht erfassbar. Und
               selbst wenn sie es wären: Umfang und Grad der notwendigen Übereinstimmung, deren Kenntnis
               für ein Urteil über die Vergleichbarkeit erforderlich ist, sind keine für alle Vergleiche
               feste Größe, was ja auch die Entwicklung der antituberkulösen Therapie zeigt. Der
               notwendige Grad der Vergleichbarkeit hängt, wie schon erwähnt, wesentlich auch von
               Eigenschaften der Testsubstanz, von ihrer Wirksamkeit und z. T. auch von ihrem Wirkungstyp
               ab. Ist die Wirksamkeit groß, werden viele Störfaktoren irrelevant. Da die klinische
               Wirkung einer neuen Substanz nicht sicher vorauszusehen ist, sollte die Vergleichbarkeit
               der Gruppen bei ganz neuen Mitteln so gut wie möglich gesichert werden. Die Basis
               therapeutischer Prüfungen ist der Vergleich, die Basis des Vergleichs ist die Vergleichbarkeit,
               die zumindest gegenwärtig nicht durch Maß und Zahl bestimmt werden kann, sondern subjektiv
               gefärbt mittels Erfahrung und Intuition geschätzt werden muss. Hierfür sollte nach
               Abhilfe gesucht werden. Vielleicht könnten Verfahren der taxonomischen Statistik nützlich
               sein.
            
            
            Die Methodologie therapeutischer Prüfungen kann sich also über einen Mangel an Aufgaben
               nicht beklagen. Und: Problemlösungen evozieren neue Probleme, solange der Mensch forscht.