Schlüsselwörter
fehlende Werte - Mechanismen fehlender Werte - MCAR-Test - klassische Verfahren -
Imputationsverfahren - Multiple Imputation
Key words
missing data - missing data mechanisms - MCAR-test - classic procedures - imputation
procedures - multiple imputation
Einleitung
Häufig liegen bei der Auswertung empirischer Daten fehlende Werte (Missing Data) vor.
Die Gründe hierfür sind vielfältig [1]
[2]
[3]: Von diversen organisatorischen Problemen bei der Studiendurchführung, dem Übersehen
von Antwortmöglichkeiten auf Seiten der Teilnehmenden, dem Vergessen der Antwortgabe,
uneindeutigem Antwortverhalten bis hin zur Verweigerung der Teilnahme an der Untersuchung
gibt es viele Situationen, bei denen der Forscher trotz sorgfältiger Planung die Entstehung
fehlender Werte nicht verhindern kann. Wie bereits in dieser Reihe „Methoden in der
Rehabilitationsforschung“ dargestellt [4], gibt es wenige Empfehlungen zum Umgang mit fehlenden Werten – obwohl diese in Abhängigkeit
von Anzahl und Art des Auftretens die Ergebnisse einer statistischen Analyse stark
beeinflussen. Anknüpfend an diesen ersten Beitrag werden die Relevanz um das Wissen
des Mechanismus der fehlenden Werte dargestellt sowie darauf aufbauend empfohlene
gängige Umgangsmethoden vorgestellt und verglichen. Im Anschluss wird eine Empfehlung
für den Umgang mit und das Vermeiden von fehlenden Werten gegeben.
Im Folgenden wird das Beispiel des Fragebogens „Indikatoren des Reha-Status 3“ (IRES-3)
[5] im Einsatz bei orthopädischen Patienten verwendet (eine Experimentalgruppe mit Intervention
und eine Wartekontrollgruppe). Dabei liegen die Ergebnisse des Fragebogens zu 3 Zeitpunkten
vor, einmal zu „Reha-Beginn“, zu „Reha-Ende“ und in der „6-Monats-Katamnese“ („Nachbefragung“).
Insbesondere soll die Selbsteinschätzung der Gesundheit bei Reha-Ende und bei der
Nachbefragung als Prognose des Reha-Erfolgs der Interventionsmethode durch die Selbsteinschätzung
bei Reha-Beginn vorhergesagt werden können.
Verschiedene Mechanismen, die fehlende Werte bedingen
Verschiedene Mechanismen, die fehlende Werte bedingen
Das Wissen über die verschiedenen Mechanismen, welche fehlende Werte bedingen, kurz
Missing-Mechanismen, ist eine wichtige Voraussetzung für den korrekten Umgang mit
fehlenden Werten.
Generell wird zwischen 3 Mechanismen fehlender Werte unterschieden [6]: Missing Completely at Random (MCAR), Missing at Random (MAR) und Missing not at
Random (MNAR)[1]. Da diese 3 Mechanismen bereits in dieser Reihe definiert wurden [4], werden sie hier nur verkürzt im Rahmen des IRES-3-Beispiels vorgestellt.
MCAR:
Im Falle, dass zufällig Daten von Patienten bei Reha-Beginn fehlen und das Fehlen
durch keine weitere Variable (wie beispielsweise Geschlecht, Experimental- vs. Kontrollgruppe
usw.) vorhergesagt werden kann, liegt ein Fall von MCAR vor. Die Personen mit fehlenden
Werten im Datensatz stellen hier eine Zufallsstichprobe der Gesamtstichprobe dar.
MAR:
Angenommen, bei Reha-Ende fehlen ebenfalls Daten. Das Fehlen lässt sich jedoch durch
die miterhobene Variable „Alter“ vorhersagen. Ältere Patienten scheinen öfter mal
nicht zu dem Termin Reha-Ende zu erscheinen und können den Fragebogen deshalb nicht
ausfüllen. Wird diese erhobene Variable Alter statistisch kontrolliert, ist das Auftreten
der fehlenden Werte allerdings wieder zufällig. Hier hätte man einen Fall von MAR.
MNAR:
Im Beispielfall fehlen auch zu dem Zeitpunkt der Nachbefragung Daten. Auf den ersten
Blick scheint das Fehlen der Werte zufällig vorzuliegen. Leider verhält es sich tatsächlich
aber so, dass die unglücklicherweise nicht miterhobene Variable „Rentenantragsverfahren“
das Fehlen gut erklären würde. Personen, die einen Antrag auf Frühberentung aktuell
eingereicht haben, ziehen es vor, den Termin bei der 6-Monats-Katamnese ausfallen
zu lassen und keine Angaben zur Selbsteinschätzung der Gesundheit zu machen. In diesem
ungünstigen Fall liegt MNAR vor. Das Auftreten des Fehlens ist also abhängig von nicht
beobachteten Daten, was leicht zu einem übersehenen Bias in den Studienergebnissen
führen kann.
Wie bereits in dieser Reihe aufgezeigt, dürfen nur bei MCAR, dem vollständig zufälligen
Fehlen, gängige Verfahren wie „Ersetzung durch den Mittelwert“, „paarweiser“ und „fallweiser
Ausschluss“ angewendet werden, ohne dass mit Gewissheit eine substanzielle Verzerrung
der Analyseergebnisse befürchtet werden muss [4]. Es kann also nur mit unverzerrten Ergebnissen gerechnet werden, wenn MCAR gilt
und es relativ wenige Missings gibt (dabei ist die Angabe „relativ wenig“ sehr vage,
was auch den Angaben in der Literatur entspricht – je nach Quelle werden als „wenig“
bis zu 5–30% Missings benannt [4]
[7]
[8]).
Diese zwar korrekte Feststellung führt allerdings zu 2 Schwierigkeiten. Erstens stellt sich die Frage, wie die MCAR-Annahme
überprüft werden kann. Zweitens kommt es zu einer Überbewertung der Begehrenswertigkeit
von MCAR, die viele Anwender in die Irre führt [7]. Denn eine Überprüfung, ob MCAR vorliegt, ist nicht durchführbar, ebenso wenig wie
MAR oder MNAR prüfbar sind [4]
[7]
[9]. Einzig und allein prüfbar ist, ob MCAR nicht vorliegt – sodass in diesem Fall dann MAR oder MNAR vorliegen.
Erste Schwierigkeit: Prüfen, ob die MCAR-Annahme verletzt ist
Wie kann man aber untersuchen, ob die MCAR-Annahme verletzt ist? In dem obigen Beispiel
mit den fehlenden Daten bei Reha-Ende liegt die Vermutung nahe, dass die MCAR-Annahme
verletzt ist – die Mittelwerte (in den verschiedenen Variablen) und die Kovarianz-Varianz-Matrix
in den 2 Gruppen, nämlich der Gruppe ohne Angaben der Selbsteinschätzung der Gesundheit
und derjenigen mit solchen Angaben, werden sich sehr wahrscheinlich unterscheiden.
Ob die MCAR-Annahme verletzt ist, lässt sich z. B. mit dem MCAR-Test von Little [4]
[10] untersuchen. Dieser Test bildet Subgruppen anhand des Musters der fehlenden Werte
(hat man z. B. nur 2 Variablen, bspw. die Selbsteinschätzung des Gesundheitszustandes
zum Zeitpunkt Reha-Beginn und Reha-Ende, so kann es 4 verschiedene Missing-Muster
geben: Fehlen in beiden Variablen, Fehlen nur im Zeitpunkt Reha-Beginn, Fehlen nur
im Zeitpunkt Reha-Ende, kein Fehlen). Diese Subgruppen werden über die übrigen Variablen
hinweg mit einem Omnibus-Test untersucht. Wird dieser signifikant, so gibt es mindestens
2 Subgruppen, die sich bedeutend unterscheiden. Im obigen Beispiel mit den fehlenden
Daten bei Reha-Ende würde sich zeigen, dass sich die Variable Alter zwischen den Subgruppen
signifikant unterscheidet – nämlich zwischen der Subgruppe Fehlen nur im Zeitpunkt
Reha-Ende und allen anderen Subgruppen.
Diese Art von Test ist zwar für eine erste Überprüfung gut geeignet (z. B. schnell
ausführbar mit dem Missing-Data-Diagnosemodul von SPSS [11]), jedoch ist aus dem Ergebnis des Tests nicht ersichtlich, in welchen erhobenen
Variablen sich die Subgruppen unterscheiden. Aus diesem Grund werden mehrere unabhängige
univariate t-Tests empfohlen [10], die ebenfalls mit dem oben genannten Modul von SPSS durchgeführt werden können.
So lassen sich unter Umständen die Variablen identifizieren, die das Fehlen beeinflussen
(im obigen Beispiel wäre es die Variable Alter). Ein Nachteil der t-Tests ist, dass
die Gruppengrößen evtl. zu gering ausfallen könnten, sodass ein Testen nicht möglich
ist.[2] Eine weitere gute Methode, allgemein Verteilungsunterschiede zu testen, ist der
Kolmogorov-Smirnov-Test, welcher die Nichtübereinstimmung von 2 Verteilungen überprüft,
in der Regel die zu untersuchende Verteilung im Vergleich zur Normalverteilung [7].
Zweite Schwierigkeit: Begehrenswertigkeit von MCAR
Wie bereits dargestellt, sind viele gängige Missing-Data-Verfahren nur bei der Vorlage
einer MCAR-Situation anwendbar. Was aber tun, wenn kein MCAR vorliegt? MAR-Situationen
liegen in der Regel häufiger vor als MCAR-Situationen. Über die Definition der Mechanismen
wird im Folgenden ein Lösungsansatz erläutert.
In dem Beispiel, in dem Daten zu Reha-Beginn fehlen, lag eine Zufallsstichprobe der
eigentlichen zu erhebenden Stichprobe vor, bei der die nicht ausgewählten Fälle von
den beobachteten als auch unbeobachteten Daten unabhängig sind.[3] In Missing Data-Verfahren, die mit MCAR umgehen können, wird folglich von der zufälligen
unverzerrten Substichprobe auf die eigentliche Stichprobe geschätzt, um in folgenden
Analysen auf die Population schätzen zu können.
Wäre aber die Struktur der Substichprobe so, dass diejenigen Fälle, die nicht in der
Substichprobe ausgewählt wurden, durch bestimmte Merkmale der Substichprobe (wie bspw.
das Alter) vorhergesagt werden können, dann hat man einen allgemeineren Fall als im
vorherigen Beispiel, nämlich MAR. Da MAR einen allgemeineren Fall darstellt als MCAR,
sind Missing-Data-Verfahren wünschenswert, die mit MAR-Situationen adäquat umgehen
können. Denn selbst wenn ein bestimmter Fall von MAR, nämlich MCAR, vorliegen sollte,
können solche Verfahren angewendet werden. Diese Überlegungen zu dem Wesen der Mechanismen
nach Raykov [7] sind bildlich in [Abb. 1] dargestellt.
Abb. 1 Darstellung von MCAR und MAR in Anlehnung an Raykov [7].
Somit ist der Vergleich von MCAR- und MAR-Verfahren im übertragenen Sinne ähnlich
dem Vergleich von einer einfachen Varianzanalyse und einer Kovarianzanalyse, bei der
der Einfluss möglicher Störfaktoren kontrollierbar ist. Demnach ist MCAR also nichts
anderes als ein Spezialfall von MAR [7], und die „Jagd“ nach MCAR, um MCAR-taugliche Verfahren anwenden zu können, ist nicht
notwendig. Da weder MCAR noch MAR testbar sind, der Forscher diese also nie unterscheiden
kann und zudem MCAR nur ein Sonderfall von MAR ist, sollte besser immer sofort auf
MAR-taugliche Missing-Data-Verfahren zurückgegriffen werden.
Bei MNAR ist die Situation komplizierter – das Fehlen der Werte hängt von den Ausprägungen
einer oder mehrerer Variablen ab, die nicht verfügbar sind. Dies birgt zum einen die
Gefahr, dass von MCAR ausgegangen wird, obwohl dies nicht der Fall ist. Zum anderen
ist erst einmal keine statistische Kontrolle möglich. Das heißt aber nicht, dass hier
eine Analyse der Daten unmöglich ist. Eine gute Möglichkeit für diesen Fall ist es,
die Situation in eine bekannte zu überführen, indem alle weiteren Variablen des Datensatzes
mit eingeschlossen werden. Diese Variablen, welche ursprünglich nicht in die Datenanalyse
einbezogen werden sollten, aber miterhoben wurden und mit denjenigen Variablen korrelieren,
in denen fehlende Werte vorhanden sind, heißen „auxiliary“-Variablen. An dieser Stelle
sei an die übertragene Ähnlichkeit mit der Kovarianzanalyse mit deren Einschluss von
möglichen Kovariaten erinnert. Somit würde sich die Wahrscheinlichkeit für eine MAR-Situation
steigern.[4] Wenn in dem obigen MAR-Beispiel mit den fehlenden Daten zum Zeitpunkt Reha-Ende
die Variable Alter nicht miterhoben worden wäre, würde eine MNAR-Situation vorliegen.
Glücklicherweise wurde diese „auxiliary“-Variable jedoch miterhoben, weshalb eine
MAR-Situation vorliegt.
Für Längsschnittdaten mit MNAR (bzw. wenn die Umstände auch aus theoretischen Gesichtspunkten
sehr deutlich für MNAR sprechen) gibt es verschiedene Analyseverfahren [9]
[10]
[13]
[14]
[15], die jedoch über den Rahmen dieses Überblickstextes hinausgehen würden.
Im obigen Abschnitt wurden solche Missing-Data-Verfahren als wünschenswert bezeichnet,
die adäquat mit MAR-Situationen umgehen können. Doch welche sind diese? Im Folgenden
wird ein kurzer Überblick gegeben.
Moderne Verfahren, die MAR-Situationen meistern können
Moderne Verfahren, die MAR-Situationen meistern können
Im Folgenden werden die beiden Missing-Data-Verfahren Maximum-Likelihood und Multiple
Imputation vorgestellt und verglichen. In [Tab. 1] werden die gängigsten [4] sowie die neu vorgestellten Verfahren anhand der Anwendbarkeit verglichen.
Tab. 1 Verschiedene Missing-Data-Verfahren im Vergleich.
|
Kann mit MAR-Situation umgehen
|
Verkleinerung der Stichprobe
|
In weiteren Analysen werden ersetzte Werte wie beobachtete Werte behandelt
|
Es kann die gleiche statistische Analyse berechnet werden, wie wenn keine Werte fehlen
würden
|
Bietet SEs der Parameter zur Darstellung der Unsicherheit durch fehlende Werte
|
1 Wenn die Stichprobe noch groß genug ist, z. B. (falls berechnet) pro Zelle die Fälle
ausreichen für die gewünschte Analyse
|
2 Es kann passieren, dass pro Zelle sehr unterschiedliche Stichproben übrig bleiben,
was weitere Analysen verhindern kann
|
3 Wenn die Stichprobe noch groß genug ist bzw. falls berechnet die Kovarianz-Varianz-Matrix
noch positiv semi-definit ist
|
4 Hier findet keine Ersetzung statt
|
Wünschenswerte Eigenschaften sind fett hervorgehoben
|
Fallweiser Ausschluss (Listwise Deletion)
|
nein
|
ja
|
nein
|
ja
1
|
nein
|
Paarweiser Ausschluss (Pairwise Deletion)
|
nein
|
ja2
|
nein
|
ja
3
|
nein
|
Last Observation Carried Forward (LOCF)
|
nein
|
nein
|
ja
|
ja
|
nein
|
Ersetzung durch Mittelwert
|
nein
|
nein
|
ja
|
ja
|
nein
|
Hot Deck
|
nein
|
nein
|
ja
|
ja
|
nein
|
Ersetzung durch Regression
|
nein
|
nein
|
ja
|
ja
|
nein
|
Ersetzung durch Regression mit Zufallsfehler
|
nein
|
nein
|
ja
|
ja
|
nein
|
Dummy-Codierung
|
nein
|
nein
|
nein 4
|
nein
|
nein
|
Imputation nach EM
|
nein
|
nein
|
ja
|
ja
|
nein
|
Full Information Maximum Likelihood (FIML)
|
ja
|
nein
|
nein
4
|
ja
|
ja
|
Multiple Imputation (MI)
|
ja
|
nein
|
nein
|
ja
|
ja
|
Maximum-Likelihood (und Expectation-Maximization)
Bei den Maximum-Likelihood-basierten Verfahren (ML-Verfahren) findet in der Regel
keine Ersetzung der fehlenden Werte statt – hier werden diejenigen schätzbaren Parameter ausgesucht, welche die Likelihoodfunktion
maximieren (d. h. derjenige Parameter wird als Schätzung gewählt, gemäß dessen Verteilung
die beobachteten Daten am plausibelsten erscheinen). Diese Parameter bedingen sich
durch die Analyse, die den Forschenden interessiert. Im IRES-3-Beispiel wäre eine
Vorhersage bzw. eine Regression der Selbsteinschätzung der Gesundheit vom Zeitpunkt
Reha-Ende auf den Zeitpunkt Reha-Beginn von Interesse. So wären die zu schätzenden
Parameter in diesem Beispiel das Regressionsgewicht und die Varianzaufklärung.
Ein großer Vorteil des ML-Verfahrens (im Strukturgleichungsmodell-Kontext auch als
Full Information Maximum Likelihood – FIML bekannt [16]) ist, dass gleichzeitig Standardfehler für die geschätzten Parameter angegeben werden
– der Anwender kann so die Unsicherheit, die durch die fehlenden Werte entstanden
ist, beschreiben und bewerten. Da FIML häufig automatisch im Zusammenhang mit Strukturgleichungsmodellen
verwendet wird (vielen Anwendern von diversen Strukturgleichungsmodell-Programmen
ist dies im Detail nicht bewusst), muss meist auch keine Anpassung des zu prüfenden
Modells aufgrund der fehlenden Werte erfolgen.
Das Expectation-Maximization-Verfahren (EM-Verfahren) baut auf dem zuvor beschriebenen
ML-Verfahren auf, mit dem Unterschied, dass hier als Resultat eine Ersetzung für die
einzelnen fehlenden Werte erfolgt, und sollte auf keinen Fall mit FIML verwechselt werden.[5] Im Gegensatz zum Maximum-Likelihood-Verfahren oder zur Multiplen Imputation ist
das EM-Verfahren kein eigenständiges Verfahren zum Umgang mit MAR-Situationen, sondern
ein „Hilfstool“ für weitere Analysen. Als alleiniges Missing-Data-Verfahren für hypothesentestende
Fragestellungen ist – obwohl häufig empfohlen – der EM-Algorithmus als einfaches Imputationsverfahren
nicht zu empfehlen, nicht zuletzt deshalb nicht, weil manche Programme wie bspw. SPSS
es versäumen, bei der Imputation eine Zufallskomponente hinzuzuaddieren [17].
Multiple Imputation
Die Grundidee hier besteht darin, statt nur einer (wie bei den klassischen Verfahren
zuvor) mehrere Imputationen bzw. Ersetzungen zu berechnen. Dabei unterscheiden sich die Resultate der einzelnen Imputationen (u. a.
auch durch Hinzuaddieren eines Zufallsfaktors)[6] und somit die Resultate der mit diesen Datensätzen durchgeführten Analysen.
Der grundlegende Unterschied dieser Art der Imputation im Vergleich zu den einfachen
Imputationsverfahren wie bspw. Mittelwertersetzung ist, dass nicht Daten „erfunden“
und als tatsächliche Werte in weiteren Analysen verwendet werden. Genau genommen interessieren
die einzelnen ersetzten Datensätze nicht, sondern nur der Schätzer der Stichprobenkennwerte
bzw. Parameter (wie das Regressionsgewicht und die Varianzaufklärung im vorherigen
Beispiel), welche für die den Anwender interessierenden Analyseverfahren relevant
sind. Dem Anwender wird deutlich, dass die Ersetzung mit einer Unsicherheit behaftet
ist, und diese Unsicherheit wird über die Variabilität der Ergebnisse ausgedrückt
– nicht die Variabilität der ersetzten Werte, sondern die Variabilität der Parameter,
welche für den Forscher und dessen Fragestellung interessant sind. Die Variabilität
kommt dadurch zustande, dass pro vervollständigtem Datensatz die Parameter berechnet
werden und so eine Parameterverteilung erfolgt, mit dem gemittelten Parameterwert
als finalem Schätzer. Im Beispiel der Berechnung des Regressionsgewichts werden aus
den einzelnen vervollständigten Datensätzen je Datensatz ein Regressionsgewicht berechnet,
und über die verschiedenen ermittelten Regressionsgewichte hinweg wird ein finales
Regressionsgewicht gemittelt.
Die Frage, die sich nun mit mehreren Ersetzungen stellt, ist, wie viele Imputationen
notwendig sind, damit die Schätzung von Parametern qualitativ brauchbar ist. Man kann
bei all diesen Schätzungen davon ausgehen, dass diese erwartungstreu sind. Die Schätzung
liegt in der Tendenz also richtig und über- oder unterschätzt den wahren Parameterwert
nicht systematisch. Auch ist es naheliegend, dass mit steigender Anzahl der Imputationen
die Qualität der Schätzung steigt – je mehr Imputationen, desto weniger schwankt der
Schätzer um den richtigen Erwartungswert (bei unendlich vielen Imputationen hätte
man den wirksamsten Schätzer). Diese Gütequalität von Schätzstatistiken, die Effizienz
oder Wirksamkeit, wurde von Rubin [18] hinsichtlich der notwendigen Anzahl an Imputationen überprüft – so konnte gezeigt
werden, dass bei 50% fehlender Information[7] nur 5 Imputationen ausreichen, um eine relative Effizienz von 95% zu erhalten (in
Standardfehler-Einheiten, im Vergleich zu einem Schätzer, der durch unendlich viele
Imputationen erhalten wird). Das heißt, man braucht theoretisch nur eine erstaunlich
geringe Anzahl an Imputationen, um einen Schätzer zu erhalten, der eine Wirksamkeit,
erhalten durch unendlich viele Imputationen, approximiert. Unglücklicherweise hat
sich diese Erkenntnis als Daumenregel, dass 5 Imputationen im Allgemeinen ausreichend
seien, etabliert. Graham et al. [19] z. B. konnten zeigen, dass das Befolgen dieser vagen Richtlinien durchaus zu Verzerrungen
führen kann und eher eine Anzahl von Imputationen im Größenraum von 20 bis 100 angemessen
ist. Dank der heutigen Rechnergeschwindigkeiten dürften diese Zusatzersetzungen allerdings
kein Problem darstellen. Für eine konkrete Empfehlung, wie viele Imputationen bei
welchen Voraussetzungen notwendig sind, ist weitere Forschung nötig.
Maximum-Likelihood und Multiple Imputation im Vergleich
Maximum-Likelihood und Multiple Imputation im Vergleich
Collins et al. [12] konnten zeigen, dass Maximum-Likelihood und Multiple Imputation ähnliche Parameterschätzer
und Standardfehler liefern, wenn die Anzahl an durchgeführten Imputationen bei der
Multiplen Imputation nicht zu klein ist. Im Gegensatz dazu zeigte sich, dass, wenn
„auxiliary“-Variablen eingebunden werden, sich die Ergebnisse durchaus unterscheiden
können (unterschiedliche Parameterschätzer und Standardfehler). In der Literatur zu
fehlenden Werten bildet sich leicht der Eindruck, dass die Wahl zwischen Maximum-Likelihood
und Multiple Imputation „Geschmackssache“ ist. Allerdings sind gewisse Vor- und Nachteile
zwischen beiden Verfahren in Betracht zu ziehen [10].
So ist bspw. die Einbindung von „auxiliary“-Variablen sehr einfach umzusetzen bei
der Multiplen Imputation, also die Einbindung von Variablen, die sehr wahrscheinlich
das Missing-Modell erklären bzw. das Fehlen modellieren. Dies gestaltet sich viel
schwieriger bei dem Maximum-Likelihood-Verfahren. Zwar gibt es hier bereits Vorschläge,
wie man solche Variablen einbinden könnte [20]
[21]; das Einbinden von größeren Mengen an solchen Variablen gestaltet sich allerdings
immer noch als sehr schwierig. Da dieses Einbinden aber die Vorhersagekraft ungemein
verbessert [12], nicht zuletzt weil es die Wahrscheinlichkeit für eine MNAR-Situation verringert
und die für eine MAR-Situation erhöht, stellt sich die Multiple Imputation in diesem
Aspekt als vorteilhafter dar.
Ein weiterer Aspekt, der für die Multiple Imputation spricht, ist der Umgang mit fehlenden
Werten nicht nur in der bzw. den abhängigen, sondern auch in den unabhängigen Variablen.
Bei der Multiplen Imputation werden abhängige und unabhängige Variablen während der
Imputationsphase vollkommen gleich behandelt, und so entsteht keine Verzerrung während
der Imputation durch die Rolle der Variable, in der das Fehlen auftritt. Bei dem Maximum-Likelihood-Verfahren
hingegen wird die Missing-Schätzung in die Modellschätzung integriert, wodurch die
Rolle der Variablen, in der Fehlen auftritt, durchaus einen Einfluss haben können.
Da in der Rehabilitationsforschung in den wenigsten Fällen nur die fehlenden Werte
in der abhängigen Variablen, geschweige denn in nur einer Variablen vorliegen, wird
die Verwendung der Multiplen Imputation empfohlen.
In Fällen, in denen der Forscher ein Strukturgleichungsmodell (SEM) berechnet, mag
das Maximum-Likelihood-Verfahren allerdings von Vorteil sein, nicht zuletzt, da es
in jeder entsprechenden SEM-Software integriert ist. Einen weiteren Vorteil des Maximum-Likelihood-Verfahrens
bietet der einfache Umgang bei der Schätzung von Interaktionen, der sich bei der Multiplen
Imputation schwieriger gestaltet – diese Schwierigkeit kann allerdings mit ein wenig
Aufwand überwunden werden [22], auf dessen detaillierte Darstellung in diesem Rahmen nicht eingegangen wird.
Fazit mit konkreten Handlungsempfehlungen in den verschiedenen Forschungsphasen
Fazit mit konkreten Handlungsempfehlungen in den verschiedenen Forschungsphasen
Wie sollte der Forscher also mit fehlenden Werten umgehen? Im Folgenden werden auf
der Grundlage der bisherigen Darstellung konkrete Handlungsempfehlungen für die Planungs-
und Auswertungsphase sowie für die Ergebnisdarstellung gegeben.
Planungsphase
Die beste und einfachste Art, mit fehlenden Werten umzugehen, ist, wie Allison [20]
[21] betont, keine vorliegen zu haben. Gerade in der Planungsphase einer Studie lassen
sich viele potenzielle Hürden, die später in der Auswertungsphase zu fehlenden Werten
führen können, vermeiden, wie bspw. die überlegte Wahl des Erhebungszeitraums oder
die Wahl und Anzahl der zu erhebenden Variablen. Einen ausführlichen Überblick hierzu
findet man u. a. bei McKnight et al. [23]. Der Forscher sollte sich folgender „Quellen“ fehlender Werte konkret im Klaren
sein:
-
Ist das Studiendesign so ausgelegt, dass es besonders anfällig für fehlende Werte
ist? Mögliche Einflussfaktoren hierfür wären:
-
– die Datenerhebungsmethode und Operationalisierung: Bereits bei der Operationalisierung sollte überlegt werden, ob für das geplante Vorhaben
die gewählte Erhebungsmethode auch wenig anfällig für fehlende Daten ist. Wird bspw.
die Zielvariable durch Selbstbeobachtung erhoben, so sollten mögliche Diskontinuitäten
(z. B. in täglichen Tagebucheinträgen) durch mangelnde Teilnehmenden-Motivation antizipiert
werden. Bei Fragebogen-Erhebungen sind zu lange Bogen zu vermeiden. Hier gilt es abzuschätzen
und bestenfalls vorher zu testen, wie viel Zeit eine Versuchsperson motiviert in das
Ausfüllen investiert. Prinzipiell ist es ratsam, vor der Studie eine Pilotphase einzuplanen, um mögliche Gefahrenquellen zu eliminieren.
-
– die Anzahl der Messzeitpunkte: Je mehr und weiter auseinander liegende Messzeitpunkte, desto größer ist die Anfälligkeit
für fehlende Werte. Zum Beispiel ist von vielen Messzeitpunkten über mehrere Jahre
hinweg bei älteren Personen oder bei Personen mit möglicherweise tödlich verlaufenden
Krankheiten abzusehen.
-
– Attrition vermeiden: Man sollte sich z. B. von den Versuchspersonen Alternativadressen angeben lassen,
auch zwischen den Erhebungszeitpunkten Kontakt halten und ein einheitliches Studien-Logo
bei jeder externen Kommunikation für die einfache Wiedererkennung pflegen.
-
– die Wahl des Zeitpunktes der Datenerhebung: Günstige Zeitpunkte für die Versuchspersonen sollten antizipiert werden.
-
– die Anzahl der Variablen: Je mehr Variablen, desto höher ist die Gefahr, dass fehlende Werte auftreten.
-
– das Wissen über die andere Gruppe, z. B. Interventions- oder Kontrollgruppe: Hier empfiehlt es sich, die Gruppen so gut wie möglich auch räumlich zu trennen,
sodass kein Austausch zwischen den Gruppen stattfinden und Demoralisierung und Empörung
bei der „benachteiligten“ Gruppe entstehen kann.
-
Ist die Stichprobe bzw. die zugrunde liegende Population besonders anfällig für fehlende
Werte? Mögliche Einflussfaktoren hierfür wären:
-
– Vor der Studie Screeningverfahren anwenden, um herauszufinden, welche Personengruppen besonders anfällig für fehlende Werte
sind.
-
– Formulierung (Phrasing) und Wahrnehmung des Versuchsthemas: Wie könnte man das Thema so benennen und beschreiben, dass es für die Versuchspersonen
interessant, verständlich und annehmbar wahrgenommen wird? Wie kann man einen Fragebogen
so unmissverständlich und übersichtlich für die zu erhebende Zielgruppe gestalten,
dass das Übersehen von Fragen vermieden werden kann?
-
– Genügend Personen einplanen: Zusätzlich weitere 15–25% der im Design benötigten Versuchspersonen erheben [23]. Dieses Vorgehen schützt zwar nicht direkt vor dem Auftreten von fehlenden Werten
und einen dadurch möglichen Bias oder einer Nicht-MCAR-Situation in den (vorhandenen)
Daten, jedoch vor zu geringer Teststärke.
-
Ist die Dateneingabemethode anfällig für fehlende Werte? Liegen bspw. die Daten in einem für die Auswertung ungünstigen Medium vor und müssen
in ein anderes Medium konvertiert werden, wie etwa das repetitive und ermüdende Abtippen
von Papierfragebogen in ein Auswertungsprogramm oder in eine Tabelle? Hier empfiehlt
es sich, ein Monitoring-System einzuführen und z. B. zufällig gezogene Fälle oder
jeden x-ten Fall zu überprüfen, um fehlende Werte durch Nichteingabe oder Fehleingabe
auszuschließen.
Auswertungsphase
Liegt nun die Datenerhebung bereits vor, sollte der Datensatz von z. B. unmöglichen Daten und Fehlern „bereinigt“ (bspw. Alter der Patienten von 300 usw. – hier empfehlt es sich, die vorliegenden
mit den Rohdaten wie etwa den Papierfragebogen zu vergleichen) und deskriptiv analysiert
werden – für eine detaillierte Anleitung siehe auch Hair et al. [8]. Für die einfache deskriptive Auswertung eignet sich z. B. das Statistikprogramm
SPSS. So können Besonderheiten des Datensatzes früh festgestellt und erste Hinweise
zu dem vorliegenden Mechanismus gefunden werden.[8]
Die Menge an fehlenden Werten sollte klar bestimmt werden. Hair et al. [8] empfehlen, dass das Fehlen von unter 10% pro Fall oder Beobachtung ignoriert werden
kann, wenn MCAR vorliegt und wenn die übrig bleibende Anzahl an Fällen bzw. Beobachtungen
auch ohne Imputation eine ausreichende Fallzahl für die zu berechnende Analyse ist.
Weiterhin muss sich der Forscher darüber im Klaren sein, welche Art von Missing-Mechanismus sehr wahrscheinlich vorliegt. Entsprechende Analysen (MCAR-Test von Little, unabhängige t-Tests, Kolmogorov-Smirnov-Test)
z. B. mit dem Missing-Data-Diagnosemodul von SPSS sind zu empfehlen, wenn die Fallzahlen
es erlauben. Selbst wenn die Mechanismen nicht testbar sind, geben die Analysen dem
Forscher ein besseres „Gefühl“ für die vorliegenden Daten und evtl. die Gewissheit,
dass kein MCAR vorliegt. Darüber hinaus ergibt dieses Vorgehen die Möglichkeit, Variablen zu identifizieren, die das Fehlen beeinflussen. Diese können bei der Durchführung der eigentlichen Analysen als weitere Vorhersagevariablen,
also „auxiliary“-Variablen genutzt werden.
Auf den Einsatz von klassischen und einfachen Imputationsverfahren wie bspw. fall-
und paarweiser Ausschluss oder Mittelwertersetzung sollte prinzipiell verzichtet werden, da es sehr wahrscheinlich ist, dass der Forscher nicht mit einer MCAR-Situation,
sondern mit einer MAR-Situation konfrontiert wird, da MCAR (gerade in rehabilitationswissenschaftlichen
Studien) als natürliches Sample selten vorkommt [4]. Stattdessen sollte von Vornherein auf MAR-taugliche Verfahren zurückgegriffen werden. Die Wahl, ob FIML oder Multiple Imputation ausgesucht wird, hängt von der geplanten
Analyse ab. Gerade bei der Verwendung von Strukturgleichungsmodellen bietet sich FIML
an, da diese Umgangsmöglichkeit bereits in den meisten entsprechenden Programmen eingebunden
ist (z. B. bei AMOS oder Mplus) [24]. Bei allen weiteren Analysen wird die Multiple Imputation empfohlen, ausführbar
u. a. mit den Programmen NORM (frei verfügbar unter http://sites.stat.psu.edu/~jls/misoftwa.html,
Schafer [25]), SAS oder mit R (mit den packages mice oder AMELIA [24]
[26]).
Es sollte prinzipiell eine einschließende Strategie bezüglich weiteren erhobenen (auxiliary-)Variablen verfolgt werden, da deren Hinzunahme
das Potenzial hat, die Vorhersagekraft zu verbessern und mögliche Verzerrungen in
den Daten abzuschwächen [12].
Die Auswahl der Analysemethode zur Datenauswertung sollte im Sinne guter methodischer Planung von dem Missing-Data-Verfahren unbeeinflusst bleiben. Die einzige Veränderung am Auswertungsdesign wäre nur eine Hinzunahme von „auxiliary“-Variablen,
ohne jedoch das intendierte Grunddesign abzuändern.
Ergebnisdarstellung
Alle Verfahren, die aufgrund von fehlenden Daten eingesetzt wurden, müssen in der
Ergebnisdarstellung berichtet werden. Dem Leser sollte ersichtlich sein, in welcher Form fehlende Daten vorlagen, wie
trotz oder mit fehlenden Daten die Analyse berechnet wurde und inwiefern die fehlenden
Daten die Aussagekraft der Analyseergebnisse einschränken. Ein kleiner Selbstversuch,
indem man die Analyse ohne jegliche Handhabung bezüglich Missing Data (sofern möglich)
oder mit wenig passenden Methoden im Gegensatz zum korrektem Umgang durchführt (z. B.
Multiple Imputation oder FIML), kann beim Ergebnisvergleich zu einiger Überraschung
führen und die Gefahr, die ein Ignorieren von fehlenden Werten mit sich trägt, vor
Augen führen. Transparenz bei diesem Thema ist der erste und wichtigste Schritt im
korrekten und verantwortungsvollen Umgang mit fehlenden Werten.
In der Forschungspraxis sollte in jeglicher Forschungsphase reflektiert werden, wie
fehlende Werte vermieden werden können bzw. wie adäquat mit diesen umgegangen werden
muss. Es sollten Maßnahmen unternommen werden, welche die – das Fehlen bedingenden
– Missing-Mechanismen ermitteln oder zumindest eingrenzen können. Prinzipiell sollte
auf Missing-Data-Verfahren zurückgegriffen werden, welche auch bei „eingeschränkt
zufälligem“ Fehlen (MAR) unverzerrte Analyseergebnisse liefern. Darüber hinaus sollte,
wenn möglich, die Unsicherheit der Analyseergebnisse durch fehlende Werte überprüft
und berichtet werden.