Gesundheitswesen 2020; 82(03): 221-223
DOI: 10.1055/a-1127-4976
Editorial
© Georg Thieme Verlag KG Stuttgart · New York

Sonderheft Methodische Aspekte der Sekundärdatenanalyse (II)

Datenlinkage und spezifische Methoden der Sekundärdatenanalyse
Enno Swart
1  Institut für Sozialmedizin und Gesundheitssystemforschung, Medizinische Fakultät, Otto-von-Guericke-Universität Magdeburg
,
Holger Gothe
2  IGES Institut, Berlin
3  Medizinische Fakultät, Lehrstuhl Gesundheitswissenschaften/Public Health, TU Dresden, Dresden
4  Department für Public Health, Versorgungsforschung und Health Technology Assessment, UMIT, Hall in Tirol, Austria
,
Peter Ihle
5  PMV forschungsgruppe, Universität zu Köln
,
Stefanie March
1  Institut für Sozialmedizin und Gesundheitssystemforschung, Medizinische Fakultät, Otto-von-Guericke-Universität Magdeburg
,
Ingrid Schubert
5  PMV forschungsgruppe, Universität zu Köln
,
Christoph Stallmann
1  Institut für Sozialmedizin und Gesundheitssystemforschung, Medizinische Fakultät, Otto-von-Guericke-Universität Magdeburg
,
Falk Hoffmann
6  Department für Versorgungsforschung, Fakultät Medizin und Gesundheitswissenschaften, Carl von Ossietzky Universität Oldenburg
› Author Affiliations
Further Information

Korrespondenzadresse

PD Dr. rer. biol. hum. Enno Swart
Medizinische Fakultät
Institut für Sozialmedizin und Gesundheitssystemforschung (ISMG)
Otto-von-Guericke-Universität Magdeburg
Leipziger Straße 44
39120 Magdeburg

Publication History

Publication Date:
02 April 2020 (online)

 

Mit dem vorliegenden zweiten Sonderheft zu Datenlinkage und spezifischen Methoden der Sekundärdatenanalyse ergänzen wir die neun Beiträge, die im vorangegangenen Sonderheft methodische Herausforderungen bei der Aufbereitung und Validierung verschiedener Sekundärdatenquellen thematisiert haben. Ein besonderes Augenmerk liegt auf dem individuellen Datenlinkage verschiedener Sekundärdatenquellen untereinander und/oder mit Primärdaten. Dieser methodische Zugang hat nicht erst seit der Bestandsaufnahme zum Datenlinkage in Deutschland [1] und der Veröffentlichung der Guten Praxis Datenlinkage [2] zunehmende Relevanz in der Epidemiologie und Versorgungsforschung erhalten. Daneben werden in diesem Heft aktuelle Ansätze zur Datenvalidierung, zur Kontrollbildung und zur Aufbereitung und Nutzung von Klartextangaben vorgestellt.


#

Die Validierung von Diagnoseangaben stellt eine permanente Herausforderung bei der wissenschaftlichen Nutzung der Abrechnungsdaten der gesetzlichen Krankenversicherung (GKV) dar. Die zur Validierung geeigneten Ansätze variieren nach dem Krankheitsbild und der Verfügbarkeit einer weiteren Datenquelle zur externen Validierung in Ergänzung interner Validierungsalgorithmen. Der von Behrendt et al. vorgestellte Ansatz beschreibt für Patienten mit peripherer arterieller Verschlusskrankheit eine externe Validierung unter Nutzung von Daten eines klinischen Krankheitsregisters (German VascRegister). Dabei wird keine individuelle Verlinkung (als selten erreichbarer Goldstandard) vorgenommen, sondern es werden die Ergebnisse separater multivariater Modellierungen in beiden Datenquellen verglichen, ebenso deskriptive Beschreibungen von Subgruppen. Obwohl sich dieser Ansatz zunächst nur für die beschriebene Patientenpopulation bewährt hat, zeigt er das Potenzial vergleichsweise einfacher Validierungen, an denen sich die Eignung der GKV-Daten für klinisch orientierte Forschungs- und Qualitätssicherungsprozesse evaluieren lässt.

Druschke et al. präsentieren Erfahrungen aus einem Versorgungsforschungsprojekt zu mittel- und langfristigen gesundheitlichen Outcomes bei Frühgeborenen, in dem drei Datenquellen individuell verlinkt wurden: Abrechnungsdaten der GKV, Daten einer schriftlichen Befragung von Eltern bzw. Betreuern dieser Kinder und Daten der Kindergarten- und Schuleingangsuntersuchungen sächsischer Gesundheitsämter. Der Beitrag beschreibt den organisatorischen und rechtlichen Rahmen dieses Projekts und die Validierungsschritte, mit denen Fehler bei der Verlinkung der Datensätze vermieden werden sollen. Die Autorinnen und Autoren leiten zusammenfassend Empfehlungen für zukünftige Verlinkungsstudien ab. Dazu gehören ausreichend zeitliche Ressourcen bei Planung und Durchführung der Datenerschließung und -verlinkung wie im anschließenden Prozess der Datenvalidierung. Dabei sollten auch klinische Experten eingebunden werden. Zu Validierungszwekken sollten in den zu verlinkenden Datenquellen mehr als nur die direkten Schlüsselvariablen vorhanden sein. Schließlich ist für Powerüberlegungen zu berücksichtigen, dass die finale Fallzahl sich durch mangelnde Response bzw. Mismatches deutlich gegenüber der Versichertenzahl in den GKV-Daten verringern kann.

GKV-Routinedaten weisen neben ihren bekannten Potenzialen eine Reihe von Limitationen auf. Diese müssen im Kontext konkreter Forschungsprojekte und klinischer Settings jeweils neu bzgl. der Auswirkung auf die interne und externe Validität bewertet werden. Diese Herausforderungen erläutern Brandl et al. am Beispiel der Schätzung inzidenter Ereignisse (post intensive care syndrom; PICS) bei Patienten nach Behandlung in Intensivstationen. Konkret gehören dazu die Differenzierung zwischen primärem Outcome (PICS) und kompetitivem, aber nicht unabhängigem Outcome (Tod), die Operationalisierung einer komplexen medizinischen Entität wie des PICS über mehrere ICD-Codes und das Fehlen einer exakten Information zum Zeitpunkt des Auftretens des Zielereignisses. Für den Kontext der genannten Studie werden konkrete Lösungsansätze präsentiert. Die Übertragbarkeit auf andere Forschungskontexte muss im Einzelfall neu geprüft werden.

Weitere Limitationen, die die GKV-Abrechnungsdaten aufweisen, sind u. a. das Fehlen klinischer Informationen oder nur begrenzt belastbarer Informationen zum sozioökonomischen Status. Diese Limitationen versuchen epidemiologische Studien durch ein individuelles Datenlinkage zu überwinden. Dieses Linkage kann mit primär erhobenen Forschungsdaten erfolgen oder mit Sekundärdaten anderer Dateneigner. Ansätze zur Überwindung organisatorischer und rechtlicher Herausforderungen beim individuellen Linkage beschreiben Langner et al. am Beispiel der Verlinkung von GKV-Daten mit Informationen aus einem epidemiologischen Krebsregister zur Todesursache im Zusammenhang mit der Evaluation des Mammografie-Screening-Programms. Sie gehen dabei besonders auf die notwendigen Genehmigungsprozesse bei derartigen Linkage-Studien ein und beschreiben mögliche datenschutzkompatible Flow-Charts zwischen Dateneigner und Forschern unter Nutzung einer Vertrauensstelle. Die Autoren betonen die Notwendigkeit, bei derartigen Studien ausreichende zeitliche und finanzielle Mittel für den Datenlinkageprozess bereit zu stellen.

Mit Gothe et al. werfen wir einen Blick über die Landesgrenzen auf ein Datenlinkage-Projekt im Rahmen einer klinischen Studie zur Wirksamkeit eines Post-Stroke-Disease-Managementprogramms in Tirol. In dieser Studie wird über die Verlinkung von Studiendaten mit Abrechnungsdaten der Tiroler Gebietskrankenkasse auf der Basis eines individuellen informed consent ein mittelfristiges Follow-Up über die Akutversorgung hinaus ermöglicht. Erst die Verknüpfung der beiden Datensätze gestattet eine umfassende gesundheitsökonomische Evaluation, wie sie für die Entscheidung über die Implementierung von Versorgungsinnovationen in den Behandlungsalltag erforderlich ist und relevante Erkenntnisse für die Entscheidung über deren Erstattungsfähigkeit im sozialen Sicherungssystem liefern kann. Einzelheiten der Projektplanung und -durchführung werden beschrieben. Das Datenlinkage in Österreich wird dabei durch die Tatsache erleichtert, dass bundeslandbezogen die weit überwiegende Mehrheit der in einem Angestelltenverhältnis erwerbstätigen Einwohner bei der jeweiligen Gebietskrankenkasse (bzw. neuerdings der jeweiligen Landesstelle der Österreichischen Gesundheitskasse) versichert ist. Die Autorengruppe schlussfolgert aus diesem österreichischen Prototyp einer Datenlinkagestudie, in zukünftigen gesundheitsökonomischen Evaluationen verstärkt auf eine individuelle Verknüpfung von Informationen aus verschiedenen Datenquellen zu setzen.

Gewissermaßen in Fortführung des Beitrags von Langer et al. beschreiben Bartholomäus et al. die konkreten Schritte und Algorithmen einer individuellen Zusammenführung von Krebsregister- und GKV-Abrechnungsdaten. Dabei kommen eine separate Verschlüsselung personenidentifizierender Daten und eine parallele stufenweise Anonymisierung der Leistungsdaten zum Einsatz, womit die notwendige Anonymisierungstiefe in den Leistungsdaten erreicht werden soll, etwa durch Vergröberung des Geburts- (in Monat bzw. Quartal) oder Leistungsdatums (z. B. Quartal) oder der Postleitzahl (auf die ersten vier Ziffern verkürzt). In einem Datenaufbereitungszentrum werden über Zuordnungsnummern die Angaben aus verschiedenen Datenquellen individuell verknüpft, damit wird das Problem quasi-identifizierender Merkmale überwunden. Dieses mit der europäischen und deutschen Datenschutzgesetzgebung kompatible Verfahren eignet sich auch für andere Forschungskontexte mit angestrebtem individuellen Datenlinkage.

Beobachtungsstudien haben gegenüber randomisierten klinischen Studien den grundsätzlichen Nachteil, dass eine Strukturgleichheit zwischen zwei oder mehr Studienpopulationen a-priori nicht hergestellt werden kann. Insofern ist der Schluss von beobachteten Unterschieden zwischen den Gruppen auf einen kausalen Effekt, etwa unterschiedlicher Versorgungskonzepte, nicht prinzipiell gerechtfertigt. Jedoch versprechen verschiedene methodische Ansätze des Propensity-Score-Matchings (PSM) nachträglich eine mögliche Kontrolle potenzieller konfundierender Faktoren. Matschinger et al. untersuchen im Kontext einer Interventionsstudie bei chronisch kranken Versicherten zur Evaluation der Wirksamkeit eines individuellen Telefoncoachings zur Erhöhung der Gesundheitskompetenz die Performance verschiedener Verfahren des PSM, bei dem sich das entropy balancing als der Ansatz mit der potenziell geringsten Verzerrung herausstellt.

Abrechnungsdaten der GKV eignen sich potenziell zur Evaluation neuer Versorgungsmodelle wie z. B. der Disease-Management-Programme (DMP). Angesichts der bekannten Selektionsprozesse bei der freiwilligen Einschreibung in derartige Leistungsangebote ist die Generierung einer geeigneten Kontrollgruppe eine entscheidende Voraussetzung für eine belastbare Bewertung der mit dem neuen Versorgungsangebot verbundenen Outcomes. Das PSM hat sich in diesem Zusammenhang breit etabliert. Jacob et al. untersuchen in ihrem Beitrag, wie innerhalb eines PSM-Ansatzes zur Evaluation des DMP Asthma bronchiale potenziellen Kontrollen ein geeignetes virtuelles Einschreibedatum im Vergleich zum bekannten Einschreibedatum der DMP-TeilnehmerInnen zugewiesen werden kann, um eine Parallelität der Follow-Up-Zeiträume zu gewährleisten. In drei Szenarien erweist sich die zufällige Zuweisung eines virtuellen Einschreibedatums innerhalb eines Quartals als beste Lösung. Mit dieser Zuweisung kann dann anschließend das PSM angestoßen werden.

Die meisten Sekundärdaten enthalten primär quantitative und kurze qualitative Inhalte, ergänzt um Datumsinformationen. Gleichwohl existieren auch wissenschaftlich potenziell interessante personen- und fallbezogene Informationen in umfangreicherer Textform, z. B. aus Arztbriefen. Diese Informationen stehen solange de facto nicht einer systematischen Nutzung offen, solange es keine standardisierten Methoden zur Erfassung und Klassifizierung dieser Informationen gibt. Pokora et al. untersuchen existierende Ansätze bzgl. ihres Aufwands, ihrer Praktikabilität sowie Reliabilität und Validität. Dabei erweisen sich die manuelle Klassifizierung und die Nutzung vorgegebener Schlagworte als zu aufwändig bzw. zu fehlerbehaftet. Im Gegenzug bietet sich computergestütztes Textmining in Kombination mit maschinellem Lernen als zuverlässiges Klassifizierungsverfahren an. Eine bestehende Software weist lediglich eine gewisse Untererfassung klinisch auffälliger Befunde auf, bietet gleichwohl das Potenzial für die zukünftige Erschließung bislang ungenutzter Freitextangaben.

Die hier und im vorgehenden Sonderheft präsentierten Lösungsansätze für relevante und häufig auftretende methodische Herausforderungen bei Sekundärdatenanalysen können die Beschäftigung mit Grundlagenwerken und Standards der Sekundärdatenanalyse nicht ersetzen [3] [4] [5], sodass sie als Ergänzung dazu zu verstehen sind. Wir wünschen nun allen Leserinnen und Lesern eine erkenntnisreiche Lektüre, unabhängig davon, ob sie erfahren auf dem Feld der Sekundärdatenanalyse oder erst in jüngerer Zeit im Rahmen aktueller Forschungsprojekte mit diesen Datenquellen befasst sind.

Supplement 2

Liebe Leserinnen und Leser,
neben dem vorliegenden Heft veröffentlicht „Das Gesundheitswesen“ zwei digitale Sonderhefte. Die Beiträge dieser digitalen Ausgaben sind wie die Beiträge der Printausgabe im Online-Archiv der Zeitschrift zu finden und über Literaturdatenbanken wie Pubmed auffindbar. Alle Beiträge sind Open-Access-Beiträge.

S91 Editorial | Sonderheft Methodische Aspekte der Sekundärdatenanalyse (II) – Datenlinkage und spezifische Methoden der Sekundärdatenanalyse Enno Swart, Holger Gothe, Peter Ihle, Stefanie March, Ingrid Schubert, Christoph Stallmann, Falk Hoffmann

S94 Review Article | Data Privacy Compliant Validation of Health Insurance Claims Data: the IDOMENEO Approach Christian-Alexander Behrendt, Thea Schwaneberg, Sandra Hischke, Tobias Müller, Tom Petersen, Ursula Marschall, Sebastian Debus, Levente Kriston

S101 Original Article | Incidence Estimation in Post-ICU Populations: Challenges and Possible Solutions When Using Claims Data Magdalena Brandl, Christian Apfelbacher, Annette Weiß, Susanne Brandstetter, Sebastian Edgar Baumeister

S108 Original Article | Individual-Level Linkage of Primary and Secondary Data from Three Sources for Comprehensive Analyses of Low Birthweight Effects Diana Druschke, Katrin Arnold, Luise Heinrich, Jörg Reichert, Mario Rüdiger, Jochen Schmitt

S117 Original Article | Linkage of Routine Data to Other Data Sources in Germany: A Practical Example Illustrating Challenges and Solutions Ingo Langner, Oliver Riedel, Jonas Czwikla, Franziska Heinze, Heinz Rothgang, Hajo Zeeb, Ulrike Haug

S122 Originalarbeit | Linkage von klinischen Primärdaten und Krankenkassenabrechnungsdaten in der Evaluation der Schlaganfallversorgung – SeDaStro: Erfahrungen aus dem Tiroler StrokeCard-Programm Holger Gothe, Raffaella Matteucci Gothe, Marjan Arvandi, Katharina Hintringer, Thomas Toell, Willi Oberaigner, Sasa Rajsic, Joachim Kugler, Stefan Kiechl, Johann Willeit, Uwe Siebert

S131 Original Article | Secure Linking of Data from Population-Based Cancer Registries with Healthcare Data to Evaluate Screening Programs Sebastian Bartholomäus, Yannik Siegert, Hans Werner Hense, Oliver Heidinger

S139 Original Article | A Comparison of Matching and Weighting Methods for Causal Inference Based on Routine Health Insurance Data, or: What to do If an RCT is Impossible Herbert Matschinger, Dirk Heider, Hans-Helmut König

S151 Original Article | Comparison of Approaches to Select a Propensity Score Matched Control Group in the Absence of an Obvious Start of Follow Up for this Group: An Example Study on the Economic Impact of the DMP Bronchial Asthma Josephine Jacob, Niklas Schmedt, Lennart Hickstein, Wolfgang Galetzka, Jochen Walker, Dirk Enders

S158 Original Article | Validation of Semantic Analyses of U nstructured Medical Data for Research Purposes Roman Michael Pokora, Lucian Le Cornet, Philipp Daumke, Peter Mildenberger, Hajo Zeeb, Maria Blettner

S165 Erratum


#

Interessenkonflikt

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.


Korrespondenzadresse

PD Dr. rer. biol. hum. Enno Swart
Medizinische Fakultät
Institut für Sozialmedizin und Gesundheitssystemforschung (ISMG)
Otto-von-Guericke-Universität Magdeburg
Leipziger Straße 44
39120 Magdeburg