Gesundheitswesen 2018; 80(03): e20-e31
DOI: 10.1055/s-0043-125070
Übersichtsarbeit
© Georg Thieme Verlag KG Stuttgart · New York

Quo vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme

Quo Vadis Data Linkage in Germany? An Initial Inventory
Stefanie March
1  Medizinische Fakultät, Institut für Sozialmedizin und Gesundheitsökonomie, Otto-von-Guericke-Universität Magdeburg, Magdeburg
,
Manfred Antoni
2  Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit (IAB), Nürnberg
,
Joachim Kieschke
3  Registerstelle, Epidemiologisches Krebsregister Niedersachsen, Oldenburg
,
Bianca Kollhorst
4  Abteilung Biometrie und EDV, Leibniz-Institut für Präventionsforschung und Epidemiologie – BIPS, Bremen
,
Birga Maier
4  Berlin-Brandenburger Herzinfarktregister e.V., Berlin
,
Gabriele Müller
5  Universitätsklinikum und Medizinische Fakultät Carl Gustav Carus, Zentrum für Evidenzbasierte Gesundheitsversorgung (ZEGV), TU Dresden, Dresden
,
Murat Sariyar
6  TMF – Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V., Berlin
8  University of Applied Sciences Bern, Department of Medical Informatics, Bern
,
Mandy Schulz
9  Zentralinstitut für die kassenärztliche Versorgung in Deutschland (Zi), Fachbereich Versorgungsforschung und Risikostruktur, Berlin
,
Swart Enno
1  Medizinische Fakultät, Institut für Sozialmedizin und Gesundheitsökonomie, Otto-von-Guericke-Universität Magdeburg, Magdeburg
,
Jan Zeidler
9  Center for Health Economics Research Hannover (CHERH), Leibniz Universität Hannover, Hannover
,
Falk Hoffmann
10  Department für Versorgungsforschung, Carl von Ossietzky Universität Oldenburg, Oldenburg
› Author Affiliations
Further Information

Korrespondenzadresse

Dr. Stefanie March, MA
Medizinische Fakultät
Institut für Sozialmedizin und Gesundheitsökonomie
Otto-von-Guericke-Universität Magdeburg
Leipziger Straße 44
39120 Magdeburg

Publication History

Publication Date:
20 February 2018 (online)

 

Zusammenfassung

Die Verknüpfung verschiedener Datenquellen, genannt Datenlinkage oder auch Record Linkage, zur Beantwortung von wissenschaftlichen Fragestellungen findet in den letzten Jahren in Deutschland vermehrt Anwendung. Jedoch mangelt es bisher an publizierten Erfahrungen. Neue Projekte erarbeiten sich in der Regel autark voneinander das notwendige Handwerkszeug. Daher hat sich eine Gruppe von Forschern zusammengefunden, um ihre Erfahrungen zum Datenlinkage in Deutschland als mögliche Hilfestellung bzw. Anregung für Projekte, Gutachter sowie Datenschützer und Ethikkommissionen zusammenzustellen. Ziel dieser ersten Bestandsaufnahme zum Datenlinkage ist es deshalb, eine Unterstützung für zukünftige Projekte zu liefern, die Daten aus Deutschland auf individueller Ebene verknüpfen möchten. Neben den (datenschutz-)rechtlichen Rahmenbedingungen werden dabei auch praxisorientiert die Arten des Datenlinkage, deren Anwendungsfelder und Ansätze zur Vermeidung von Fehlern anhand von Beispielen dargestellt.


#

Abstract

In recent years, linking different data sources, also called data linkage or record linkage, to address scientific questions, is being increasingly used in Germany. However, there are very few published reports and new projects develop the necessary tools independently of each other. Therefore, a team of researchers joined together to exchange their experiences on data linkage and to give suggestions on how linkage could be done for scientists, reviewers as well as members of data privacy boards and ethics committees. It is the aim of this article to assist future projects that want to link German data on an individual level. In addition to the legal framework conditions (data privacy), also examples of types of data linkage, their fields of application und potential pitfalls as well as the methods of preventing them will be described in an application-oriented fashion.


#

Einleitung

Für die Gesundheitsforschung werden in Deutschland mittlerweile zahlreiche und teils sehr unterschiedliche Daten verwendet [1]. Diese lassen sich grundsätzlich in Primär- und Sekundärdaten unterscheiden [2]. Primärdaten[1] werden im Rahmen ihres originär vorgesehenen Verwendungszwecks aufbereitet und analysiert. Dazu zählen regionale oder bundesweite Erhebungen, wie bspw. die Gesundheitsstudien des Robert Koch-Instituts (RKI), die Daten sowohl im (wiederholten) Quer- als auch im Längsschnitt durch Befragungen und/oder medizinische Untersuchungen erfassen [3]. Auch die NAKO Gesundheitsstudie, die größte epidemiologische Langzeitstudie in Deutschland bei der etwa 200 000 Menschen über 20–30 Jahre hinweg nachbeobachtet werden sollen, zählt dazu [4]. Solche Studien werden zwar oftmals mit sehr vielen Modulen, Untersuchungen und Erhebungsinstrumenten durchgeführt, dies ist jedoch mit erheblichen Belastungen für die Teilnehmer sowie hohen Kosten und dem Risiko von Kohortenausfällen (loss-to-follow-up) verbunden. Bei Längsschnittstudien finden die Erhebungswellen deshalb oft nur in mehrjährigen Abständen statt. Dies bedeutet jedoch, dass gerade bei sehr langen auseinanderliegenden Follow-Up-Erhebungen bestimmte Faktoren nur unvollständig oder mit methodischen Schwierigkeiten erfasst werden können (z. B. Inanspruchnahme medizinischer Leistungen oder Angaben zur Erwerbsbiografie) [5].

Sekundärdaten hingegen werden einer Auswertung über ihren originären primären Verwendungszweck hinaus zugeführt. Hierzu zählen eine Vielzahl an Daten der Sozialversicherungsträger (z. B. Kranken- und Rentenversicherung), aber auch andere Leistungsdaten der gesundheitlichen Versorgung (z. B. aus Arzt- oder Krankenhausinformationssystemen) oder Daten von (klinischen) Studien, die im Nachgang für andere Fragestellungen genutzt werden [2]. Aufgrund der zunehmenden elektronischen Erfassung von Gesundheitsdaten stehen mittlerweile Sekundärdaten mit einem hohen Informationsgehalt für Forschungsvorhaben zur Verfügung und werden dafür auch zunehmend genutzt [6] [7] [8]. Allerdings ist ihr Merkmals- und Erhebungsumfang durch den ursprünglichen Erhebungsgrund determiniert und eine Nutzung für Forschungszwecke aufgrund gesetzlicher Restriktionen oder fehlender Einwilligung nicht immer ohne Probleme möglich [5] [9].

Die verschiedenen verfügbaren Daten – Primärdaten ebenso wie Sekundärdaten – weisen also allesamt spezifische Vorteile auf, jedoch auch den Nachteil, dass sie ausschließlich für bestimmte Zwecke oder Forschungsfragen generiert wurden und weitere für die Beantwortung der Fragstellung relevante Informationen fehlen, die jedoch möglicherweise in anderen Daten vorhanden sind. Eine Verknüpfung dieser verschiedenen Daten ermöglicht dann einen Informationsgewinn, durch den ein breiteres Spektrum an zusätzlichen Fragen beantwortet werden kann, ohne dafür neue Daten erheben zu müssen [10]. Aus diesen Gründen wird in vielen aktuellen Studien in/aus Deutschland eine Verknüpfung verschiedener Primär- und/oder Sekundärdaten angestrebt. Erste Erfahrungen liegen dazu mittlerweile vor [4] [9] [11] [12] [13].

Diese Verknüpfung verschiedener Datenquellen, auch als Datenlinkage (oder weitgehend synonym Record Linkage) bezeichnet, erfolgt anhand geeigneter Schlüsselvariablen (Identifikator/en), die in allen zu verknüpfenden Daten vorhanden sein müssen [14]. Da die verschiedenen in der Gesundheitsforschung verwendeten Daten jedoch in aller Regel unabhängig voneinander erhoben und oftmals pseudonymisiert vorliegen, stellt deren Verknüpfung eine erhebliche methodisch-technische sowie datenschutzrechtliche Herausforderung dar, insbesondere im Zusammenhang mit Sozialdaten. Der fehlenden Integration von Daten im Gesundheitswesen wird mittlerweile auch förderpolitisch Rechnung getragen. Das vom Bundesministerium für Bildung und Forschung (BMBF) im November 2015 initiierte Förderkonzept Medizininformatik („Daten vernetzen – Gesundheitsversorgung verbessern“)[2] oder die erste Ausschreibung des Innovationsfonds im April 2016 („Einsatz und Verknüpfung von Routinedaten zur Verbesserung der Versorgung“ als eines von 5 Themenfeldern im Bereich Versorgungsforschung)[3] greifen explizit diese Thematik auf. Dies gilt zudem auch vermehrt für Gutachten wie bspw. das Gutachten des Normenkontrollrats vom Oktober 2017 „Mehr Leistung für Bürger und Unternehmen: Verwaltung digitalisieren. Register modernisieren“[4]. Dies unterstreicht die Wichtigkeit der Verknüpfung von Daten im Gesundheitswesen. Bisher sind hauptsächlich sehr spezifische Erfahrungen zum Datenlinkage, wie im Rahmen der Krebsregistrierung, vorhanden und neue Projekte müssen sich oftmals in einem aufwändigen Prozess den entsprechenden Herausforderungen stellen. Neben den Projektbeteiligten mangelt es oft auch Gutachtern von Zeitschriftenbeiträgen oder Anträgen ebenso wie Datenschützern oder Ethikkommissionen an publizierten Erfahrungen.

In Anlehnung sowohl an die Gute Epidemiologische Praxis (GEP) [15], die Gute Praxis Sekundärdatenanalyse (GPS) [2] als auch die Berichtsstandards RECORD (Reporting of studies Conducted using Observational Routinely-collected health Data; internationaler Standard) [16] und STROSA (STandardisierte BerichtsROutine für Sekundärdaten Analysen; deutscher Standard) [17] haben wir im Rahmen dieses Beitrages eine erste Bestandsaufnahme zum Datenlinkage in Deutschland erarbeitet. Hierfür hat sich eine Projektgruppe Datenlinkage, bestehend aus 11 Experten und Expertinnen der Arbeitsgruppe Erhebung und Nutzung von Sekundärdaten (AGENS) der Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP) und der Deutschen Gesellschaft für Epidemiologie (DGEpi) sowie der Arbeitsgruppe Validierung und Linkage von Sekundärdaten des Deutschen Netzwerks für Versorgungsforschung (DNVF) gebildet. Das Kickoff-Treffen fand im Februar 2016 statt, gefolgt von einem weiteren Treffen und mehreren Telefonkonferenzen. Eine erste Entwurfsfassung wurde den Mitgliedern der beiden o. g. Arbeitsgruppen im September 2016 zur Kommentierung gegeben, und deren Rückmeldungen wurden im Anschluss eingearbeitet.

Ziel dieses Artikels ist es, eine Unterstützung für wissenschaftliche Projekte zu liefern, die Daten aus Deutschland auf individueller Ebene verknüpfen möchten (keine Aggregatdaten, d. h. bspw. die Verlinkung von regionalen Indikatoren über die Postleitzahl oder Kreiskennziffer). Neben den (datenschutz-)rechtlichen Rahmenbedingungen werden dabei auch praxisorientiert die Arten des Datenlinkage, deren Anwendungsfelder und mögliche Fallstricke sowie Ansätze zu deren Vermeidung anhand von Beispielen aus Deutschland dargestellt[5].


#

Verfahren und Arten des Datenlinkage

Im folgenden Abschnitt werden die in der deutschen Gesundheitsforschung am häufigsten praktizierten Verfahren vorgestellt und die verschiedenen Arten des Datenlinkage dargestellt. In Abhängigkeit von den Forschungsfragen und Studienzielen empfiehlt es sich, bereits bei der Planung einer Studie, in der verschiedene Datensätze verknüpft werden sollen, die Art des Datenlinkage festzulegen. Dem Forscher stehen dabei eine Reihe von Möglichkeiten zur Verfügung, die unterschiedliche rechtliche, organisatorische und technische Anforderungen an das geplante Studiendesign stellen und unterschiedlich kombinierbar sind.

Wenn möglich sollten bereits im Vorfeld für Variablen, die für das Linkage herangezogen werden, geeignete Verfahren zur Fehlervermeidung bzw. zur Standardisierung der Erfassung installiert werden (z. B. Doppelnamen mit und ohne Bindestrich, Namen mit und ohne Umlaut, ggf. Prüfziffern).

Allen sich direkt mit dem Linkage von Daten befassenden Verfahren ist gemein, dass zum Finden von zusammengehörigen Daten klar definierte Paare von Merkmalskombinationen gebildet werden müssen, z. B. Müller, Stefan, 07-09-1988 sowie Mueller, Stefan, 09-07-1988. Die Verfahren entscheiden, welche Paare zu einer Person und welche zu verschiedenen Personen gehören.

Eine wichtige Unterscheidung ist dabei zwischen überwachten Lernverfahren und unüberwachten vorzunehmen [18] [19] [20]. Bei dem erstgenannten Verfahren gibt es in den Trainingsdaten Werte für die Zielgröße „Match“ (mit den möglichen Ausprägungen: ja, nein, vielleicht), bei letzterem nicht. Zu den überwachten Verfahren gehören u. a. das probabilistische Record Linkage [21] (s.u.), Entscheidungsbaum-Methoden [22], Künstliche Neuronale Netze, Support Vector Machines und die Diskriminanzanalyse [23]. Das unüberwachte Lernen nutzt z. B. Assoziationsregeln, Cluster-Methoden und einige Bayessche Analysemethoden. Weitere Anmerkungen finden sich bei Christen [24].

Unterschieden wird in der Regel zwischen den nachfolgend aufgeführten Verfahren, deren Bedeutung für das Datenlinkage im Anschluss diskutiert werden soll.

Exaktes Linkage

Das Linkage kann exakt oder fehlertolerant erfolgen. Beim exakten Linkage führt man die Daten mehrerer Datenquellen nur bei exakter Übereinstimmung eines eindeutigen Verknüpfungsschlüssels (z. B. Sozialversicherungsnummer) oder mehrerer Linkage-Variablen zusammen (Match–Merge Linkage). Gibt es Fehler oder unterschiedliche Schreibweisen im Schlüssel oder in den Linkage-Variablen, können die Daten mit exaktem Linkage nicht zusammengebracht werden [25] [26].


#

Fehlertolerantes Linkage

Ist kein exaktes Linkage möglich, sind fehlertolerante Verfahren erforderlich, welche die Zahl der verknüpften Beobachtungseinheiten erhöhen können, wie z. B. durch die Nutzung von String-Metriken (s. Distanzbasiertes Linkage). Innerhalb der fehlertoleranten Linkage-Methoden können wiederum mehrere Arten unterschieden werden: regelbasiertes, distanzbasiertes und probabilistisches Linkage.

Das Finden und Festlegen von Schwellenwerten für die Entscheidung, ob Datensätze zusammengeführt werden sollen, ist eine der wesentlichen Hausforderungen des Datenlinkage, bei der auch bestimmte „Sonderfälle“ zu berücksichtigen sind, die je nach verwendeten Daten unterschiedlich sein können (z. B. Zahlendreher, gleichgeschlechtliche Zwillinge, (Nicht-)Berücksichtigung zweiter Vornamen).

Regelbasiertes Linkage

Regelbasiertes Linkage weicht die Forderung des exakten Linkage dahingehend auf, dass hier durch Regeln definiert wird, welche Identifikatoren komplett übereinstimmen müssen, und bei welchen eine teilweise Übereinstimmung ausreichend ist. Eine Regel könnte beispielweise lauten, dass der Nachname und beim Vornamen die ersten 3 Buchstaben übereinstimmen müssen, sowie dass das Geburtsjahr höchstens um 3 Jahre abweichen darf (siehe [24], S. 139–142 für Beispiele hochentwickelter Regelsätze). Eine solche Regel ist leicht zu evaluieren und beinhaltet eine gewisse Fehlertoleranz, sie birgt jedoch eine erhöhte Gefahr einer falsch positiven Klassifikation (s. u.).

Eine spezielle und in der Forschungspraxis sehr gängige Variante des regelbasierten Linkage wird als deterministisches Linkage bezeichnet. Dabei werden Identifikatoren oder Transformationen von diesen (bspw. durch Anwendung des phonetischen Codes) weiterhin auf exakte Übereinstimmung hin überprüft. Die Entscheidungsregel kann jedoch vorsehen, dass nur ein bestimmter Anteil davon übereinstimmen muss (z. B. „5 von 7 Identifikatoren müssen übereinstimmen, darunter mind. Nachname und Geburtsjahr“), um ein Datenpaar als einen Match zu klassifizieren. Falls es die Ressourcen eines Projekts und die gewählten technischen Rahmenbedingungen erlauben, ist ein iteratives Vorgehen ratsam. In einem stufenweisen deterministischen Linkage [27] sollte zunächst mit der Regel begonnen werden, die Übereinstimmung auf allen Identifikatoren fordert. Anschließend können weitere Regeln gewählt werden, welche die Ansprüche an den Grad der Übereinstimmung stufenweise reduzieren. Im jeweils nächsten Schritt werden nur solche Einheiten übernommen, die im vorherigen Schritt nicht erfolgreich verknüpft wurden, wodurch der Aufwand für den Abgleich mit jedem Schritt sinkt. Ganz offensichtlich steigt das Risiko einer falsch positiven Klassifikation mit jeder weiteren Stufe, da diese jeweils eine Lockerung der Ähnlichkeits-Anforderung darstellt. Um diesem Umstand Rechnung zu tragen, sollte der finale verknüpfte Datensatz Informationen darüber enthalten, in welcher der Stufen die Zuordnung einer Beobachtungseinheit erfolgt ist. Damit wird Transparenz geschaffen, und so bleibt es den Datennutzern überlassen, welches Risiko einer falsch positiven Klassifikation sie für ihre spezifische Analyse in Kauf nehmen und welche Beobachtungen sie in ihre Analysen einbeziehen wollen.


#

Distanzbasiertes Linkage

Eine weitere fehlertolerante Art des Datenlinkage verwendet distanzbasierte Methoden. Hierbei erlaubt der Einsatz von String-Metriken (Stringähnlichkeitsfunktionen), die Ähnlichkeit der Merkmalsausprägungen einzelner Identifikatoren zu berechnen. Als Maß für die Ähnlichkeit kann z. B. die Anzahl an Veränderungen gezählt werden, die notwendig ist, um einen String in den zu vergleichenden String umzuformen. Um „Meyer“ in „Meier“ umzuformen ist nur ein Buchstabe auszutauschen, um „Waldemar“ in „Naldo“ umzuformen sind 5 Veränderungen notwendig. Durch distanzbasierte Methoden kann die Anzahl erfolgreich verknüpfter Beobachtungseinheiten weiter erhöht werden und, sofern die Klassifikationsschwelle nicht zu niedrig gewählt wird, ein Anstieg einer falsch positiven Klassifikation vermieden werden. Gängige String-Metriken basieren auf so genannten N-Grammen, dem Edit-Distanz-Maß oder den Maßen von Jaro und Winkler [28] [29] [30] [31] [32]. Die Summe der Stringähnlichkeiten über verschiedene Identifikatoren hinweg wird hierbei idealerweise auf das Intervall von 0 bis 1 normiert. Eine geeignete Schwelle für die Klassifikation eines Datenpaares als Match liegt erfahrungsgemäß im Bereich von 0,7 bis 0,8. Ein Programm zur Ermittlung haben Schnell et al. entwickelt [33]. Eingesetzt wird es u. a. für die gesetzlich vorgeschriebene stationäre Qualitätssicherung beim AQUA Institut[6].


#

Probabilistisches Linkage

Der in der medizinischen Forschung hauptsächlich genutzte Ansatz ist das probabilistische Record-Linkage-Verfahren. Eingeführt durch Newcombe [34], wurden die theoretische Fundierung und der Erfolg des Verfahrens durch Fellegi und Sunter [21] begründet. Wesentlich an diesem Modell ist die Annahme von Wahrscheinlichkeiten, also einem probabilistischen Modell, für die Funktionswerte von Vergleichsfunktionen (z. B. als Resultat des Vergleichs von Nachnamen in 2 Datensätzen) jeweils unter der Bedingung, dass die dem zu vergleichenden Datenpaar zugrunde liegenden Personen identisch/nicht-identisch sind. Dies nutzt die Tatsache, dass die Übereinstimmung mancher Identifikatoren mehr Aussagekraft hinsichtlich der Zusammengehörigkeit zweier Beobachtungseinheiten aufweisen als die Übereinstimmung anderer. Konkret kann z. B. der Nachname deutlich mehr verschiedene Ausprägungen annehmen als das Geschlecht. Die Wahrscheinlichkeit, dass bei 2 nicht identischen Personen der Nachname zufällig übereinstimmt, ist daher deutlich geringer als die der zufälligen Übereinstimmung des Geschlechts. Die Wahrscheinlichkeit, dass ein Nachname in unterschiedlichen Quellen abweicht, obwohl es sich um dieselbe Person handelt, ist dagegen höher als beim Geschlecht, da es beim Nachnamen leichter Abweichungen geben kann, z. B. durch Schreibfehler („Meyer“ vs. „Meier“). Dieser Unterschied führt zu verschiedenen Übereinstimmungs- und Nicht-Übereinstimmungsgewichten für diese beiden Identifikatoren, die entsprechend in das Gesamtgewicht (die Ähnlichkeit über alle Identifikatoren hinweg) einfließen. In Abhängigkeit von der Festsetzung der Wahrscheinlichkeitswerte als Kriterien der (Nicht-)Übereinstimmung zwischen den Verknüpfungsmerkmalen ist jedoch auch mit einem unterschiedlichen Anteil falsch positiv und falsch negativ gematchter Fälle zu rechnen [35]. Bei den Vergleichen kann und sollte man Häufigkeiten von Namen in Rechnung stellen (frequentistischer Ansatz [36] [37]). Beispiele finden sich u. a. bei Giersiepen et al. [38] sowie Kajüter et al. [39].


#
#

Linkage mit direkten und indirekten Identifikatoren

Sowohl beim Linkage mit direkten als auch beim Linkage mit indirekten Identifikatoren können alle der erläuterten Verfahren zum Einsatz kommen.

Beim Linkage mit direkten Identifikatoren können Datensätze über ein eindeutiges Einzelmerkmal (z. B. Sozialversicherungsnummer) oder über mehrere eindeutig identifizierende Merkmale, wie z. B. Name, Geburtsdatum, Anschrift oder Versicherungsnummer, verknüpft werden. Das Linkage mit indirekten Identifikatoren kann nicht auf solche immer eindeutig identifizierenden Attribute zurückgreifen. Daher muss es in den beiden zu verknüpfenden Datensätzen Linkage-Variablen bestimmen, die in ihrer Kombination dazu führen, dass die durch das Linkage zusammengeführten Daten mit hoher Wahrscheinlichkeit ein- und derselben Person entsprechen [11] [40] [41] [42]. So wurden bspw. bei der Evaluation eines Strukturvertrages der AOK Plus zum Gestationsdiabetes in Sachsen Abrechnungsdaten und Daten aus dem Perinataldatensatz anhand von Institutskennzeichen des Krankenhauses, Datum der Aufnahme in die Klinik, Datum der Entlassung aus der Klinik, Geburtsdatum der Mutter, Geburtsgewicht des Kindes und Postleitzahl der Mutter miteinander verlinkt. Mittels dieser Angaben konnten 97% der Abrechnungsdaten einem Datensatz aus der Perinatalerhebung zugeordnet werden [43].


#

Linkage mit Klartextangaben und mit verschlüsselten Identifikatoren

Die bisherigen Ausführungen sind von der Nutzung von unverschlüsselten Identifikatoren ausgegangen, d. h. unter Verwendung der Originalausprägungen von Namen, Adressen, Versicherungsnummern usw. Aus Datenschutzgründen kann jedoch der Einsatz von verschlüsselten Identifikatoren zwingend geboten sein. In solchen Fällen werden häufig Kontrollnummern eingesetzt, die mittels Verschlüsselungsverfahren aus persönlichen Daten wie Name, Vorname, Geburtsname und Geburtsdatum gebildet werden. Identische Kontrollnummern entstehen dabei jedoch nur bei exakt gleicher Schreibweise der Original-Identifikatoren. Kleinste Abweichungen führen bei Verschlüsselungsverfahren zumeist zu großen Unterschieden der Kontrollnummern. Der Einsatz phonetischer Kodierungsverfahren der Namen kann Fehler wegen unterschiedlicher Schreibweisen gleich klingender Namen reduzieren, Tippfehler aber nicht ausgleichen.

International werden zunehmend Bloom-Filter empfohlen [26] [44] [45] [46], wenn Identifikatoren für ein Datenlinkage nicht im Klartext verwendet werden können. Auf Bloom-Filtern basierende Verfahren weisen gegenüber dem Einsatz von Kontrollnummern den Vorteil auf, ein fehlertolerantes Datenlinkage auf verschlüsselten Daten durchführen zu können (Stichwort: privacy-preserving record linkage). Dabei kann eine Verschlüsselung eingesetzt werden, die eine Rückkehr zu den ursprünglichen Klartextangaben und damit ein Re-Identifizieren der Beobachtungseinheiten praktisch unmöglich macht [47] [48].


#

Linkage mit und ohne individuelle Einwilligungserklärung

In der Regel erfolgt ein Linkage mit Einwilligung. Dafür müssen schon in der Einwilligungserklärung die zu verknüpfenden Daten beschrieben und die Mitteilung erfolgen, dass ein Datenlinkage geplant ist und die i.d.R. schriftliche Einwilligung der betroffenen Studienteilnehmer nach einer umfassenden Aufklärung dafür eingeholt werden [14]. Wenn die Einwilligung vorliegt, können die Daten über direkte Identifikatoren, wie z. B. Name und Geburtsdatum, und unter Wahrung der datenschutzrechtlichen Vorgaben unmittelbar zusammengeführt werden. Es handelt sich somit um ein Datenlinkage auf Basis von personenbezogenen Daten. Im Rahmen der Studienplanung ist daher auch zu prüfen, ob die zuständigen Aufsichtsbehörden und Ethikkommissionen zur Prüfung der Gültigkeit der Formulierung der Einwilligungserklärung einzubinden sind. Die Verknüpfung der Daten setzt zudem seitens der Dateneigner ein schlüssiges Datenschutzkonzept voraus.

Liegt keine Einwilligung vor, wie z. B. bei retrospektiven Analysen schon erhobener Daten, kann i.d.R. kein Linkage mit direkten Identifikatoren vorgenommen werden, da diese u. a. aus Datenschutzgründen nicht bekannt sind oder nicht erhoben wurden bzw. werden. Die Verknüpfung der Daten kann nach Prüfung datenschutzrechtlicher Aspekte dann eventuell über indirekte Identifikatoren erfolgen, die erlauben, die Singularität des Einzelnen abzubilden, ohne dass seine Identität erfahrbar wäre [49]. So kann bei großen Sozialdatensätzen ein Datenlinkage ohne vorliegende Einwilligung auch auf Grundlage des § 75 SGB X nach Genehmigung der zuständigen Bundes- oder Landesaufsichtsbehörde durchgeführt werden. Wenn eine entsprechende Genehmigung vorliegt, ist auch ohne Einwilligung ein Linkage über direkte Identifikatoren möglich, sofern diese vorhanden sind (wie z. B. der Rentenversicherungsnummer) [50] [7.]

An dieser Stelle soll zudem darauf hingewiesen werden, dass eine Einwilligung selektiv sein und von verschiedenen Merkmalen der Befragten, Interviewer usw. abhängen kann. Dies sollte bei der Planung der Studie berücksichtigt werden, indem z. B. Interviewer explizit auf die Wichtigkeit und die datenschutzrechtliche Unbedenklichkeit des Linkage geschult werden oder für bestimmte Befragtengruppen nur besonders erfahrene Interviewer eingesetzt werden [51] [52].


#

Linkage mit unterschiedlichen Formen des Blockings

Um die Laufzeit von Verfahren zu reduzieren, wird bei allen bisher beschriebenen Arten des Linkage häufig Blocking verwendet [53]. Blocking bedeutet, dass ein oder mehrere Merkmale ausgewählt und die Datensätze gemäß den – möglicherweise hierfür vorher transformierten – Ausprägungen dieser Merkmale gruppiert werden, damit nur Datensätze mit den gleichen Ausprägungen dieser Merkmale miteinander verglichen werden. Aufgrund von Fehlern in den Datensätzen ist oft mehrmaliges Blocking nötig, um das Ausmaß falsch negativer Klassifikationen zu minimieren. Bspw. würde man eine falsch negative Klassifikation erhalten, wenn für eine Person 2 Datensätze existieren, die für den Nachnamen jeweils den Wert „Kayser“ bzw. „Kaiser“ enthalten und Blocking die Gleichheit der ersten 3 Buchstaben des Nachnamens verlangt. Als Blocking-Variablen eignen sich Merkmale mit einer hohen Anzahl unterschiedlicher Werte (Discriminating Power), da somit eine gleichmäßige Aufteilung der Datensätze in relativ kleine Gruppen ermöglicht wird. Blocking ist relevant, wenn man es mit großen Datenmengen zu tun hat. Moderne Verfahren ermöglichen ein Blocking sogar bei mit Bloom-Filtern verschlüsselten Identifikatoren [54].


#

Auswahl praktischer Beispiele

In [Tab. 1] sind exemplarisch einige Studien aus Deutschland zusammengestellt, die unterschiedliche Arten des Datenlinkage repräsentieren bzw. verschiedene Datenquellen kombinieren. Diese Aufzählung stellt lediglich eine Auswahl an Beispielen dar, die dem Leser einen besseren praktischen Zugang zur Thematik ermöglichen sollen. Über die referenzierten Quellen sind weitere Detailinformationen zu diesen Studien und dem Vorgehen beim Datenlinkage verfügbar.

Tab. 1 Ausgewählte Beispiele für verschiedene Arten des Datenlinkage.

Studientitel

Welche Daten wurden verknüpft?

Welche Arten des Datenlinkage wurden verwendet?

Referenzen

SHARE RV: Verknüpfung von Befragungsdaten des Survey of Health, Ageing and Retirement in Europe (SHARE) mit administrativen Daten der Rentenversicherung

Befragungsdaten mit Rentenversicherungsdaten

deterministisches Linkage, Linkage mit direkten Identifikatoren, Linkage mit Einwilligungserklärung

Czaplicki & Korbmacher (2010) [64]
Korbmacher & Czaplicki (2013) [65]
http://www.share-project.org/

lidA - leben in der Arbeit - eine Kohortenstudie zu Gesundheit und Älterwerden in der Arbeit

Befragungsdaten mit Daten der Gesetzlichen Krankenversicherung (GKV) und der Bundesagentur für Arbeit (BA)

deterministisches Linkage, Linkage mit direkten Identifikatoren, Linkage mit Einwilligungserklärung

March et al. (2012) [55]
March et al. (2015) [12]
www.lidA-studie.de

Befragungsdaten mit aggregierten Daten der GKV

Linkage mit indirekten Identifikatoren, Linkage ohne Einwilligungserklärung (Antrag nach § 75 SGB X)

Vergleich unterschiedlicher Linkageverfahren sowie Vollständigkeit klinischer Angaben

Daten der GKV mit Daten eines Krankenhausinformationssystems

Linkage mit direkten und indirekten Identifikatoren

Ohlmeier et al. (2015) [42]

QS-AMI Studie

Daten der GKV mit Daten eines klinischen Registers

deterministisches Linkage, Linkage mit indirekten Identifikatoren

Maier et al. (2015) [11]

ALWA-ADIAB – ALWA-Befragungsdaten verknüpft mit administrativen Daten des IAB

Befragungsdaten mit Daten der BA

deterministisches und probabilistisches Linkage

Antoni et al. (2011) [66]
Antoni & Seth (2012) [67]

Validierungsstudie

Daten der GKV mit Daten eines Sterberegisters

probabilistisches Linkage, deterministisches Linkage, exaktes Linkage, fehlertolerantes Linkage, Linkage mit direkten Identifikatoren

Ohlmeier et al. 2016 [58]

Sektorenübergreifende Datenzusammenführung und Evaluation am Beispiel der Schenkelhalsfrakturen

Daten der GKV mit Daten der Externen Qualitätssicherung und Pflegegutachten des Medizinischen Dienstes der Krankenkassen

exaktes Linkage, Linkage mit direkten Identifikatoren, fehlertolerantes Linkage

Ohmann et al. (2005) [68]

Kohortenstudie zur Krebsinzidenz bei Patienten mit Diabetes mellitus Typ 2

Daten aus Disease-Management (DMP)-Programmen (GKV) mit Daten eines Epidemiologischen Krebsregisters

probabilistisches Linkage

Kajüter et al. (2014) [39]


#
#

Rechtlicher Rahmen und Datenschutz

Neben der Art des Datenlinkage müssen auch von Beginn an die rechtlichen und hier insbesondere die datenschutzrechtlichen Vorgaben geprüft und berücksichtigt werden. Dafür sind ausreichende personelle und v. a. zeitliche Ressourcen einzuplanen. Zudem sollte ein Datenschutzkonzept erarbeitet werden und die Aufgaben, Pflichten und Verantwortlichkeiten aller am Projekt Beteiligter schriftlich fixiert werden [9].

Welche Datenquellen sollen verknüpft werden?

Handelt es sich um personenbezogene Daten und insbesondere auch um Sozialdaten gelten hohe datenschutzrechtliche Anforderungen [9] [55] [56]. Es muss vorab geprüft werden, ob anonymisierte oder pseudonymisierte Daten verwendet werden können. Hierbei sind sowohl die einzelnen Datenquellen relevant als auch der final entstandene gelinkte Datensatz, da dieser durch die Kombination von Informationen weitaus sensiblere Daten enthalten kann bzw. eine datenschutzrechtliche Relevanz erst durch das Linkage entstehen kann (s. hierzu ebenfalls die Ausführungen zum Linkage mit und ohne individuelle Einwilligungserklärung). Datenlinkage muss daher im geschützten Raum und unter bestimmten Auflagen erfolgen, um eine Person nicht versehentlich zu „deanonymisieren“.


#

Was ist bei personenidentifizierenden Merkmalen zu beachten?

Das Datenlinkage mithilfe von personenidentifizierbaren Merkmalen als Schlüsselvariablen bedingt in aller Regel die Implementierung einer Treuhandstelle, Vertrauensstelle oder ähnlichem. Diese Stelle ist verantwortlich für die Verwaltung der Schlüsselvariablen bzw. der Schlüsseltabellen und erzeugt die notwendigen pseudonymisierten bzw. anonymisierten Daten [9]. Konkrete Beispiele finden sich u. a. bei Ihle et al. [57], March et al. [55] oder Ohlmeier et al. [58].


#

Brauche ich eine Einwilligungserklärung für ein Datenlinkage?

Werden Sozialdaten im Rahmen eines Forschungsvorhabens verwendet, ist laut § 67b SGB X eine schriftliche Einwilligung (informed consent) einzuholen [9]. Ausnahmen bei Unzumutbarkeit der Einholung regelt der § 75 SGB X. Diese Vorgaben betreffen auch ein geplantes Datenlinkage. In der Einwilligungserklärung muss deutlich erkennbar sein, welche Daten miteinander verknüpft werden sollen [55] (s. hierzu ebenfalls die Ausführungen zum Linkage mit und ohne individuelle Einwilligungserklärung).


#
#

Softwaretools

Es existieren mittlerweile eine Reihe von Tools für das Datenlinkage, in denen sowohl exakte als auch fehlertolerante Verfahren zum Zusammenführen von Daten implementiert sind. Derzeit auf dem Markt befindliche relevante kostenpflichtige Produkte stammen alle aus Nordamerika: LinkageWiz, das von Statistics Canada entwickelte und u. a. von der Swiss National Cohort genutzte G-Link, das auf MS Access aufsetzende LinkSolv und DataMatch. Die Tools unterscheiden sich in ihrem Funktionsumfang nicht wesentlich voneinander. Eine Differenzierung gibt es bei der Unterstützung der Datenbereinigung vor der Durchführung des Linkage: Bis auf G-Link bieten alle Tools eine Standardisierungs- und Bereinigungskomponente, bspw. um Adressen in ein einheitliches Format zu bringen. Dass diese Tools v. a. mit den Zusatzfunktionalitäten locken, ist ein Indiz dafür, dass die Linkage-Verfahren v. a. mit Blick auf probabilistisches Datenlinkage auf Basis des Fellegi-Sunter-Modells relativ standardisiert und in ihren Resultaten vergleichbar sind [59] [60].

Im Bereich der kostenlos erhältlichen Softwareprodukte gibt es neben sich rein auf das Linkage beschränkenden Tools auch solche, die das Datenlinkage in ein Patienten-Identifikatoren-Management-System (PIMS) integriert haben. Zur ersten Kategorie gehören das auf SAS aufsetzende Produkt The Link King, das Machine-Learning-Methoden nutzende und auf Eclipse aufsetzende Tool ChoiceMaker, Febrl, Link Plus vom Centers for Disease Control, das R-Paket RecordLinkage, die Merge ToolBox, Oyster, BigMatch und FRIL. Zur zweiten Kategorie gehören OpenEMPI, E-PIX, Mainzelliste und der PID-Generator. Charakteristisch für die Tools dieser zweiten Kategorie ist, dass sie eher einfache Verfahren umsetzen. Dies liegt zu einem großen Teil daran, dass PIMS v. a. für den Aufbau von Datenbanken genutzt werden und beim iterativen Aufbau einer Datenbank das Linkage einen höheren Grad an robustem Automatismus bedarf als bei einem Projekt, das manuelle Be- und Nachbearbeitung vorsieht.

[Tab. 2] liefert eine zusammenfassende Übersicht der Tools mit wichtigen charakterisierenden Fragen. Detailliertere Eigenschaften wie Export/Import-Möglichkeiten, Behandlung fehlender Werte, Blocking, Big-Data, usw. werden nicht behandelt, dafür sei auf die jeweiligen Links verwiesen.

Tab. 2 Zusammenfassende Übersicht über die Tools des Datenlinkage.

Tools

Links

Ist die Software kostenfrei verfügbar?

Jahr der letzten Änderung

Wird deterministisches Linkage umgesetzt?

Wird probabilistisches Linkage umgesetzt?

Gibt es Daten-bereinigungs-prozeduren?

Gibt es eine grafische Oberfläche?

Ist die Software eingebettet in ein PIMS?

BigMatch

https://github.com/chapinhall/bigmatch_utilities

Ja

2014

Nein

Ja

Nein

Nein

Nein

ChoiceMaker

https://sourceforge.net/projects/oscmt

Ja

2016

Ja

Nein

Nein

Ja

Nein

DataMatch

https://dataladder.com

Nein

2016

Ja

Ja

Ja

Ja

Nein

E-PIX

https://mosaic-greifswald.de/werkzeuge-und-vorlagen/id-management-e-pix.html

Ja

2015

Ja

Nein

Nein

Ja

Ja

Febrl

https://sourceforge.net/projects/febrl

Ja

2013

Nein

Ja

Ja

Ja

Nein

FRIL

http://fril.sourceforge.net

Ja

2011

Ja

Ja

Nein

Ja

Nein

G-Link

http://www5.statcan.gc.ca/olc-cel/olc.action?lang=en&ObjId=10H0036&ObjType=22

Nein

2011

Nein

Ja

Nein

Ja

Nein

Link Plus

http://www.cdc.gov/cancer/npcr/tools/registryplus/lp.htm

Ja

2015

Ja

Nein

Nein

Ja

Nein

LinkageWiz

http://linkagewiz.net

Nein

2015

Ja

Ja

Ja

Ja

Nein

LinkSolv

http://strategicmatching.com

Nein

2012

Nein

Ja

Ja

Ja

Nein

Mainzelliste

www.mainzelliste.de

Ja

2016

Ja

Nein

Nein

Ja

Ja

Merge ToolBox

http://www.uni-due.de/~hq0215/mtb

Ja

2016

Nein

Ja

Nein

Ja

Nein

OpenEMPI

www.openempi.org/

Ja

2016

Ja

Ja

Nein

Ja

Ja

Oyster

https://sourceforge.net/projects/oysterer/

Ja

2013

Ja

Nein

Nein

Nein

Nein

PID-Genator

https://www.toolpool-gesundheitsforschung.de/produkte/pid-generator

Ja

2008

Ja

Nein

Nein

Ja

Ja

PPRL

http://record-linkage.de/-Downloads--software.htm

Ja

2017

Ja

Ja

Ja

Nein

Nein

RecordLinkage

https://cran.r-project.org/web/packages/RecordLinkage/index.html

Ja

2016

Ja

Ja

Nein

Nein

Nein

The Link King

http://the-link-king.com

Ja

2016

Ja

Ja

Nein

Ja

Nein

PIMS: Patienten-Identifikatoren-Management-System; Links Zugriff am 20.11.2017


#

Qualitätssicherung

Im Rahmen der Planung und Vorbereitung eines Datenlinkage sollten Aspekte zur Sicherung der Qualität der zu verknüpfenden Daten berücksichtigt werden. In Box 1 sind alle im Text aufgeführten Fragen in Form einer Checkliste zusammengestellt, die dem Anwender eine schnelle Übersicht über die wichtigsten Aspekte des Datenlinkage bieten soll.

Überprüfung auf mögliche Fehler

Welche Fehler können in Identifikatoren vorkommen und wie können diese minimiert werden?

Jede Datenerhebung birgt die Gefahr von Schreibfehlern oder „Zahlendrehern“, die bei Identifikatoren zu fehlerhaften Zuordnungen führen können. Darüber hinaus können Felder Abkürzungen von Merkmalsausprägungen enthalten, die im entsprechenden Feld des anderen Datensatzes nicht oder anders abgekürzt werden. Schließlich können Felder komplett leer sein, z. B. falls Befragte die Angabe ihres tagesgenauen Geburtstags verweigern. Auch wenn fehlertolerante Verfahren des Datenlinkage gerade beim Auftreten solcher Fehler gegenüber exakten Verfahren deutlich überlegen sind, so muss dennoch betont werden, dass der Linkage-Erfolg stark von der Ausgangsqualität der Identifikatoren abhängt. Für einen Überblick über Maßnahmen, die während der Studienplanung oder -durchführung zu einer hohen Datenqualität beitragen können, siehe Sakshaug und Antoni [61].

Box 1 Checkliste der wichtigsten Fragen beim Datenlinkage

Frage

  • Welche Datenquellen sollen verknüpft werden?

  • Kommen personenidentifizierende Merkmale vor?

  • Brauche ich eine Einwilligungserklärung für das Datenlinkage?

  • Welche Fehler können in Identifikatoren vorkommen und wie können diese minimiert werden?

  • Gibt es Datenfelder, die nicht Bestandteil des Identifikators sind, aber auf eine korrekte/fehlerhafte Zuordnung hinweisen können?

  • Wie hoch ist die Anzahl verlinkter Datensätze?

  • Wie kann die Güte des Linkage-Verfahrens eingeschätzt werden?

  • Gibt es strukturelle Unterschiede zwischen verlinkten und nicht verlinkten Datensätzen?

  • Wie gut ist die Datenqualität der Identifikatoren?

  • Wie groß sind falsch negative bzw. falsch positive Klassifikationen?

  • Wie gehe ich mit Zeitaspekten um?


#

Gibt es Datenfelder, die nicht Bestandteil des Identifikators sind, aber auf eine korrekte/fehlerhafte Zuordnung hinweisen können?

Der zu verlinkende Datensatz sollte auf Felder untersucht werden, die Hinweise geben, ob 2 Datensätze mit höherer Wahrscheinlichkeit zusammen gehören oder eher nicht. Beispiele dafür sind:

  • Enthält der eine Datensatz das Alter eines Kindes und der andere eine Größenangabe, so kann anhand der Größenperzentile die Passgenauigkeit der Zuordnung abgeschätzt werden.

  • Diagnosen wie Hodenkrebs oder Schwangerschaft sind geschlechtsspezifische Angaben und können für Aussagen über die Zuordnungsgenauigkeit herangezogen werden.

  • Werden Datensätze im zeitlichen Verlauf verlinkt, so kann überprüft werden, inwiefern Parameter über die Zeit variieren. So sollte die Körpergröße eines Kindes nur ansteigen, die eines Erwachsenen im mittleren Lebensalter hingegen in etwa konstant bleiben, im höheren Alter eher fallen. Auch Dauerdiagnosen könnten herangezogen werden.


#
#

Plausibilitätskontrollen

Wie hoch ist die Anzahl verlinkter Datensätze?

Nach jedem Datenlinkage ist die Zahl der zusammengeführten und der nicht zusammenführbaren Datensätze auf Basis der Ausgangsdateien zu überprüfen. Hierfür ist im Vorfeld eine Abschätzung vorzunehmen, wie häufig Verknüpfungen für die einzelnen Dateien auftreten müssten. Zudem sollten beobachtete Häufigkeitsverteilungen nach erfolgtem Linkage auf Plausibilität überprüft werden.


#

Wie kann die Güte des Linkage-Verfahrens eingeschätzt werden?

Zur Überprüfung des gewählten Verfahrens kann auch eine Validierungsstudie als Referenzlösung eingesetzt werden [38]. Die Referenzlösung würde in diesem Fall die Zuordnung von Datenpaaren beinhalten, z. B. basierend auf Klartextdaten, die als zusammengehörig eingestuft wurden. Dadurch kann dann eine Bewertung der Güte des Datenlinkages mittels Sensitivität und Spezifität erfolgen, die den Anteil der korrekt verknüpften Personen bzw. den Anteil der korrekt nicht-verknüpften Personen angibt und eine Aussage über die Größe der falsch negativen bzw. falsch positiven Klassifikation (s. u.) erlaubt.


#

Gibt es systematische Unterschiede zwischen verlinkten und nicht verlinkten Datensätzen?

Nach Abschluss des Datenlinkage werden i.d.R. die zu beantwortenden Fragestellungen nur mit den Datensätzen bearbeitet, bei denen ein erfolgreiches Linkage stattgefunden hat. Datensätze, die nicht verlinkt wurden, bleiben bei diesen Analysen unberücksichtigt.

Es ist jedoch zu überprüfen, ob die nicht verlinkten Datensätze eine spezifische Struktur aufweisen, die entweder für die fehlgeschlagene Verknüpfung verantwortlich zeichnet (z. B. könnten die Daten einer Quelle aufgrund der Aktualität der zweiten Quelle noch nicht vorliegen) oder die einen systematischen Bias in dem verlinkten Datensatz bewirken könnte. Aus diesem Grunde sollten die wesentlichen Merkmale im verlinkten und nicht verlinkten Datensatz untersucht werden, um strukturelle Unterschiede zu verifizieren [52].


#
#

Qualität der Identifikatoren

Im Rahmen der Studienplanung sollte eruiert werden, inwiefern die zum Datenlinkage vorgesehenen Identifikatoren eine eindeutige Identifizierung des tragenden Objektes, also in der Regel einer Person, ermöglichen. Es könnte aber auch ein spezieller Klinikaufenthalt einer Person sein, an den Angaben von Krankenkassen oder Rententrägern gelinkt werden sollen. Folgenden Fragen sollten in diesem Zusammenhang nachgegangen werden:

Wie gut ist die Datenqualität der Identifikatoren?

Ist zu Beginn der Studie bekannt, dass die Datenqualität der vorhandenen Identifikatoren schlecht ist oder diese nur teilweise vorhanden sind, liefern indirekte Linkage-Verfahren bessere Ergebnisse als direkte Verfahren, verbrauchen aber mehr Ressourcen und Zeit. Vor- und Nachteile der einzelnen Verfahren sollten daher im Kontext der Fragestellung vor Beginn des Datenlinkages abgewogen werden.


#

Wie groß sind falsch negative bzw. falsch positive Klassifikationen?

Der zu verlinkende Datensatz sollte auf Felder untersucht werden, die Hinweise geben, ob 2 Datensätze mit höherer Wahrscheinlichkeit zusammen gehören oder eher nicht. Beispiele dafür sind:

  • Falsch negative Klassifikation oder Synonymfehler: Zusammengehörende Datensätze können wegen unterschiedlicher Identifikatoren nicht zusammengeführt werden. Falsch negative Klassifikationen entstehen, wenn Schreibfehler oder zu viele Änderungen in den Identifikatoren auftreten.

  • Falsch positive Klassifikation oder Homonymfehler: Nicht zusammengehörende Datensätze werden wegen scheinbar identischen Identifikatoren fälschlicherweise als zusammengehörend ausgewiesen. Ursachen für falsch positive Klassifikationen sind zufällig identische Merkmale, die z. B. durch einen häufigen Namen entsteht, oder eine zu geringe Trennschärfe des Linkage-Verfahrens.

Erfolgt das Datenlinkage aufgrund von Klartextangaben, so kann der Einsatz von Ähnlichkeitsfunktionen oder die Mitführung von Kontrollnummern bei numerischen Identifikatoren Fehler reduzieren helfen.

Sofern möglich, sollten stichprobenhaft mittels eines anderen Verfahrens der Umfang von Fehlern überprüft werden (s. Punkt zur Validierungsstudie [38]).


#
#

Datenlinkage im zeitlichen Verlauf

Wie gehe ich mit Zeitaspekten um?

  • Falsch negative Klassifikation bei einmaliger Zusammenführung: Wie lange liegen die Erhebungszeiträume der unterschiedlichen Datenquellen auseinander und wie wahrscheinlich ist es, dass sich in dieser Zeit identifizierende Merkmale geändert haben?

  • Falsch negative Klassifikation bei mehrmaliger Zusammenführung: Sind die gewählten Identifikatoren persistent oder könnten sich Merkmale, die in den Identifikator einfließen, über die Zeit ändern? (Bsp. 1: Vor Einführung der lebenslangen Versichertennummer in der Gesetzlichen Krankenversicherung (GKV) änderte sich die Versichertennummer einer Person bei jedem Versicherungswechsel, aber auch bei Krankenkassenfusionen; Bsp. 2: Nachnamen, Wohnort, aber auch das Geschlecht können sich im Laufe des Lebens ändern)

Hat man zum Zeitpunkt des Linkage Einfluss auf die Bildung der Identifikatoren, so kann man im Falle von Änderungen mit „Übersetzungstabellen“ arbeiten, die alte und neue Identifikatoren und ihre Zuordnung enthalten.


#
#
#

Ausblick

Mit dieser ersten Bestandsaufnahme haben wir versucht, eine mögliche Hilfestellung bzw. Anregungen für Projekte, Gutachter sowie Datenschützer und Ethikkommissionen zu geben und konkrete Ansatzpunkte für ein erfolgreiches Datenlinkage zu benennen. Im März 2017 wurde mit GUILD (GUidance for Information about Linking Data sets) auch eine erste internationale Richtlinie für das Datenlinkage veröffentlicht [62], welche parallel zu unserem Projekt entstand. Bei unserer Publikation handelt es sich in Abgrenzung zu GUILD um eine erste Bestandsaufnahme im Kontext der deutschen Rahmenbedingungen, die im Zuge neuer relevanter Entwicklungen praxisnah und in strukturierter Form durch die Projektgruppe überarbeitet werden sollte.

Generell lässt sich festhalten, dass die Rahmenbedingungen für ein Linkage verschiedener Datenquellen in Deutschland im Vergleich zu anderen Ländern schwieriger sind. Dies ist sicherlich ein Grund dafür, dass (vorhandene) Daten hierzulande bislang vergleichsweise selten verknüpft werden. So gibt es in Kanada, Schweden oder Dänemark bspw. ab Geburt eine eindeutige Sozialversicherungsnummer, die in allen gesundheitsrelevanten Daten vorhanden ist und auch für Forschungszwecke die Verknüpfung verschiedener Daten ermöglicht. International findet Deutschland mittlerweile langsam Anschluss an den Stand in anderen Ländern, in denen Datenlinkage bereits seit diversen Jahren erfolgreich praktiziert wird [63].

Box 2 Relevante Definitionen

Aggregatdaten

„Im Sinne des Nutzens für Sekundärdatenforschung sind unter Aggregatdaten zusammenfassende Darstellungen von statistischen Auswertungen in Form von Häufigkeits- und Kreuztabellen zu verstehen. Sie können als Vergleichswerte für Repräsentativitätsprüfungen einer Stichprobe verwendet werden oder als eine Quelle von Makrodaten für Mehrebenenanalysen dienen.“ [69], S. 504

Anonymisierung

„Definition nach BDSG §3 (6) BDSG: Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.“ [2], S. 126

Blocking

Blocking, das in der Literatur alternativ auch als Filtering oder Indexing bezeichnet wird, dient einer Effizienzsteigerung des Verknüpfungsprozesses. Statt alle Beobachtungseinheiten eines Datenbestandes mit allen Beobachtungseinheiten eines anderen Datenbestandes abzugleichen, werden nur jene Datenpaare abgeglichen, die bei einem oder mehreren Identifikatoren identisch sind (klassisches Blocking) oder eine sehr hohe Ähnlichkeit aufweisen. [24] (S. 69)

Bloom-Filter

Ganz allgemein sind Bloom-Filter Bit-Arrays (Ketten von Nullen und Einsen) deren Länge vorab zu definieren sind, wobei zunächst alle Positionen auf Null gesetzt sind. Im Rahmen des privacy-preserving record linkage verschlüsseln nun Hash-Funktionen einen Original-Identifikator und bestimmen so, welche der Nullen im Bit-Array durch Einsen ersetzt werden. Diese Bit-Arrays lassen keinen Rückschluss auf die Original-Identifikatoren zu, können aber für ein fehlertolerantes Record Linkage herangezogen werden. [26]

Dateneigner

„Unter diesem Begriff werden im Rahmen der GPS diejenigen Institutionen verstanden, die die Daten (primär) erheben, speichern und nutzen. Dateneigner und Primärnutzer sind als Synonym zu verstehen. Der Begriff Dateneigner hebt jedoch zusätzlich hervor, dass der Primärnutzer auch die rechtliche Verfügungsgewalt über die Daten besitzt. Im Bereich der Gesetzlichen Sozialversicherung sind Dateneigner beispielsweise Krankenkassen oder Rentenversicherungsträger, die versichertenbezogene (medizinische) Daten für administrative Aufgaben speichern, ebenso wie (Krebs-)Registerstellen, arbeitsmedizinische Untersuchungsstellen oder epidemiologische Einrichtungen.“ [2], S. 126

Datenlinkage / Record Linkage

„Datenlinkage (in der Informatik „record linkage“) bezeichnet die Verknüpfung verschiedener Datenquellen mittels geeigneter Schlüsselvariablen.“ [5], S. 180

Personenbezogene Daten

„Unter personenbezogenen Daten sind im epidemiologischen Sinne solche Informationen zu verstehen, die einer einzelnen bestimmten oder bestimmbaren natürlichen Person als Beobachtungseinheit zugeordnet werden können.“ [2], S. 126

Primärdaten

„Primärdaten sind Daten, die im Rahmen ihres originär vorgesehenen Verwendungszwecks aufbereitet und analysiert werden.“ [2], S. 125

Privacy-preserving record linkage

Unter dem Überbegriff privacy-preserving record linkage lassen sich Verfahren zusammenfassen, die eine Verknüpfung von Datensätzen unterschiedlicher Dateneigner ermöglichen, ohne dass zwischen den Dateneignern personenidentifizierende Daten ausgetauscht werden. Zu diesem Zweck kann eine Treuhandstelle herangezogen werden. Alternativ können die Dateneigner verschlüsselte Identifikatoren (z. B. Kontrollnummern, Bloom Filter) austauschen und für die Verknüpfung heranziehen, die keinen oder nur mit unverhältnismäßig großem Aufwand Rückschluss auf die Identität der Beobachtungseinheiten erlauben. [24]

Pseudonymisierung

„Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren (‚faktische Anonymisierung‘; Bundesdatenschutzgesetz (BDSG) §3 (6a)). Dabei werden die direkt personenidentifizierenden Daten (z. B. Name, Vorname, Telefonnummer, Sozialversicherungsnummer, Personalausweisnummer) aus den Daten entfernt und durch eindeutige Kennzeichen (z. B. eine Identifikationsnummer) ersetzt. Pseudonymisierte Daten sind weiterhin personenbezogen. Eine Pseudonymisierung ist insbesondere dann notwendig, wenn personenbezogene Daten über ein bekanntes Pseudonym bereits pseudonymisierten Daten zugeordnet werden sollen.“ [2], S. 126

Schlüsselvariable / Identifikator

Eine Schlüsselvariable (Identifikator) dient der eindeutigen Identifizierung des zu verlinkenden Objektes. Sie kann aus einem oder mehreren Merkmalen bestehen. Man unterscheidet zwischen direkten und indirekten Identifikatoren.

Sekundärdaten

„Sekundärdaten sind Daten, die einer Auswertung über ihren originären, vorrangigen Verwendungszweck hinauszugeführt werden. Maßgeblich für die Einstufung als Sekundärdaten sind Unterschiede zwischen dem primären Erhebungsanlass und der nachfolgenden Nutzung. Für die Einstufung ist es unerheblich, ob die weitergehende Nutzung durch den Dateneigner selbst oder durch Dritte erfolgt. Demnach sind beispielsweise Routinedaten einer Krankenkasse nicht nur Sekundärdaten, wenn sie für wissenschaftliche Fragestellungen genutzt werden, sondern z. B. auch dann, wenn sie durch die Krankenkasse für Zwecke der Versorgungsplanung herangezogen werden.“ [2], S. 125 f.

Der Begriff der Sekundärdaten wird oftmals umgangssprachlich synonym mit anderen Begriffen wie claims data, administrativen Daten, Abrechnungs- oder Routinedaten verwendet. Bei den genannten Begriffen handelt es sich zweifelsohne um Sekundärdaten, sie sind allerdings nur Teile davon.

Sozialdaten

Nach SGB X §67 Abs. 1 Satz 1 handelt es sich dabei um „…Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener), die von einer in § 35 des Ersten Buches genannten Stelle im Hinblick auf ihre Aufgaben nach diesem Gesetzbuch erhoben, verarbeitet oder genutzt werden.“ Sozialdaten unterliegen besonderen datenschutzrechtlichen Auflagen, die nach Anonymisierung nicht mehr gelten.

Treuhandstelle/Vertrauensstelle

„Sollen in einem Forschungsprojekt die Daten unterschiedlicher Dateneigner zusammengefügt oder Datensätze mit Personenidentifikatoren gespeichert werden, ist die Einrichtung einer Vertrauensstelle (oft als Treuhänderstelle bezeichnet) notwendig. Ihre Aufgabe ist neben der Weitergabe von pseudonymisierten/anonymisierten Daten vor allem die Speicherung der Personenidentifikatoren sowie der Schlüsselvariablen, die eine Zusammenspielung von Teildatensätzen erlauben.“ [9], S. 14


#
#

Interessenkonflikt

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Danksagung

Die Erarbeitung dieses Quo Vadis Datenlinkage wurde ohne externe finanzielle Unterstützung durchgeführt. Wir danken allen Mitgliedern der beteiligten Arbeitsgruppen, die uns durch ihre Hinweise unterstützt haben.

1 Die wichtigtsen Begriffe sind im Glossar in Box 2 zu finden.


2 https://www.bmbf.de/pub/Medizininformatik.pdf; Zugriff am 19.11.2017


3 https://innovationsfonds.g-ba.de/versorgungsforschung/foerderbekanntmachung-versorgungsforschung-zum-themenspezifischen-bereich.1; Zugriff am 19.11.2017


4 https://www.normenkontrollrat.bund.de/Webs/NKR/Content/DE/Artikel/2017-11-07_gutachten_register.html?nn=1660354; Zugriff am 19.11.2017


5 Diese Publikation fokussiert lediglich auf alle Belange, die mit einem Datenlinkage verbunden sind. Es gelten darüber hinaus andere Standards sowie andere gesetzliche Regelungen usw.


6 https://www.dgou.de/uploads/media/AQUA_Qualitaetsreport_2013.pdf; Zugriff am 09.11.2017


7 Weitere Informationen über das hier zitierte BASiD-Projekt finden auch unter: http://fdz.iab.de/de/FDZ_Projects/BASID.aspx, Zugriff am 19.11.2017



Korrespondenzadresse

Dr. Stefanie March, MA
Medizinische Fakultät
Institut für Sozialmedizin und Gesundheitsökonomie
Otto-von-Guericke-Universität Magdeburg
Leipziger Straße 44
39120 Magdeburg