Anonymisierung von Feldinhalten in hausärztlichen Behandlungsdaten –
                    Exemplarische Untersuchung an zwei Forschungsdatensätzen

Johannes Hauswaldt; Roland Groh; Knut Kaulke; Falk Schlegelmilch; Alireza Zarei; Eva Hummers

doi:10.1055/a-2624-0084

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000022.xml

Share / Bookmark

Facebook Linkedin Weibo

Download PDF

CC BY 4.0 · Gesundheitswesen
DOI: 10.1055/a-2624-0084

Originalarbeit

Anonymisierung von Feldinhalten in hausärztlichen Behandlungsdaten – Exemplarische Untersuchung an zwei Forschungsdatensätzen

Anonymization of general practitioners‘ electronic medical records in two research datasets

Johannes Hauswaldt

¹Institut für Allgemeinmedizin, Universitatsmedizin Göttingen, Göttingen, Germany

,

Roland Groh

²AG "Anwendungs- und Informationssysteme", Gesellschaft für Wissenschaftliche Datenverarbeitung mbH Göttingen, Göttingen, Germany

,

Knut Kaulke

³Data protection, Technologie- und Methodenplattform für die vernetzte medizinische Forschung (TMF), Berlin, Germany

,

Falk Schlegelmilch

⁴Department of General Practice, University Medical Center Göttingen, Göttingen, Germany

,

Alireza Zarei

²AG "Anwendungs- und Informationssysteme", Gesellschaft für Wissenschaftliche Datenverarbeitung mbH Göttingen, Göttingen, Germany

,

Eva Hummers

¹Institut für Allgemeinmedizin, Universitatsmedizin Göttingen, Göttingen, Germany

› Author Affiliations

› Further Information

Also available at

Abstract
Full Text
References

Permissions and Reprints

Zusammenfassung

Einleitung

Daten eines Datensatzes können nur dann als „anonym“ bezeichnet werden, wenn sie keinesfalls und auch nicht nachträglich, auch nicht durch Verknüpfung mit weiteren Informationen, auf eine Person bezogen werden können. Potentiell identifizierende Feldinhalte (PIF) verhindern die „faktische Anonymisierung“ eines wissenschaftlich genutzten Sekundärdatensatzes. An zwei Quelldatensätzen aus hausärztliche Praxisdaten wurde exemplarisch untersucht, ob und inwieweit schrittweises und systematisches Erkennen von PIF möglich ist.

Methodik

Von 14.285 bzw. 100 Patient*innen wurden aus hausärztlichen Praxisverwaltungssystemen Routinedaten mit 40 Variablen (Parametern, Feldern) in 5.918.321 bzw. 363.084 Datenzeilen exportiert und auf den vier Ebenen ihrer Feldkennungen, deren Kombinationen, ihrer Feldinhalte sowie des gesamten Datensatzes untersucht. Häufigkeiten von Feldkennungen wurden in elf semantischen Gruppen sowie nach Feldtypen geordnet. Die Gefahr einer Re-Identifizierung insbesondere bei Kombination von Feldkennungen wurde aus hausärztlicher Expertise beurteilt. In schrittweise iterativem Vorgehen untersuchten wir auf PIF bei Freitexteinträgen und maskierten Treffer für die nachfolgenden Durchgänge. Der abschließende Quotient aus Anzahl re-identifizierender und Gesamtzahl aller Datenzeilen bildete den Wahrscheinlichkeitsschätzer. Zusätzlich wurden die Daten in Gänze mittels einer Open-Source-Software zur Anonymisierung sensibler personenbezogener Daten beurteilt. Zuletzt erfolgte eine Ergebnisbewertung im Sinne einer Datenschutz-Folgenabschätzung nach Art. 35 der DSGVO bezüglich Schwere eines möglichen Schadens und seiner Eintrittswahrscheinlichkeit.

Ergebnisse

Unter den zur wissenschaftlichen Sekundärnutzung ausgewählten 40 Parametern beurteilten wir insbesondere Freitextfelder wie „Dauerbemerkungen“, „Aktuelle Diagnose“, „Medikament“ und „Befund“ als re-identifizierend. Akribische Vorabauswahl und Datensparsamkeit, privacy by design im Verarbeitungsprozess sowie die hier beschrieben de-identifizierende Maßnahmen verringerten dieses Risiko erheblich, konnten jedoch einen „faktisch anonymen“ Sekundärdatensatz insgesamt nicht erreichen.

Schlussfolgerung

Erkennen und Bewerten von PIF sind Voraussetzung für de-identifizierende Maßnahmen, sind jedoch mit vertretbarem Aufwand immer nur unvollständig erfolgreich. Eine semantische Strukturierung der Daten ist erstrebenswert, hilft jedoch der Möglichkeit einer Re-Identifizierung durch Fehleingaben nicht ab.

Abstract

Introduction

A dataset can be called “anonymous” only if its content cannot be related to a person, not by any means and not even ex post or by combination with other information. Free text entries highly impede “factual anonymization” for secondary research. Using two source datasets from GPs’ electronic medical records (EMR), we aimed at de-identification in an iterative and systematic search for potentially identifying field content (PIF).

Methods

EMR data of 14,285 to 100 GP patients with 40 variables (parameters, fields) in 5,918,321 resp. 363,084 data lines were analyzed at four levels: field labels, their combination, field content, dataset as a whole. Field labels were arranged into eleven semantic groups according to field type, their frequencies examined and their combination evaluated by GP experts rating the re-identification risk. Iteratively we searched for free text PIFs and masked them for the subsequent steps. The ratio of PIF data lines’ number over total number yielded final probability estimators. In addition, we processed a whole dataset using ARX open source software for anonymizing sensitive personal data. Results were evaluated in a data protection impact assessment according to article 35 GDPR, with respect to the severity of privacy breach and to its estimated probability.

Results

We found a high risk of re-identification with free text entries into “history”, “current diagnosis”, “medication” and “findings” even after repeated algorithmic text-mining and natural language processing. Scrupulous pre-selection of variables, data parsimony, privacy by design in data processing and measures described here may reduce the risk considerably, but will not result in a “factually anonymized” research dataset.

Conclusion

To identify and assess re-identifying field content is mandatory for privacy protection but anonymization can be reached only partly by reasonable efforts. Semantic structuring of data is pre-conditional but does not help with erroneous entries.

Schlüsselwörter

Datenschutzfolgenabschätzung - Routinedaten - Praxisverwaltungssystem - Identifikator - Text mining - Natural language processing

Keywords

data protection impact assessment - routine data - practice management system - identifier - text mining - natural language processing

Publication History

Received: 30 July 2024

Accepted: 21 January 2025

Article published online:
14 July 2025

© 2025. The Author(s). This is an open access article published by Thieme under the terms of the Creative Commons Attribution License, permitting unrestricted use, distribution, and reproduction so long as the original work is properly cited. (https://creativecommons.org/licenses/by/4.0/).

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany

Literatur
1 DSGVO: Datenschutz-Grundverordnung. Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten, zum freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG. Erwägungsgrund 26, Satz 5 und 6: https://dsgvo-gesetz.de/erwaegungsgruende/nr-26/ letzter Zugriff 20240714

MissingFormLabel
PubMed
2 Hauswaldt J, Kempter V, Himmel W. et al. Hindernisse bei der sekundären Nutzung hausärztlicher Routinedaten. Gesundheitswesen 2018; 80: 987-993

MissingFormLabel
Thieme Connect PubMed Search in Google Scholar
3 EuGH. Urteil des Gerichtshofs (Zweite Kammer) vom 19. Oktober 2016. Patrick Breyer gegen Bundesrepublik Deutschland. Aktenzeichen C-582/14 Europäischer Gerichtshof. 2016

MissingFormLabel
PubMed Search in Google Scholar
4 EuGH. Urteil des Europäischen Gerichtshofes (Dritte Kammer) vom 9. November 2023. Gesamtverband Autoteile-Handel e. V. gegen Scania CV AB. Aktenzeichen C-319/22 Europäischer Gerichtshof. 2023

MissingFormLabel
PubMed Search in Google Scholar
5 Deutsche Stiftung für Allgemeinmedizin und Familienmedizin. Die Initiative Deutscher Forschungspraxennetze – DESAM-ForNet. ZFA 2021; 97 S. 187-189

MissingFormLabel
PubMed Search in Google Scholar
6 Bahls T, Pung J, Heinemann S. et al. Designing and piloting a generic research architecture and workflows to unlock German primary care data for secondary use. Journal of Translational Medicine 2020; 18: 394

MissingFormLabel
Crossref PubMed Search in Google Scholar
7 Hauswaldt J, Bahls T, Blumentritt A. et al. Sekundäre Nutzung von hausärztlichen Routinedaten ist machbar – Bericht vom RADAR Projekt. Gesundheitswesen 2021; 83: S130-S138

MissingFormLabel
Thieme Connect PubMed Search in Google Scholar
8 Bundesministerium für Gesundheit. (Hg.) (2024): Gesetz zur verbesserten Nutzung von Gesundheitsdaten. BGBl. I Nr. 102 vom 22.03.2024. Online verfügbar unter https://www.recht.bund.de/bgbl/1/2024/102/VO.html zuletzt geprüft am 21.05.2024

MissingFormLabel
PubMed
9 Hauswaldt J, Demmer I, Heinemann S. et al. Das Risiko von Re-Identifizierung bei der Auswertung medizinischer Routinedaten – Kritische Bewertung und Lösungsansätze. Z Evid Fortbild Qual Gesundhwes 2019; 149: 22-31

MissingFormLabel
Crossref PubMed Search in Google Scholar
10 TextCrawler Free 3.0, 2014: https://www.digitalvolcano.co.uk/ letzter Zugriff 20.08.2022

MissingFormLabel
PubMed
11 Scheible R, Thomczyk F, Tippmann P. et al. GottBERT: A Pure German Language Model 2020

MissingFormLabel
PubMed
12 ARX Data Anonymization Tool https://arx.deidentifier.org/ letzter Zugriff 24.06.2023

MissingFormLabel
PubMed
13 Pommerening K, Drepper J, Helbing K. et al. Leitfaden zum Datenschutz in medizinischen Forschungsprojekten. MWV Medizinisch Wissenschaftliche Verlagsgesellschaft. 2014 ISBN 978-3-95466-123-7

MissingFormLabel
PubMed Search in Google Scholar
14 Rehak R. Zentralisierte Gesundheitsdaten – Ein technisch-grundrechtlicher Blick auf die Zusammenführung der Krankenkassendaten in Deutschland. In: Derin, B et al. (Hg.). Grundrechte-Report 2023 – Zur Lage der Bürger- und Menschenrechte in Deutschland. Fischer Taschenbuch; Frankfurt am Main: 2023: 32-36

MissingFormLabel
Search in Google Scholar
15 Im E, Kim H, Lee H. et al. Exploring the tradeoff between data privacy and utility with a clinical data analysis use case. BMC Med Inform Decis Mak 2024; 24: 147

MissingFormLabel
Crossref PubMed Search in Google Scholar
16 Drepper J, Semler SC. IT-Infrastrukturen in der Patientenorientierten Forschung: Aktueller Stand und Handlungsbedarf – 2016. Akademische Verlagsgesellschaft AKA. 2017 ISBN: 978-3-89838-723-1

MissingFormLabel
PubMed Search in Google Scholar
17 Druschke D, Arnold K, Heinrich L. et al. Individuelles Datenlinkage von Primär- und Sekundärdaten aus drei Datenquellen zur umfassenden Analyse der Effekte eines geringen Geburtsgewichtes von Kindern. Gesundheitswesen 2020; 82: S108-S116

MissingFormLabel
Thieme Connect PubMed Search in Google Scholar
18 Specht-Riemenschneider L, Heineking B. Datenverarbeitung in sicheren Verarbeitungsumgebungen am Beispiel von MRT-Gehirnscans – zugleich ein Plädoyer für eine rechtssichere Forschungsgrundlage. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2024; 67: 180-188

MissingFormLabel
Crossref PubMed Search in Google Scholar