Open Access
CC BY 4.0 · Gesundheitswesen
DOI: 10.1055/a-2619-9632
Originalarbeit

Standortbestimmung zur Forschung mit Sekundärdaten im Forschungsdatenzentrum Gesundheit

State of efficient research on secondary health data in the German health data lab
1   Fraunhofer Institute for Digital Medicine MEVIS, Bremen, Germany
,
Dörte Corr
1   Fraunhofer Institute for Digital Medicine MEVIS, Bremen, Germany
,
Nico Riedel
3   Forschungsdatenzentrum Gesundheit, Bundesinstitut für Arzneimittel und Medizinprodukte, Bonn, Germany
,
Jana Hapfelmeier
4   Business and Technology Solutions, Capgemini Deutschland GmbH, Berlin, Germany
,
Lea Zimmermann
4   Business and Technology Solutions, Capgemini Deutschland GmbH, Berlin, Germany
› Author Affiliations
 

Zusammenfassung

Das Forschungsdatenzentrum Gesundheit (FDZ) ist verantwortlich für die Erschließung pseudonymisierter Abrechnungsdaten aller gesetzlich Krankenversicherten in Deutschland. Diese Daten liefern longitudinale Informationen zur Gesundheitsversorgung eines großen Teils der deutschen Bevölkerung. Sie für die Sekundärnutzung im Bereich Forschung und Entwicklung zugänglich zu machen, ist ein gesetzlich verankertes Ziel. Die technologische Basis unterliegt einem fortlaufenden Entwicklungsprozess, in dessen Zuge immer wieder die Möglichkeit besteht, sich den Wünschen und Bedürfnissen der Zugangsberechtigten zu stellen, die sich gleichfalls ändern und entwickeln. Mit der vorliegenden Standortbestimmung soll ein Beitrag geleistet werden, diese Wünsche und Bedürfnisse zu erheben und zu ordnen. Die Erkenntnisse, die aus teil-strukturierten Interviews mit Nutzungsberechtigten gewonnen wurden, werden zu diesem Zweck als Empfehlungen für die Weiterentwicklung des FDZs formuliert.


Abstract

The Health Data Lab (Forschungsdatenzentrum, FDZ) is responsible for making anonymized claims data from all statutory health insurance beneficiaries in Germany available to research. These data provide longitudinal information on the healthcare of a large part of the German population, and making it available for secondary use in research and development is a legally enshrined goal. The technological basis is subject to a continuous development process, which repeatedly offers the opportunity to address the evolving needs and requirements of authorized users. The present assessment aims to contribute to the identification and classification of these needs and requirements. The findings obtained from semi-structured interviews with authorized users are formulated as recommendations for the further development of the FDZ.


Einleitung

Das Forschungsdatenzentrum Gesundheit

Das Forschungsdatenzentrum Gesundheit (FDZ) hat das Ziel, systematische Forschungsarbeit (Sekundärnutzung) anhand von erfassten abgerechneten Versorgungsleistungen in Deutschland zu ermöglichen. Aktuell erhält das FDZ die Abrechnungsdaten von ca. 70 Mio. gesetzlich Krankenversicherten in Deutschland, welche jährlich in pseudonymisierter Form vom Spitzenverband Bund der Krankenkassen übermittelt werden. Die Pseudonymisierung wird vom Robert-Koch-Institut (RKI) als unabhängige Vertrauensstelle übernommen, bevor die Daten an das FDZ übermittelt werden. Art und Umfang der übermittelten Abrechnungsdaten der ambulanten und stationären Versorgung sind gesetzlich vorgeschrieben [1]. Die Datenbank des FDZ befindet sich derzeit im phasenweisen Aufbau und soll zeitnah für die gesetzlich festgelegten Antragsberechtigten zugänglich gemacht werden. Ein Ziel in den weiteren Jahren ist es, den Datenbestand um Daten aus dem Bereich sonstiger Leistungserbringer im Gesundheitswesen zu erweitern und den Antragsberechtigten zur Verfügung zu stellen.

Erstmalig wurden die Voraussetzungen für die Bereitstellung von Abrechnungsdaten der gesetzlichen Krankenversicherung durch die Einführung der Paragraphen §303a-f im fünften Sozialgesetzbuch durch das GKV-Modernisierungsgesetz von 2003 geschaffen. Ziel war dabei, Routinedaten über die Grenzen von Versorgungssektoren oder Krankenkassen hinweg zu erschließen, um diese für Forschungs- und Auswertungszwecke zur Verfügung zu stellen. Mit der Datentransparenzverordnung (DaTraV) von 2012 wurde festgelegt, dass die Datenaufbereitungsstelle am Deutschen Institut für Medizinische Dokumentation und Information (DIMDI) die Abrechnungsdaten für Nutzungsberechtigte zur Verfügung stellt. Diese nahm 2014 ihren Betrieb auf. Unter anderen wegen des nur stark eingeschränkten Datenkranzes als auch der Verzögerung von bis zu vier Jahren bei der Bereitstellung neuer Daten, wurde in einer Aktualisierung der DaTraV von 2020 der Neuaufbau des FDZ am Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) als Nachfolgeorganisation der Datenaufbereitungsstelle beschlossen [2]. Die vorliegende Studie begleitete diese Phase des Neuaufbaus. Zum Zeitpunkt der Durchführung der Interviews und dieses Berichts lag der Start („Go-Live“) der neuen FDZ-Infrastruktur in der Zukunft, war aber noch nicht final terminiert.


Weiterentwicklung des FDZ

Verschiedene grundlegende Hürden, die einer wissenschaftlichen Arbeit auf den im FDZ gesammelten Daten entgegenstehen, werden von politischen und wissenschaftlichen Akteuren und Akteurinnen bereits länger diskutiert. Auch die Zielvorstellungen von Nutzungsberechtigten sind an verschiedenen Stellen zusammengetragen und bewertet worden [3] [4]. Unter anderem wurden folgende Einschränkungen in Bezug auf die Datennutzung in der alten Datenaufbereitungsstelle am DIMDI als Vorgängerorganisation des FDZ herausgearbeitet. Der Antragsprozess war zeitaufwändig und komplex. Er erforderte eine sehr enge Definition der Forschungsfrage, die auf die notwendigen Datenbankfelder heruntergebrochen werden musste. Der bereitgestellte Datenkranz wurde als zu eng wahrgenommen und es fehlten Möglichkeiten zur Verlinkung weiterer Datenquellen. Die bereitgestellten Daten waren durch einen Verzug von 4 Jahren nicht aktuell. Auch der Analyse-Prozess war zeitaufwändig und indirekt. Die Forschenden schrieben SQL-Scripte, die sie im Regelfall durch Mitarbeitende der Datenaufbereitungsstelle auf die Daten anwenden ließen. Iterativ wurden Fehler zurückgemeldet und korrigiert.

In Erwartung eines zukünftig mutmaßlich verstärkt angefragten Einsatzes von Methoden der Künstlichen Intelligenz (KI) zur Auswertung der FDZ-Daten ergeben sich vermutlich weitere Herausforderungen. Denn technisch waren die Analysen bislang auf SQL-basierte Anfragen an die Datenbanktabellen beschränkt, so dass nur einfache statistische Analysen und keine prädiktive Modellierung über lineare Modelle hinaus möglich waren. Außerdem stellt die Begrenzung der sogenannten Ergebnismenge, also der Zahl der Tabellenzellen, die aus der SQL-Anfrage resultieren dürfen, eine wesentliche Hürde für explorative Datenanalysen und bei einer Bereitstellung trainierter Modelle dar.

In Zukunft sollen als Teil der IT-Systeme des FDZ virtuelle Umgebungen zur Verfügung gestellt werden, innerhalb derer die Nutzungsberechtigten komfortabel und mit vielfältigen Werkzeugen, auch aus dem Bereich der KI-Methoden, ihre Forschungsfragen beantworten können.

Ein Ausgangspunkt der Befragung der Nutzungsberechtigten war somit die Anerkennung, dass eine breite, wertschöpfende Nutzung der umfangreichen FDZ-Daten bevorzugt auch mit modernen Data-Science-Methoden möglich sein soll, und das primäre Erkenntnisinteresse lag in der bedarfsgerechten Ausgestaltung einer hypothetischen Arbeitsumgebung.


Interviews mit Nutzungsberechtigten

Mit dem grundlegenden Neuaufbau des FDZ soll das Ziel verfolgt werden, mittels einer attraktiven Forschungsumgebung die erweiterte Nutzung der Daten der gesetzlichen Krankenversicherung (GKV) zu fördern. Dabei war es ein zentraler Wunsch, die Anforderungen und Vorstellungen der gesetzlichen Antragsberechtigten in der Konzeption und Implementierung zu berücksichtigen.

Die Autoren dieses Berichts haben für die zukünftige Weiterentwicklung des FDZs Interviews mit antragsberechtigten Forschenden durchgeführt. Der vorliegende Bericht ist aus diesen Befragungen von Nutzungsberechtigten sowie Nutzenden der Vorgängerorganisation des FDZ, der am ehemaligen DIMDI angesiedelten Datenaufbereitungsstelle, entstanden. Er spiegelt also in einer nicht-stratifizierten und nicht repräsentativen Stichprobe die Vorstellungen von Personen mit und ohne vorherige Erfahrung mit dem Antragswesen und den Analyse-Werkzeugen wider, die die Vorgängerinstitution des FDZ bereithielt.

Da das FDZ einen sehr heterogenen Nutzendenkreis bedient, soll dieser Bericht die Diversität der Nutzungsberechtigten mit ihren konkreten Wünschen und Anforderungen bzgl. Dateninhalten, Datenformaten, Zugangswegen und benötigten Arbeitsmitteln widerspiegeln.

Der Fokus der Interviews lag auf der zukünftigen Weiterentwicklung des FDZ, so dass insbesondere die Themen Künstliche Intelligenz (KI) und KI-Tools, Datenbereitstellung für die Forschung, Anschluss von und Vergleich zu (inter-)nationalen Datenquellen, Austauschbedarf innerhalb der Community und Möglichkeiten der individuellen Datensatzerweiterung betrachtet und abgefragt wurden, um den Bedarf der Antragsstellenden hinsichtlich dieser Themen so gut wie möglich abzuleiten. Bekannte Schwächen aus vorangegangenen Untersuchungen wurden zur Herleitung, soweit nötig, thematisiert, aber nicht systematisch abgefragt. Sie wurden in den durchgeführten Interviews teils erneut bestätigt. Die Interviews wurden über einen Zeitraum von rund einem Jahr ab Februar 2022 geführt und in der Folge ausgewertet.



Herangehensweise der Requirements-Analyse

Die Requirements-Analyse erfolgte in zwei Runden, in der verschiedene Fragebögen verwendet und verschiedene Schwerpunkte gesetzt wurden. Die beiden Runden wurden unabhängig voneinander von verschiedenen Institutionen durchgeführt. Dementsprechend erfolgte die Auswahl der Interviewpartner unabhängig, doch jeweils unter Berücksichtigung der zum Umfragezeitpunkt gesetzlich als Nutzungsberechtigte gelisteten Institutionen. Es gab keine Überlappungen zwischen den beiden Interviewrunden (keine Doppelinterviews). Die Ergebnisse der Interviews wurden zunächst separat aggregiert und in Cluster von Beobachtungen, Erwartungen und Zielen zusammengefasst, und schließlich in einem gemeinsamen Dokument zusammengestellt, das die Grundlage dieses Berichts darstellt. Methodisch unterschieden sich die Interviewrunden in der Herangehensweise. Während die erste Runde vor allem der freien Exploration der von den Interviewenden vorgeschlagenen Dimensionen diente, verfolgten die Interviews der zweiten Runde den Zweck, die in der ersten Runde gefundenen Dimensionen genauer auszuleuchten. So waren die Interviews der ersten Runde deutlich offener, während ein stärker strukturierter Fragenkatalog die zweite Runde prägte. In der zweistufigen Auswertung (erst separat, dann integriert) sollte sichergestellt werden, dass möglicher Selektions-Bias vermieden wird. Wir gehen allerdings davon aus, dass durch die nicht-repräsentative Auswahl der Interviewten eine größere Gefahr von Verzerrung existieren kann, als durch die Auswertemethode hinzukommt.

Um Hinweise auf gewünschte Auswertemethoden, Toolunterstützung und Hardware zu erlangen, erfolgten die Interviews der ersten Runde vor allem hinsichtlich forscherischer Aspekte und mit einem starken Fokus auf Machine Learning und KI. In insgesamt acht Interviews von je 60–90 Minuten Länge wurden die bisherigen Erfahrungen mit dem Antragsprozess und der praktischen Arbeit mit den Daten gesammelt und Beispiele für Forschungsfragen und eigene Wünsche der Interviewpartner und -partnerinnen aufgenommen. Die Befragten waren Mitarbeitende von Forschungsinstitutionen, Universitäten, Krankenkassen sowie des Bundesgesundheitsministeriums. Dabei wurde in der ersten Runde zunächst ein vorbereiteter Fragenkatalog befolgt (siehe Online-Anhang 1). Die Interviews wurden nach den einleitenden Fragen weitgehend frei geführt, da das Kollektiv der Interviewpartnern und -partnerinnen sehr heterogen hinsichtlich aller Merkmale (Erfahrungen, Ziele, Methoden) war.

In einer zweiten Interviewrunde und teilweise auf Erfahrungen mit den ersten Interviews aufbauend wurden weitere Interviews mit antragsberechtigten Forschenden durchgeführt. Hierbei erfolgte unter den Interviewenden noch kein detaillierter Austausch inhaltlicher Erfahrungen, sondern lediglich zu „best practices“ über die Vorbereitung und Durchführung, also zum Beispiel geschlossene versus offene Fragen etc. Daneben wurden die Einschlusskriterien für Interviewpartner und -partnerinnen verfeinert. Aus der Gruppe der berechtigten Antragsstellenden gemäß Datentransparenzgesetz wurden erneut Interviewpartner und -partnerinnen aus den Bereichen Krankenversicherung (Controlling, Vorstand, Versorgungsformen), universitäre Forschung (Bio-, Informatik, Epidemiologie, Gesundheitsökonomie, Statistik, Versorgungsforschung) und Medizin identifiziert. Dabei war nun ein wesentliches Einschlusskriterium, dass die Interviewpartner und -partnerinnen Erfahrung und Anforderungen in der wissenschaftlichen datengetriebenen Analyse einbringen konnten. Insgesamt wurden 40 Personen kontaktiert, von denen sich 23 für eine Terminvereinbarung zurückgemeldet haben. Die Forschenden für diese Analyse stammen aus bestehenden Kontaktpunkten der Autorinnen und Autoren. Diese Verbindungen ergaben sich entweder aus gemeinsamen Studienerfahrungen oder aus der Zusammenarbeit in vorherigen Projekten. Der nun zugrunde gelegte systematische Fragenkatalog (siehe Online-Anhang 2) enthielt 32 Fragen in den sieben Kategorien (1) Datenangebot im FDZ, (2) Verwendung der Daten in der Lehre, (3) Herausforderungen im Arbeitsumfeld, (4) Digitale Tools zur Durchführung von Forschungsprojekten, (5) Erfahrungen mit dem FDZ und anderen (internationalen) Datenquellen, (6) Zusammenarbeit & Austausch in der Forschungslandschaft und (7) Feedback, Meinungen und Verbesserungsvorschläge. Die letzte Kategorie bot weiter Raum für subjektive Einschätzungen und konstruktive Vorschläge, während die übrigen auf möglichst objektivierbare Aussagen abzielten.

Mit dem gewählten qualitativen Ansatz zur Auswertung aller insgesamt 31 Interviews wurde durch den offenen Austausch mit den Befragten Raum für eine subjektive und breite Aufnahme der Anforderungen gelassen. Es ist daher möglich, dass nicht in jedem Interview alle Fragen beantwortet wurden und auch, dass die Reihenfolge der Interviewfragen je nach Gesprächsverlauf variieren konnte. Dadurch hatten Teilnehmende die Möglichkeit, individuelle und fokusspezifische Schwerpunkte zu setzen. Dennoch wurde sichergestellt, dass alle Kategorien in allen Interviews thematisiert wurden. Die Gespräche wurden von zwei bis vier Mitarbeitenden der Institute der Autoren durchgeführt, wobei eine Person die Gesprächsführung übernahm, während die anderen Personen für die Protokollierung zuständig waren.

Die Auswertung der Ergebnisse erfolgte durch jeweils mindestens zwei unabhängige Zusammenfassungen der Interviewprotokolle, die dann von den Autoren und Autorinnen zu einzelnen Interview-Ergebnissen zusammengefasst wurde. Über alle Interviews innerhalb der beiden Runden wurden dann die Aussagen zu Clustern gruppiert, die anschließend zwischen den beiden Runden verglichen und zusammengeführt wurden.


Ergebnisse

Die folgenden Abschnitte fassen die in den Interviews genannten Erfahrungen und Wünsche der Interviewpartnerinnen und -partner zusammen.

Antragsprozess

Alle Interviewpartner und -partnerinnen wurden initial zu ihren Erfahrungen mit dem Antragsprozess befragt. Obwohl alle zu den gesetzlichen Zugangsberechtigten zählten, war manchen von ihnen nicht bekannt, dass diese Daten ihnen prinzipiell zur Verfügung stehen. Einige der Teilnehmenden waren nicht einmal darüber informiert, dass diese Daten existieren. Entsprechend waren auch ihr Umfang und ihre Charakteristik nicht allen bekannt. In solchen Fällen führten wir die Interviews nach einer kurzen Beschreibung dennoch weiter, um die Erkenntnisse zu erlangen, ob Datenzugang und -nutzung hilfreich werden könnten, und, falls ja, unter welchen Bedingungen.

Unter den Teilnehmenden, die bereits Erfahrungen mit der ehemaligen Datenaufbereitungsstelle sammeln konnten, war die übereinstimmende Einschätzung, dass der Antragsprozess aufwändig und bürokratisch war. Dabei wurde angemerkt, dass er auch dann kostenpflichtig war, falls er nicht zum Erfolg führte. In einem Interview wurde berichtet, dass eigens eine Abteilung für Anträge auf Nutzung der Versorgungsdaten gegründet wurde, die aber nach Jahren ohne erfolgreichen Antrag wieder aufgelöst wurde. Mehrere Interviewte berichteten von monate- bis jahrelangen Antragsprozessen.

Viele Forschende haben in den Befragungen betont, dass es nahezu immer eine Herausforderung ist, zu Beginn eines Forschungsprojektes genau zu wissen, welche Daten in welcher Qualität zur Beantwortung der Forschungsfragen benötigt werden. Oftmals wären Daten undurchsichtig und lückenhaft und der Zeitraum für die Datenerhebung sei zu kurz. Probedatensätze würden die Effizienz von Forschung und Qualität von Forschungsergebnissen steigern und eine frühe Einschätzung der Machbarkeit des Vorhabens sowohl für die Antragstellenden wie auch die FDZ-Mitarbeitenden ermöglichen.

Zur Vorbereitung der Antragstellung wurden daher häufig folgende Wünsche geäußert: eine detailgenaue Übersicht über das Datenangebot, sowie downloadbare Probedatensätze. Der meistgenannte Wunsch war, dass der Probedatensatz nach der Ansicht der Forschenden frei verfügbar sein sollte, damit Variablen und Methoden vor Antragserstellung getestet werden können. In diesem Fall sollte von Gebühren und einem umfangreichen Antragsprozess abgesehen werden.

Es wurde der Vorschlag gemacht, die Probedatensätze mit einem nutzerfreundlichen Portal zu verbinden, in welchem erste Analyseskripte erstellt werden können, mit dem Ziel das Auswertesystem zu testen, ohne einen Datennutzungsantrag stellen zu müssen. Eine weitere Idee für die Phase der Beantragung des Datenzugangs war es, durch ein KI-basiertes Expertensystem eine unverbindliche Einschätzung zur Machbarkeit des Forschungsvorhabens zu erlangen, indem die erforderliche Datenmenge und das Vorhandensein aller nötigen Variablen im Datensatz des FDZ automatisiert und ohne direkten Zugriff der Nutzenden auf die Daten online geprüft wird.

Eine weitere Anforderung vor allem aus den Kreisen der Regierungsbehörden betrifft die wiederholte Ausführung gleichartiger Analysen. In diesem Szenario sollen bestimmte Auswertungen einmalig erarbeitet und anschließend entweder in regelmäßigen Intervallen ausgeführt werden, oder auf Basis eines Trigger-Events, das sich in den Daten widerspiegelt. Besonders dieses letzte Szenario ist technologisch weit von den einzelantragsbasierten Freigaben von Forschungsdaten entfernt. Die Ergebnisse solcher wiederholten Auswertungen sollten idealerweise direkt an das Nutzerkonto des Erstellers oder der Erstellerin geleitet werden.


Datenbestand, genutzte Daten und gewünschte Erweiterungen

Als wesentliche Hürde wurde identifiziert, dass der am DIMDI verfügbare Testdatensatz sich nicht eignete, eigene Datenbank-Anfragen (SQL-Queries) so vorzubereiten, dass sie direkt auf dem Echtdatensatz verwendet werden konnten. Stattdessen war eine interaktive Fehlersuche notwendig, in der die vermutlich geringe Personalausstattung bei der ehemaligen Datenaufbereitungsstelle und die damit verbundenen langen Antwortzeiten als Flaschenhals empfunden wurde. Auch die eingeschränkte Verfügbarkeit von aktuellen Daten erschien manchen Interviewpartnern oder -partnerinnen als Abschreckung, sich einem solchen Prozess zu stellen, denn die Daten konnten erst rückwirkend nach vier Jahren bereitgestellt werden.

Dass die Daten nicht für interaktive oder explorative Forschung[1 ]verfügbar waren, sondern überwiegend genutzt werden konnten, um bereits vorgefertigte Fragen zu beantworten, wurde von verschiedenen Standpunkten aus als unterschiedlich hinderlich oder einschränkend wahrgenommen. In einigen Interviews wurde betont, dass eine interaktiv-explorative Forschung oftmals der bevorzugte Ansatz ist, von einer ersten Hypothese ausgehend zu einem Ergebnis zu gelangen. Mehrere Interviewte skizzierten zudem Anwendungsfälle, in denen der FDZ-Datensatz als Validierungsdatensatz für ein bereits bestehendes Modell genutzt werden könnte, oder in denen ein klar umrissenes Vorhaben auf einem kleineren verfügbaren Datensatz vergleichbarer Struktur bereits durchgeführt wurde.

Im Krankenversicherungskontext greifen die meisten unserer Gesprächspartner und -partnerinnen auf interne Datensätze zurück und haben selten Erfahrungen mit Datenquellen außerhalb der jeweiligen eigenen Krankenkasse. Um die interne Versorgung und die Behandlung ihrer Versicherten zu evaluieren, werden ausschließlich krankenkasseninterne Daten analysiert. Ein Vergleich der unterschiedlichen Krankenkassenversorgungsstrukturen anhand von übergreifenden Datenanalysen findet kaum statt, und Daten werden nur für bestimmte wissenschaftliche Projekte untereinander geteilt.

In Deutschland existieren inhaltlich mit dem FDZ-Datensatz vergleichbarere Datensätze mit unterschiedlichem Umfang, gespeist aus verschiedenen Krankenkassen als Quellen, und jeweils mit spezifische Zugriffsregeln. In einem Interview wurde diesbezüglich der GePaRD-Datensatz[2] hervorgehoben, der für bestimmte Zwecke zur Nutzung angefragt werden kann und homogenisierte longitudinale Daten bereitstellt, die hinsichtlich der Parameter dem FDZ-Bestand vergleichbar sind. GePaRD umfasst einerseits weniger Kassenpatienten und -patientinnen, andererseits reichen die Daten ca. 20 Jahre zurück.

In der universitären Forschung hingegen werden nach der genauen Planung einer Studie die benötigten Daten oftmals bei der jeweiligen Zielinstitution (meist Krankenkassen oder Krankenhäuser) direkt angefragt. In einigen Fällen wird auch auf bestimmte Daten aus Kohortenstudien zurückgegriffen, sofern dafür die datenschutzrechtlichen Zustimmungen vorliegen. Ein großer und oftmals genannter Vorteil von unmittelbar von den Datenerzeugenden erlangten externen Datenquellen bestand darin, den gewünschten Datensatz zur eigenen Auswertung herunterladen zu können.

Offensichtlich liegt in der isolierten Betrachtung der Krankenkassen-Abrechnungsdaten ohne Verknüpfung zu anderen Datenquellen wie zum Beispiel Registerdaten, Daten anderer Forschungsdatenzentren, oder gar Datenbanken aus anderen Bereichen wie medizinische Bilddaten eine als wesentlich empfundene Einschränkung der Breite der möglichen Auswertungen. Entsprechende Hinweise zogen sich durch zahlreiche Interviews, begleitet von entsprechenden Wünschen nach Verknüpfung und wurden auch bereits in der Literatur adressiert [4].

Alle Experten und Expertinnen wünschen sich Daten, die nicht nur Erkrankungsinformationen beinhalten, sondern auch umfassende Beschreibungen Betroffener, beispielsweise Lebensstilfaktoren und weitere Variablen, die die Lebensumstände der Patienten und Patientinnen wiedergeben. Dazu gehören z. B. psychosoziale Daten wie Wohlbefinden, Lebensqualität, Familienstand und -verhältnisse sowie Lebensstilfaktoren, z. B. Alkohol- oder Nikotinkonsum, Bewegungs- und Ernährungsprofile. Besonders „Quality of Life“ als eine Basis für die Berechnung der „Quality adjusted Life Years” (QUALYs) war den Interviewpartnern und -partnerinnen wichtig. Des Weiteren wurde geäußert, dass „Real World Data“ an Stelle von „Studiendatenerhebung“ gewünscht wird. Unter dem Begriff „Real World Data“ verstanden unsere Interviewpartner und -partnerinnen Daten, die aus verschiedenen, heterogenen Quellen stammen und im täglichen Leben erhoben werden. Damit beschränken sich die Wünsche an den Datenumfang nicht ausschließlich auf Daten, die über die ePA erfassbar sind, sondern schließen auch Befragungen von Patienten und Patientinnen, Angaben der Krankenversicherungen oder persönliche Consumer-Hardware mit ein.

Insbesondere Mediziner und Medizinerinnen wünschen sich eine ganzheitlich abgebildete elektronische Gesundheitsakte, sodass Details und Longitudinaldaten in ihrer Forschung berücksichtigt werden können. Auch für die Wirtschaftsinformatik sowie unter den Experten und Expertinnen der Krankenkassen ist der gesamte Klinikdatenpool von Interesse. Nicht zuletzt wurde von fünf Experten und Expertinnen gewünscht, dass auch der Zugriff auf Registerdaten, wie z. B. Krebsregister, Krankheitsregister oder Transplantationsregister für die aktuelle Forschung möglich wird.

So nachvollziehbar dieser Wunsch aus der Sicht der Datenanalyse ist, so realistisch schätzten die Interviewten allerdings dessen Realisierbarkeit ein, die nicht nur aus Datenschutzperspektive, sondern auch aus technischer Sicht auf zahlreiche Hürden trifft.

In einem Teil der durchgeführten Interviews wurde auch die übliche Praxis der Interviewpartner und -partnerinnen zur Erfassung von Studien- und Kohortendaten und der dazu erforderlichen Einwilligungserklärungen (informed consent) in Nicht-FDZ-Studien erfragt. Gerade bei der Nutzung zusätzlicher Studiendaten besteht der Wunsch nach einer standardisierten, digitalen Methodik zur Erfassung und Verwaltung von Einverständniserklärungen, die zumindest teilweise eine Verknüpfung von Datenbeständen für definierte Zwecke erlauben könnte.

Fehlende Standards nannten einige Forschenden auch als Einschränkung der Nutzenden-Freundlichkeit von Datensätzen und als Hürde hinsichtlich der Zusammenarbeit unter Forschenden. Das bezieht sich sowohl auf fehlende Standards zum Datenaustausch, also physische Datenformate und Tabellenstrukturen, als auch auf fehlende Standards in den semantischen Interpretationen der Datenfelder und Differenzen bereits bei der Befüllung durch die Daten-liefernden Institutionen (z. B. gesetzliche Krankenkassen).


Datenanalyse und Infrastruktur

Um die Zusammenarbeit mit anderen Forschenden bestmöglich zu unterstützen, erhofften sich die Interviewpartner und -partnerinnen an erster Stelle eine gut durchdachte Infrastruktur, die Nutzende leicht navigieren können und die dauerhaft vorhanden ist, so dass sie auch umfangreiche, andauernde Projekte ermöglicht. Diese sollte perspektivisch so ausgebaut werden, dass die parallele Entwicklung von Code oder eine gemeinsame Bearbeitung von Forschungsfragen ermöglicht wird (z. B. gemeinsame Code-Repositories). Über eine Community-Plattform könnte auch eine einheitliche Dokumentation gepflegt werden und sollte Vorkehrungen für den entsprechenden Datenschutz beinhalten. Zudem sollte der wissenschaftliche Output verwertbar sein, indem dieser als Forschungsergebnis veröffentlicht werden darf.

Forschende betonten auch, dass sie das Ziel haben, interdisziplinär mit den Daten zu arbeiten. Hypothesengenerierung und Daten-Modellierung sollte in Zusammenarbeit möglich sein und der Zugriff sollte nicht nur personengebunden sein.

Je nach Fachbereich fehlte es Befragten am notwendigen technischen Hintergrund, um Daten durch Erstellung eigener Computerprogramme unter Verwendung eines Programmier-Frameworks, auszuwerten. Daneben mangelt es vielen an der notwendigen Zeit und den personellen Ressourcen für die Verknüpfung verschiedener Datenquellen. Besonders forschenden ÄrztInnen, die nebenher praktizieren, fehlt genau diese Zeit, sich in die Datenlandschaft einzuarbeiten.

Innerhalb der Analyseräume sollten laut den Forschenden neben der Datenabfrage mit SQL auch Schnittstellen zu den in den Statistik- und Data-Science-Disziplinen üblichen Programmiersprachen wie R und Python existieren. Viele der Befragten gaben an, primär mit Statistikprogrammen zu arbeiten, welche dann auch in den Analyseräumen angeboten werden sollten. Die Daten sollten daneben auch auf einfache, grafisch-interaktive Weise (analog einem Tabellenkalkulationsprogramm) auswertbar sein, sodass selbst Forschende mit limitierten Programmierfähigkeiten die Daten analysieren können.

Im Bereich der Lehre und zur Einarbeitung von neuen Mitarbeitenden sollten frei verfügbare Demo-Datensätze mit unterschiedlichem Komplexitätsniveau vorhanden sein, um Studierenden oder generell neuen Teammitgliedern die Analyse und den Umgang mit Gesundheitsdaten des FDZ näherzubringen. Solche Datensätze könnten synthetisch erzeugt sein, benötigen aber einen größeren Umfang und inhaltlich eine gewisse Sinnhaftigkeit, verglichen mit dem vormals am DIMDI verfügbaren Test-Datensatz.

Der Großteil der Befragten hatte bisher keine Erfahrung in der Nutzung von KI-Verfahren auf GKV-Abrechnungsdaten, sah hier aber durchaus ein großes Potenzial. Sie äußerten grundsätzliche Vorbehalte hinsichtlich verschiedener KI-inhärenter Herausforderungen, wie zum Beispiel Laufzeiten der Experimente, Verfügbarkeit der Ergebnisse, aber auch der korrekten Gestaltung der Forschungsansätze. Die daraus abgeleiteten Wünsche bezogen sich daher auf ausreichende Leistungsfähigkeit der Analyseumgebung und Hilfestellungen zum Beispiel in Form von vorbereiteten Beispielen oder adaptierbaren Implementierungen.



Zusammenarbeit

Ein wichtiger Teil in der Arbeit mit medizinischen Datensätzen sei der Austausch mit Kollegen und Kolleginnen über Methodik und Analyse. Daneben sei es sehr konstruktiv, gemeinsame Lösungen zu finden, nachdem unterschiedliche Teilaspekte von verschiedenen Teammitgliedern berücksichtigt wurden. Zwei Institutionen verfügen bereits über sog. „Toolboxen“, d. h. Portale zum Austausch von Informationen zu vergangenen Projekten, Codes und Analysen. Teilweise sei die verfügbare Infrastruktur jedoch zu wenig ausgebaut oder es mangelte an den notwendigen Ressourcen, diese kontinuierlich weiter zu betreiben. Andere Interviewte tauschen sich über Gesundheitsforen aus, von denen zahlreiche kommerzielle und nicht-kommerzielle Online-Angebote existieren.

An Lehrstühlen findet am häufigsten interne Zusammenarbeit und ein Austausch über Auswertungen statt, meistens lehrstuhlintern und kaum studiengangsübergreifend. In den Interviews wurde deshalb beschrieben, dass beispielsweise Skripte meistens neu aufgesetzt werden müssen und wenig Wissenstransfer zwischen einzelnen Projekten stattfindet. Üblicherweise wird ein Wissenstransfer nur über die Publikation von Ergebnissen sichergestellt und zuweilen kommt es zwischen Forschungsgruppen zum Austausch von Code, der jedoch von den Interviewpartnern und -partnerinnen meist als „nicht nützlich“ beschrieben wurde. Der Grund dafür ist, dass die individuellen projektspezifischen Fragestellungen so verschieden seien. Damit sei der Aufwand, einen vorhandenen Code zu verstehen und anzupassen bedeutend höher als die eigene Neuimplementierung. Darüber hinaus fehlen gruppenübergreifende Tools zur Dokumentation von Datensätzen, Studiendesigns, Code und Ergebnissen.

Die Teilnehmenden dieser Interviews haben ausdrücklich betont, dass Unterschiede in den Daten und Datenpools das kollaborative Arbeiten erschweren. Ein Großteil der Forschenden arbeitet ungern mit den Datensätzen anderer Personen, da Methodik und Code nur selten nachvollziehbar sind. Fehlende Algorithmen und Standards hindern Forschende und Experten und Expertinnen daran, kollaborativ zu arbeiten. Eine Harmonisierung der Analysetools hinsichtlich der Eingabe- und Ausgabeschnittstellen könnte zu einer Verbesserung beitragen. Eine Harmonisierung oder Standardisierung von entsprechenden Forschungsfragen hilft auch, bestehende Strukturen (Datenbankzugänge, Codes, Formate) weiter zu nutzen und die Zusammenarbeit zu fördern. Unter einer „harmonisierten Forschungsfrage“ kann zum Beispiel eine Operationalisierung der Forschungsfrage anhand eines strukturierten Fragenkatalogs verstanden werden, so dass Forschungsfragen maschinenlesbar werden.

Die Forschenden betonten, dass eine Steigerung der Zusammenarbeit erwünscht ist. Zum einen nannten die Forschenden, dass Zusammenarbeit den Austausch von Ideen und Expertise ermöglicht, was zu innovativeren Lösungen und einem schnelleren Fortschritt führt. Zweitens können durch interdisziplinäre Ansätze komplexere Fragestellungen besser angegangen werden, da verschiedene Perspektiven und Fachkenntnisse zusammenfließen. Schließlich stärkt die Zusammenarbeit der Forschenden untereinander auch die Sichtbarkeit und den Einfluss der Forschung, da gemeinsame Projekte oft mehr Aufmerksamkeit erhalten. Daher schien vielen Befragten eine Community-Plattform zum Austausch unter den Forschenden sinnvoll, die neben dem Austausch von Wissen auch den Austausch von Codes und Auswertungsskripten vereinfachen könnte, sofern die Forschungsfragen genügend Ähnlichkeit haben.

Internationale Zusammenarbeit und Harmonisierung

Wünsche, die die Experten und Expertinnen während der Interviews teilten, betrafen den Zugang zu und die Auswertbarkeit von internationalen Datensätzen. Durch den Anschluss an internationale Forschungsdaten (europäische Abrechnungsdaten, Verhaltensdaten, Kosteninformationen) sehen die Interviewpartner und -partnerinnen v. a. im Bereich der seltenen Erkrankungen sowie der Therapievergleiche zwischen den Systemen die größten Potentiale. Seltene Erkrankungen profitierten von einer gestiegenen Populationsgröße und Therapievergleiche zwischen den verschiedenen europäischen Gesundheitssystemen ließen beispielsweise Rückschlüsse auf die Effektivität von Diagnose- und Behandlungsmethoden zu.

Die Zusammenstellung eines ausreichend großen Datensatzes aus internationalen Datenzentren könnte durch einen einmaligen Antrag in einem Mitgliedsstaat erfolgen, der gleiche Geltung in anderen Staaten hat. Die Auswertung allerdings werde durch unterschiedliche Datenerhebung und -aufbereitung in den jeweiligen Ländern deutlich erschwert. Daher bedürfe es gleicher Datenstandardisierungen und gleicher Erhebungsmethoden, um die internationalen Daten vergleichbar und auswertbar zu machen. Auf das Konzept des „Federated Learning“ angesprochen, gaben vier der befragten Experten mit Informatikhintergrund an, bereits über Erfahrungen damit zu verfügen. Als zukünftiges Konzept und zur Lösung für die internationalen Verknüpfung von Gesundheitsdaten erschien es denjenigen durchaus plausibel.



Schlussfolgerungen und Empfehlungen

Auf Basis der Interviewergebnisse lassen sich vier Schwerpunktthemen ableiten, welche maßgeblich zur erfolgreichen Weiterentwicklung des Forschungsdatenzentrums beitragen können. Diese sind

  1. eine Vereinfachung des Antragsprozesses,

  2. Möglichkeiten zur Erweiterung des Datenbestands,

  3. die forschungsfreundliche Ausgestaltung der Analyseräume, in denen die Datenanalysen vorgenommen werden, und

  4. die Anbindung des FDZ an internationale Datenräume.

Die folgenden Abschnitte beleuchten die jeweiligen Themen und leiten Empfehlungen aus den Befragungen der Experten und Expertinnen für eine mögliche Positionierung des FDZs ab. Neben den Empfehlungen auf Basis der Ergebnisse der durchgeführten Interviews, die wertvolle Einblicke in die Perspektiven der Beteiligten geliefert haben, wird die Sichtweise des FDZs hervorgehoben. Diese Positionierung dient nicht nur der Vertiefung der Erkenntnisse, sondern auch der Entwicklung praxisnaher Empfehlungen, die auf den Bedürfnissen und Erwartungen der Stakeholder basieren. Durch die Perspektive des FDZs wird angestrebt, die aus den Interviews gewonnenen Informationen gezielt zu interpretieren und in konkrete Handlungsansätze zu überführen, die in Zukunft priorisiert und dem jeweiligen Entwicklungsstand entsprechend umgesetzt werden können. Folgerichtig war das FDZ in die Auswertung der Interviews eingebunden und hat Teile der Ergebnisse seit 2023 in internen Diskussionen genutzt, soweit der Gestaltungsspielraum es zuließ. Dennoch skizzieren viele der Empfehlungen eine Zukunftsvision, deren Umsetzung von einer ausreichenden Mittelausstattung und Personaldecke abhängen wird. Für eine bessere Einordnung des gegenwärtigen Standes der Umsetzung finden sich in den folgenden Unterkapiteln kurze Kommentare.

Vereinfachung des Antragsprozesses

Vereinfachungen im Antragsprozess und Verkürzung der Prozessdauer können eine schnellere Verfügbarkeit der freigegebenen Daten ermöglichen und damit erlauben, Forschungsfragen zeitnah zu beantworten und mit der internationalen Forschung Schritt zu halten. Davon profitieren die Mitarbeitenden des FDZ genauso wie die Nutzenden.

Basierend auf den genannten Wünschen nach Probedatensätzen, sind die als am nützlichsten empfundenen Maßnahmen:

  • Bereitstellung eines öffentlich verfügbaren, inhaltlich und technisch aussagekräftigen Datensatzes.

  • Bereitstellung interaktiver Statistiken, die eine erste Fallzahlschätzung schon vor Antragsstellung erleichtert.

  • Interaktive elektronische Unterstützung bei der Erstellung des Datenzugangs-Antrags.

Die Einrichtung institutioneller Zugänge könnte darüber hinaus erlauben, dass ein bestimmter Datenumfang für einen bekannten Nutzendenkreis einer berechtigten Institution mit deutlich weniger Aufwand verfügbar gemacht würde, so dass fortlaufende Forschung oder wiederkehrende Auswertungen ermöglicht würden.

Seit Januar 2025 steht ein technischer Testdatensatz öffentlich zur Verfügung [5], der zusammen mit Quellcode die Verwendung des Originaldatensatzes transparent macht [6].[ 3] Das Antragsverfahren für die Datennutzung wird fortlaufend digitalisiert.


Erweiterter und verknüpfter Datenbestand

Ein zentraler Wunsch, der sich aus den Forschendeninterviews ableiten ließ, ist die Erweiterung des bestehenden Datenbestandes. Es herrscht Konsens darüber, dass die Auswertung von Routinedaten allein nicht ausreicht, um spezifischere Forschungsfragestellungen zu beantworten, die über Kostenaspekte und die Messbarkeit der Versorgungsqualität hinausgehen. Sozialdaten wie Angaben zu Einkommen und Beschäftigungsverhältnis oder auch Daten über Lebensqualität und Lebensgewohnheiten, wie beispielweise Wohlbefinden oder auch Nikotin- und Alkoholkonsum, können bisher in Routinedatenanalysen nicht berücksichtigt werden, da sie darin nicht vorliegen. Aus der Forschendenperspektive können diese Daten einen echten Mehrwert für medizinische Fragestellungen liefern.

Es muss in der Konzeption des FDZs darauf geachtet werden, dass die Daten der verschiedenen Krankenkassen untereinander harmonisiert sind, also semantisch identische Informationen in den Datenfeldern vorausgesetzt werden dürfen. Harmonisierte Daten in dem Analyseraum sorgen dafür, dass Informationen aus verschiedenen Quellen einheitlich interpretiert werden können. Dies ermöglicht vergleichende Analysen und verhindert Missverständnisse, die aus unterschiedlichen Definitionen und Kategorien entstehen könnten. Die befragten Forschenden betonten, dass eine harmonisierte Datenbasis die Nachvollziehbarkeit von Forschungsprozessen und Ergebnissen erleichtert, was für die Validierung und Reproduzierbarkeit von Studien entscheidend ist.

Befragte Experten und Expertinnen haben im Zusammenhang mit der Erweiterung des Datenbestandes nicht nur Aspekte der Datennutzung aus der Forschungsperspektive angesprochen, sondern auch Bedenken zur Datenfreigabe aus der Perspektive der Bürger und Bürgerinnen thematisiert. So müssen Aspekte wie Datentransparenz, Souveränität und Datensparsamkeit im Zusammenhang mit neuen Datenquellen für das FDZ frühzeitig mitgedacht werden.

Die ePA enthält bereits wertvolle Daten, wie z. B. Notfall- und Behandlungsdaten, aber auch Daten zur Impfhistorie auf Individualebene. Würden diese Daten, entweder auf freiwilliger Basis in Form einer Datenspende oder in Form einer datenschutzkonformen Einwilligungserklärung, mit weiteren individuellen Daten von Bürgern und Bürgerinnen, wie Lebensstilfaktoren oder Ernährungsdaten, angereichert, könnten spezifischere Fragestellungen untersucht werden. Individuelle Daten im Zusammenhang mit strukturellen Daten, wie räumlichen und geografischen Informationen (Geospatialen Daten) oder verfügbaren Open Data Sets, zu bringen könnte den Mehrwert für viele Akteuren und Akteurinnen maximieren. Mit Hilfe struktureller Daten könnten so beispielsweise regionale Vergleiche, etwa durch Postleitzahlen, gezogen werden können und Routinedaten könnten entsprechend mit Primärdaten ergänzt werden. Individuen profitierten von verbesserter Versorgung und steigender Therapiesicherheit, Krankenversicherer wiederum von Kosteneinsparungen durch eine gesündere Versichertenbasis und das FDZ würde sich als attraktiver und relevanter Partner auf EU-Ebene positionieren. Es sollte daher frühzeitig untersucht werden, welche Daten unter Berücksichtigung der Datenschutzbestimmungen für die Forschung zugänglich gemacht werden können und in welcher Form eine freiwillige Datenspende eingebunden werden kann.


Analyseräume

Am FDZ wird derzeit an der Einführung virtueller Analyseräume, d. h. Entwicklungsumgebungen, in denen Forschende ihre Analysen selbständig durchführen können, gearbeitet [7]. Die forschungsfreundliche Gestaltung der Analyseräume kann wesentlich zur Akzeptanz seitens der Forschenden beitragen. Neben der technischen Umsetzung und Gestaltung von Schnittstellen und Oberflächen, sollte darauf geachtet werden, dass den Forschenden ausreichend Zeit für die Datenbearbeitung eingeräumt wird.

Die Entwicklungsumgebung soll Teil der Analyseräume sein, könnte aber auch als frei verfügbare Software zusammen mit einem Probedatensatz (Public Use File) breit verfügbar gemacht werden. Eine derart verfügbare Entwicklungsumgebung würde Probedatensätze schnell und einfach zum Ansehen, Herunterladen und Auswerten anbieten. Dabei sollte angestrebt werden, dass ein Public Use File nicht nur das Datenbankschema implementiert und mit zufälligen Werten füllt, sondern bestimmte benannte Charakteristika der Original-Daten nachbildet, wie zum Beispiel die Verteilung der Werte pro Feature, nicht jedoch deren Korrelationen.

Nicht zuletzt führten Experten und Expertinnen in den Interviews auch den Datenschutz und das Thema Kosten als entscheidende Barrieren auf. Gesundheitsdaten gelten in Deutschland als besonders schützenswertes Gut, und so wird der Zugang oftmals durch Datenschutzvorgaben erschwert und mit hohen Kosten assoziiert. Gerade das FDZ kann hier mit einem transparenten Datenschutzkonzept die öffentliche Debatte positiv beeinflussen. Der Umgang des FDZs mit den Herausforderungen des Datenschutzes bei einem bevölkerungsweiten longitudinalen Datensatz von einzigartigem Umfang ist für das Vertrauen in das FDZ und damit für seine Nützlichkeit höchst relevant. Daher sollte eine Lösung gefunden werden, die den Datenschutz als relevanten Teil des Geschäftsmodells etabliert und gleichzeitig auch den Datenzugang und die Datenanalyse vereinfacht. Methoden des Federated Learning sollten hierfür als Teil eines möglichen Lösungsansatzes berücksichtigt werden.

Das führt zu den folgenden zentralen Empfehlungen.

  • Explorative Datenanalysen sollen ein Verständnis der notwendigen und verfügbaren Daten ermöglichen, indem Werkzeuge eine interaktive Visualisierung von Daten anbieten, in der auch fehlende Werte und Ausreißer erkannt werden und Datenbereinigungswerkzeuge zielführend und interaktiv eingesetzt werden können.

  • Werkzeugbasis: Das FDZ-System muss neben Standard-Statistik-Programmen Basistechnologien und flexible Data-Science-nahe Programmiersprachen anbieten, wie zum Beispiel Python und R, um zum Beispiel Methoden aus dem Bereich des Deep Learning zu unterstützen. Diese Programmiersprachen bieten eine große Erweiterbarkeit durch zusätzliche Softwarepakete. Sie sind oft integriert mit anderen Werkzeugen, die im Data-Science-Bereich die Arbeit erleichtern und reproduzierbar machen, wie zum Beispiel Versionskontrolle, kollaborative Tools, und Unterstützung für die modulare Formulierung von Analyse- und Verarbeitungsmethoden. Die Konzeption der Analyseräume sollte die Integration solcher Werkzeuge und grafischer Datenanalysen infrastrukturseitig vorsehen.

  • Wiederverwendbarkeit: Datenvorbereitung, Datenvisualisierung, Datenmodellierung und Modellvalidierung sind modulare Komponenten einer modernen Data-Science-Pipeline. Jeder dieser (und weiterer) Schritte kann auf verschiedene Weise algorithmisch umgesetzt werden, entweder mit bestehenden Implementierungen oder mit Eigenentwicklungen. Verarbeitungsabläufe bestehend aus Verkettungen von modularen Komponenten sowie Eigenentwicklungen sollten dabei innerhalb des Systems wiederverwendbar sein.

  • Austausch und Kollaboration: Sind modulare Methoden vorhanden und in einem persönlichen Werkzeugkasten speicherbar, liegt es nahe, ihren Austausch zum Beispiel innerhalb einer Institution, auf Wunsch aber auch über Institutionen hinweg zu ermöglichen. Die Analyseumgebung braucht daher ein geeignetes Berechtigungskonzept und unterstützende Methoden und Benutzerschnittstellen, um sie zu verwalten.

  • Hardware & Technische Basis: Insbesondere Deep-Learning-Methoden setzen eine leistungsfähige Rechenumgebung mit hochparalleler Hardware (GPUs, Graphics Processing Units) voraus. Eine erweiterbare Hardware-Infrastruktur kann in Zukunft wachsendem Bedarf begegnen. Eine spezifische Erhebung des initialen Bedarfs wird dringend empfohlen. Parallel sollten anspruchsvolle Use Cases auf großen Datenmengen die zu erwartende Systemlast abschätzen helfen.

Seit 2024 stellt das FDZ seine IT-Infrastruktur um, so dass perspektivisch GPUs und leistungsfähigere CPU-Cluster in modernisierten Analyseräumen zur Verfügung gestellt werden können. Dazu gehören auch Software-Infrastruktur-Maßnahmen, die erweiterbare und modulare („containerisierte“) Forschungsumgebungen zum Beispiel für Python- und R-Programmierung bereitstellen können.


Anbindung an internationale Datenräume

Obwohl die meisten der befragten Experten und Expertinnen wenige oder gar keine Erfahrungen mit internationalen Datenbanken haben, wurde deutlich, dass großes Interesse an einer internationalen Anschlussfähigkeit des FDZ besteht. Auch wenn eine Anbindung an internationale Datenräume nicht die höchste Priorität darstellt, bietet dieser Wunsch an das FDZ ein großes Potential für internationales Wachstum und ein größeres Spektrum der verfügbaren Daten, u.a im Bereich seltener Erkrankungen.

Die Verfügbarmachung von internationalen Datensätzen bedingt die Etablierung von internationalen Standards bzgl. der Datensatzbeschreibung, von Datenformaten und Zugangsmöglichkeiten sowie einer skalierbaren zugrunde liegenden Infrastruktur.

Mit dem europäischen Gesundheitsdatenraum (EHDS, [8]), welcher allen europäischen Ländern den sicheren und einheitlichen Zugang zu gesundheitsbezogenen Daten verspricht, wird bereits ein wichtiger Grundstein der europäischen Gesundheitsdateninfrastruktur gelegt.

Zusammenfassend sind die folgenden Empfehlungen geeignet, wesentliche Wünsche der Interviewpartner und -partnerinnen zu beantworten:

  • Bereitstellung der FDZ-Daten in einem homogenisierten Standardformat, z. B. OMOP-CDM [9], und damit einhergehend Mapping der Datenbeschreibung auf Standard-Ontologien.

  • Abstimmung des Antragsprozesses und des Datenformats mit anderen Europäischen Datenzentren.

Das FDZ ist an internationalen Bestrebungen der Harmonisierung verschiedener Quellen von Gesundheitsdaten beteiligt und orientiert sich in der Gestaltung der eigenen Datenformate und Zugangsmechanismen an den Best Practices.



Diskussion

Diese Studie betrachtet die Bedarfe, die aus Interviews mit potenziellen und bestehenden Nutzenden der FDZ-Daten extrahiert wurden. Damit grenzt sie sich von vormaligen Studien ab, die sich ausführlich und umfassender als hier den Voraussetzungen und Notwendigkeiten rechtlicher, ethischer, gesellschaftlicher und wirtschaftlicher Natur aus Sicht des FDZ widmen [3] [4]. Sie beschreiben damit komplementär zur vorliegenden Studie die notwendigen Rahmenbedingungen, die geschaffen werden sollten, damit auch die Nutzenden-Bedarfe adressiert werden können.

Aus der Befragung verschiedener Interviewpartner und -partnerinnen aus Institutionen, die berechtigt sind, die beim FDZ gesammelten Abrechnungsdaten zu Forschungszwecken zu nutzen, wurden Einsichten gewonnen, die die weitere Ausgestaltung des Datenzugangs begleiten und informieren könnten. Aus unterschiedlichen Perspektiven ergibt sich ein vielfältiger Katalog von Anforderungen und Wünschen. Die Autoren dieser Zusammenfassung haben versucht, einen breiten Blick zu bieten, der sich nicht nur an den heutigen technischen Möglichkeiten und bestehenden Plänen des FDZ orientiert, sondern Denkanstöße für zukünftige Entwicklungsprojekte bietet.

Die deutlichste Einschränkung der Verallgemeinerbarkeit der vorgelegten Ergebnisse liegt in der kleinen und nicht-repräsentativen Stichprobe der Interviewten. Daneben liegt im Verfahren der offenen Interviews die Gefahr individueller Schwerpunktsetzung. Zusätzlich hatten nicht alle Interviewten eigene Erfahrungen mit Antragsprozess und Daten des FDZ. Daher ist es im Umgang mit den Empfehlungen notwendig, sie vor Implementierung mit Nutzungsberechtigten zu schärfen und zu überprüfen, um die Anforderungen zu spezifizieren und detaillieren. Beispielhaft für dieses Vorgehen können Nutzendenstudien sein, wie sie im Projektrahmen bereits für prototypische Implementierungen einiger der vorgestellten Ideen durchgeführt und perspektivisch publiziert werden. Ebenso könnten Foren, in denen die Nutzungsberechtigten zusammenkommen, genutzt werden, um die Empfehlungen zu diskutieren und priorisieren.[4] Die Autoren haben versucht, hier eine neutrale Stellung einzunehmen.

Zum Zeitpunkt der Durchführung der Interviews gab es eine festgelegte Liste nutzungsberechtigter Institutionen, auf Basis derer potenzielle Interviewpartnerinnen und -partner identifiziert wurden. Aufgrund erfolgter Änderungen am Gesetzestext im § 303e des SGB V ist die Nutzungsberechtigung nun nicht mehr an die Institution, sondern an den Zweck der Datenverarbeitung gebunden. Der Kreis möglicher Nutzender wird dadurch erweitert. Daraus ergeben sich möglicherweise weitere Perspektiven und Anforderungen, die jedoch nicht mehr in diesen Bericht eingeflossen sind, weil die Zusammenfassung der Ergebnisse bereits abgeschlossen war.

Die Autoren gehen ferner davon aus, dass weitere und konkretere Wünsche, insbesondere in Bezug auf den Antragsprozess und die Analyseräume, formuliert werden, sobald die ersten Nutzungsanträge gestellt und entsprechende Auswertungen am FDZ durchgeführt werden konnten.


Fundref Information

Bundesministerium für Gesundheit — http://dx.doi.org/10.13039/501100003107; Projekt KI-FDZ



Interessenkonflikt

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.

1 d. h. iteratives testen und verfeinern von Hypothesen durch Forschende selbst


2 Vgl. https://www.bips-institut.de/forschung/forschungsinfrastrukturen/gepard.html, wo sich auch ausgewählte Publikationen finden


3 https://github.com/FraunhoferMEVIS/ETLfromHDLtoOMOP


4 Arbeitskreis der Nutzungsberechtigten unter Koordination der TMF; § 303 d Absatz 2 SGB V


Zusätzliches Material


Korrespondenzadresse

Prof. Dr.-Ing. Markus Wenzel
Fraunhofer Institute for Digital Medicine MEVIS
Decision Support Systems
Max-von-Laue-Str. 2
28359 Bremen
Germany   

Publication History

Received: 23 April 2024

Accepted after revision: 24 April 2025

Article published online:
05 August 2025

© 2025. The Author(s). This is an open access article published by Thieme under the terms of the Creative Commons Attribution License, permitting unrestricted use, distribution, and reproduction so long as the original work is properly cited. (https://creativecommons.org/licenses/by/4.0/).

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany