Im Forschungsdatenzentrum (FDZ) Gesundheit, angesiedelt am Bundesinstitut für
Arzneimittel und Medizinprodukte (BfArM) [1],
können nach aktuellem Planungsstand noch in diesem Jahr Anträge zur Datennutzung der
Versorgungsdaten aller 74,5 Millionen Versicherten der Gesetzlichen
Krankenversicherung [2] gestellt werden. In
virtuellen Analyseräumen werden von den Forscher:innen auf Basis von Testdaten oder
pseudonymisierten Einzeldatensätzen (Datenzuschnitte) [3] Skripte erstellt, die anschließend von Mitarbeiter:innen des FDZ auf
den Originaldaten im geschützten FDZ-Datawarehouse ausgeführt werden. Die hierbei
generierten Ergebnismengen werden im Rahmen eines Bescheids den Antragsteller:innen
übermittelt.
Im FDZ Gesundheit sollen als Auswertungstools SQL, R und Python zur Verfügung stehen.
Die Arbeitsgruppe (AG) Erhebung und Nutzung von Sekundärdaten (AGENS) der Deutschen
Gesellschaft für Sozialmedizin und Prävention (DGSMP) und der Deutschen Gesellschaft
für Epidemiologie (DGEpi) sowie die AG Validierung und Linkage von Sekundärdaten des
Deutschen Netzwerks Versorgungsforschung (DNVF) haben diese Information zum Anlass
genommen, bei ihren Mitgliedern hierzu ein Meinungsbild zu erfragen, mit welchen
Softwaretools potentielle Nutzer:innen in den virtuellen Analyseräumen des FDZ
Gesundheit arbeiten würden. Die online mittels LimeSurvey durchgeführte Umfrage
erfolgte vom 22.07. bis 18.08.2024, der Fragebogen wurde in dieser Zeit von 192
Personen ausgefüllt [4]. Hauptaugenmerk lag
hierbei auf der Frage nach der präferierten Software, die auch Mehrfachnennungen und
Freitextangaben erlaubte. Aus logistischen Gründen erfolgte am 2. August eine
Zwischenauswertung, basierend auf n=169 vollständig ausgefüllten Fragebögen, deren
Ergebnisse kommentiert durch den Sprecherkreis der beiden AGs an das FDZ Gesundheit
zurückgespielt wurden, um die Prozesse im FDZ Gesundheit zu begleiten und aktiv
Einfluss auf eine nutzer:innen orientierte Arbeitsumgebung im FDZ Gesundheit zu
nehmen.
Von diesen n=169 Fragebögen der Zwischenauswertung gaben n=124 Personen an, eines
der
beiden vom FDZ geplanten Softwaretools R oder Python zu nutzen. Mit n=123 ist die
Anzahl der Nutzer:innen anderer Statistiksoftware (MATLAB, SAS, SPSS oder STATA)
ähnlich hoch. Nahezu alle Befragten (167 von 169) nutzen mindestens eines der
genannten Produkte, die Hälfte jedoch gab an, dass ihnen R oder Python als alleinige
Statistiksoftware nicht ausreichen würde. Von den n=169 Befragten plante nur ein
Drittel (n=56 Personen), mit SQL arbeiten zu wollen. Dies ist insofern überraschend,
gilt SQL doch als (performante) Standardabfragesprache für relationale Datenbanken,
wie auch im Datawarehouse des FDZ Gesundheit implementiert.
Aus diesen und allen weiteren Ergebnissen sind aus Sicht der Autor:innen die
nachfolgend genannten Handlungsansätze prioritär abzuleiten:
-
Potenzielle Nutzer:innen des FDZ wünschen sich eine Vielfalt an Analysetools.
Dabei spielen R und Python eine nennenswerte Rolle, ebenfalls jedoch die
klassischen Softwarepakete SAS, STATA und SPSS. Die Hälfte der Befragten
beurteilt eine ausschließliche Begrenzung auf R und Python als nicht
ausreichend.
-
Die Flexibilisierung und Personalisierung des Funktionsumfanges von R und
Python in Form von zusätzlichen Paketen ist eine erhebliche Herausforderung,
die zwingend bedacht werden muss.
-
Flexible sowie performante Schnittstellen zwischen Tools für Datenmanagement
und -analyse sind mitzudenken, insbesondere das performante Zusammenspiel
von (nativem) SQL und anderen bereitgestellten Softwareprodukten.
-
Unterschiedliche Anwendungsszenarien bzw. spezifische Tools sollten als
transparenter und kontinuierlicher Prozess langfristig in den Betrieb des
FDZ Gesundheit implementiert werden.
-
Es gibt gute Argumente, den Aufbau der hoffentlich zukunftsweisenden
Analyseinfrastruktur beim FDZ mit breitem Einbezug der Nutzer:innen zu
gestalten. Die Ergebnisse dieser Umfrage bieten hierfür eine geeignete
Diskussionsbasis.