Einleitung: Der Schutz der Privatsphäre von Patienten ist etisch und rechtlich verpflichtend.
Dies bedeutet oft einen erheblichen manuellen Aufwand. Große Sprachmodelle (LLMs)
zeigen Erfolge bei der De-Identifikation medizinischer Freitextdokumente (Wiest et
al., 2024) und übertreffen traditionelle regelbasierte Ansätze (Yang et al., 2022).
Typische Modelle (~7-70 Milliarden Parameter) übersteigen die Kapazitäten handelsüblicher
Studienlaptops. DeepSeek-R1, ein destilliertes Modell (~1,5 Milliarden Parameter)
lässt sich ohne Internetzugang auf Standard-Hardware ausführen (DeepSeek-AI, 2024).
Ziele: Evaluation verschiedener On-Site ausführbarer Lösungen zur automatisierten Anonymisierung
und Strukturierung durch zielsichere Identifikation von Patienten-Namen.
Methodik: Wir verglichen DeepSeek-R1 mit einer handoptimierten RegEx-basierten Referenzlösung
auf einem synthetischen, stark verrauschten Textkorpus (n=207, UTF-8-Namen, diverse
Anreden, unvollständige Einträge).Die Berichte wurden manuell annotiert.
LLM: DeepSeek-R1 lief auf einem Laptop mit Ollama-Backend (16 GB RAM / 8 GB VRAM).
RegEx: Deterministische Pipeline basierend auf dem quelloffenen Regelwerk von Philter (https://github.com/philterd/philter).
Metriken: Token-sortierte Ähnlichkeit für Vor- und Nachnamen pro Bericht; Präzision / Recall
/ F1 für Anwesenheit/Abwesenheit der Namen ([Table 1]).
Table 1
System
|
Vornamen (%, Mittel±SD)
|
Nachnamen (%, Mittel±SD)
|
Perfekte Treffer (% Vornamen /% Nachnamen)
|
DeepSeek-R1 1,5b
|
58,6±33,6
|
59,7±41,7
|
59 / 92
|
RegEx Baseline
|
21,6±36,3
|
8,7±14,9
|
50 / 0
|
Rechenzeit: Alle Experimente wurden offline durchgeführt; Verarbeitungsdauer pro Bericht ca.
0,8 s (LLM) gegenüber 0,02 s (RegEx).
Ergebnis:
DeepSeek übertraf die RegEx-Lösung in mehrsprachigen, "noisy" Datensätzen
um mehr als 50 Prozentpunkte. Bei exakter Musterübereinstimmungen war die RegEx-Lösung
ausreichend. Somit erreichte DeepSeek-R1 etwa dreimal mehr korrekte Namenswiederherstellungen
als eine leistungsstarke RegEx-basierte Lösung.
Verbleibende Haupt-Fehlerquellen:
Schlussfolgerung: Das lokal ausführbare LLM in Kombination mit regelbasierter Nachverarbeitung zeigt
solide Erfolge bei der Anonymisierung. Die ausschließliche Offline-Ausführung erfüllt
Sicherheitsanforderungen (bspw. Art. 32, DSGVO) minimiert Datenschutzrisiken. Die
Verarbeitung von Dokumenten ohne spezialisierte Server erleichtert multizentrische
Forschungsvorhaben. Aktuell ist weiterhin eine manuelle Validierung notwendig. Dennoch
birgt dieser Ansatz erhebliches Potenzial, die Forschungsprozesse künftig zu beschleunigen.