Subscribe to RSS
DOI: 10.1055/s-0045-1811097
Anonymisierung endoskopischer Befunde auf Studien-Laptops mittels kleiner, reproduzierbarer lokal ausführbarer LLMs und RegEx
Authors
Einleitung: Der Schutz der Privatsphäre von Patienten ist etisch und rechtlich verpflichtend. Dies bedeutet oft einen erheblichen manuellen Aufwand. Große Sprachmodelle (LLMs) zeigen Erfolge bei der De-Identifikation medizinischer Freitextdokumente (Wiest et al., 2024) und übertreffen traditionelle regelbasierte Ansätze (Yang et al., 2022). Typische Modelle (~7-70 Milliarden Parameter) übersteigen die Kapazitäten handelsüblicher Studienlaptops. DeepSeek-R1, ein destilliertes Modell (~1,5 Milliarden Parameter) lässt sich ohne Internetzugang auf Standard-Hardware ausführen (DeepSeek-AI, 2024).
Ziele: Evaluation verschiedener On-Site ausführbarer Lösungen zur automatisierten Anonymisierung und Strukturierung durch zielsichere Identifikation von Patienten-Namen.
Methodik: Wir verglichen DeepSeek-R1 mit einer handoptimierten RegEx-basierten Referenzlösung auf einem synthetischen, stark verrauschten Textkorpus (n=207, UTF-8-Namen, diverse Anreden, unvollständige Einträge).Die Berichte wurden manuell annotiert.
LLM: DeepSeek-R1 lief auf einem Laptop mit Ollama-Backend (16 GB RAM / 8 GB VRAM).
RegEx: Deterministische Pipeline basierend auf dem quelloffenen Regelwerk von Philter (https://github.com/philterd/philter).
Metriken: Token-sortierte Ähnlichkeit für Vor- und Nachnamen pro Bericht; Präzision / Recall / F1 für Anwesenheit/Abwesenheit der Namen ([Table 1]).
System |
Vornamen (%, Mittel±SD) |
Nachnamen (%, Mittel±SD) |
Perfekte Treffer (% Vornamen /% Nachnamen) |
---|---|---|---|
DeepSeek-R1 1,5b |
58,6±33,6 |
59,7±41,7 |
59 / 92 |
RegEx Baseline |
21,6±36,3 |
8,7±14,9 |
50 / 0 |
Rechenzeit: Alle Experimente wurden offline durchgeführt; Verarbeitungsdauer pro Bericht ca. 0,8 s (LLM) gegenüber 0,02 s (RegEx).
Ergebnis:
DeepSeek übertraf die RegEx-Lösung in mehrsprachigen, "noisy" Datensätzen um mehr als 50 Prozentpunkte. Bei exakter Musterübereinstimmungen war die RegEx-Lösung ausreichend. Somit erreichte DeepSeek-R1 etwa dreimal mehr korrekte Namenswiederherstellungen als eine leistungsstarke RegEx-basierte Lösung.
Verbleibende Haupt-Fehlerquellen:
-
Vermischung von Anrede, Vor- und Nachnamen
-
Entfernung von Diakritika (bspw. Anhängsel an Buchstaben)
Schlussfolgerung: Das lokal ausführbare LLM in Kombination mit regelbasierter Nachverarbeitung zeigt solide Erfolge bei der Anonymisierung. Die ausschließliche Offline-Ausführung erfüllt Sicherheitsanforderungen (bspw. Art. 32, DSGVO) minimiert Datenschutzrisiken. Die Verarbeitung von Dokumenten ohne spezialisierte Server erleichtert multizentrische Forschungsvorhaben. Aktuell ist weiterhin eine manuelle Validierung notwendig. Dennoch birgt dieser Ansatz erhebliches Potenzial, die Forschungsprozesse künftig zu beschleunigen.
Publication History
Article published online:
04 September 2025
© 2025. Thieme. All rights reserved.
Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany