Anonymisierung endoskopischer Befunde auf Studien-Laptops mittels kleiner, reproduzierbarer lokal ausführbarer LLMs und RegEx

T Lux; M Hild; SM H Zahid; P Sodmann; A Meining

doi:10.1055/s-0045-1811097

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000094.xml

Z Gastroenterol 2025; 63(08): e615-e616
DOI: 10.1055/s-0045-1811097

Abstracts | DGVS/DGAV

Kurzvorträge

KI-Systeme, Datenmanagement & Workflow-Optimierung in der Endoskopie Freitag, 19. September 2025, 17:25 – 18:29, Seminarraum 6 + 7

Anonymisierung endoskopischer Befunde auf Studien-Laptops mittels kleiner, reproduzierbarer lokal ausführbarer LLMs und RegEx

Authors

T Lux

¹Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
M Hild

¹Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
SM H Zahid

¹Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
P Sodmann

¹Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
A Meining

¹Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland

Further Information

Also available at

Congress Abstract
Full Text

Einleitung: Der Schutz der Privatsphäre von Patienten ist etisch und rechtlich verpflichtend. Dies bedeutet oft einen erheblichen manuellen Aufwand. Große Sprachmodelle (LLMs) zeigen Erfolge bei der De-Identifikation medizinischer Freitextdokumente (Wiest et al., 2024) und übertreffen traditionelle regelbasierte Ansätze (Yang et al., 2022). Typische Modelle (~7-70 Milliarden Parameter) übersteigen die Kapazitäten handelsüblicher Studienlaptops. DeepSeek-R1, ein destilliertes Modell (~1,5 Milliarden Parameter) lässt sich ohne Internetzugang auf Standard-Hardware ausführen (DeepSeek-AI, 2024).

Ziele: Evaluation verschiedener On-Site ausführbarer Lösungen zur automatisierten Anonymisierung und Strukturierung durch zielsichere Identifikation von Patienten-Namen.

Methodik: Wir verglichen DeepSeek-R1 mit einer handoptimierten RegEx-basierten Referenzlösung auf einem synthetischen, stark verrauschten Textkorpus (n=207, UTF-8-Namen, diverse Anreden, unvollständige Einträge).Die Berichte wurden manuell annotiert.

LLM: DeepSeek-R1 lief auf einem Laptop mit Ollama-Backend (16 GB RAM / 8 GB VRAM).

RegEx: Deterministische Pipeline basierend auf dem quelloffenen Regelwerk von Philter (https://github.com/philterd/philter).

Metriken: Token-sortierte Ähnlichkeit für Vor- und Nachnamen pro Bericht; Präzision / Recall / F1 für Anwesenheit/Abwesenheit der Namen ([Table 1]).

Table 1
System	Vornamen (%, Mittel±SD)	Nachnamen (%, Mittel±SD)	Perfekte Treffer (% Vornamen /% Nachnamen)
DeepSeek-R1 1,5b	58,6±33,6	59,7±41,7	59 / 92
RegEx Baseline	21,6±36,3	8,7±14,9	50 / 0

Rechenzeit: Alle Experimente wurden offline durchgeführt; Verarbeitungsdauer pro Bericht ca. 0,8 s (LLM) gegenüber 0,02 s (RegEx).

Ergebnis:

DeepSeek übertraf die RegEx-Lösung in mehrsprachigen, "noisy" Datensätzen um mehr als 50 Prozentpunkte. Bei exakter Musterübereinstimmungen war die RegEx-Lösung ausreichend. Somit erreichte DeepSeek-R1 etwa dreimal mehr korrekte Namenswiederherstellungen als eine leistungsstarke RegEx-basierte Lösung.

Verbleibende Haupt-Fehlerquellen:

Vermischung von Anrede, Vor- und Nachnamen
Entfernung von Diakritika (bspw. Anhängsel an Buchstaben)

Schlussfolgerung: Das lokal ausführbare LLM in Kombination mit regelbasierter Nachverarbeitung zeigt solide Erfolge bei der Anonymisierung. Die ausschließliche Offline-Ausführung erfüllt Sicherheitsanforderungen (bspw. Art. 32, DSGVO) minimiert Datenschutzrisiken. Die Verarbeitung von Dokumenten ohne spezialisierte Server erleichtert multizentrische Forschungsvorhaben. Aktuell ist weiterhin eine manuelle Validierung notwendig. Dennoch birgt dieser Ansatz erhebliches Potenzial, die Forschungsprozesse künftig zu beschleunigen.

Publication History

Article published online:
04 September 2025

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany

Related Journals

Related Books

Subscribe to RSS

Share / Bookmark

Anonymisierung endoskopischer Befunde auf Studien-Laptops mittels kleiner, reproduzierbarer lokal ausführbarer LLMs und RegEx

Authors

Publication History