Z Gastroenterol 2025; 63(08): e615-e616
DOI: 10.1055/s-0045-1811097
Abstracts | DGVS/DGAV
Kurzvorträge
KI-Systeme, Datenmanagement & Workflow-Optimierung in der Endoskopie Freitag, 19. September 2025, 17:25 – 18:29, Seminarraum 6 + 7

Anonymisierung endoskopischer Befunde auf Studien-Laptops mittels kleiner, reproduzierbarer lokal ausführbarer LLMs und RegEx

Authors

  • T Lux

    1   Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
  • M Hild

    1   Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
  • SM H Zahid

    1   Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
  • P Sodmann

    1   Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
  • A Meining

    1   Universitätsklinik Würzburg, Medizinische Klinik II, Gastroenterologie, Würzburg, Deutschland
 

Einleitung: Der Schutz der Privatsphäre von Patienten ist etisch und rechtlich verpflichtend. Dies bedeutet oft einen erheblichen manuellen Aufwand. Große Sprachmodelle (LLMs) zeigen Erfolge bei der De-Identifikation medizinischer Freitextdokumente (Wiest et al., 2024) und übertreffen traditionelle regelbasierte Ansätze (Yang et al., 2022). Typische Modelle (~7-70 Milliarden Parameter) übersteigen die Kapazitäten handelsüblicher Studienlaptops. DeepSeek-R1, ein destilliertes Modell (~1,5 Milliarden Parameter) lässt sich ohne Internetzugang auf Standard-Hardware ausführen (DeepSeek-AI, 2024).

Ziele: Evaluation verschiedener On-Site ausführbarer Lösungen zur automatisierten Anonymisierung und Strukturierung durch zielsichere Identifikation von Patienten-Namen.

Methodik: Wir verglichen DeepSeek-R1 mit einer handoptimierten RegEx-basierten Referenzlösung auf einem synthetischen, stark verrauschten Textkorpus (n=207, UTF-8-Namen, diverse Anreden, unvollständige Einträge).Die Berichte wurden manuell annotiert.

LLM: DeepSeek-R1 lief auf einem Laptop mit Ollama-Backend (16 GB RAM / 8 GB VRAM).

RegEx: Deterministische Pipeline basierend auf dem quelloffenen Regelwerk von Philter (https://github.com/philterd/philter).

Metriken: Token-sortierte Ähnlichkeit für Vor- und Nachnamen pro Bericht; Präzision / Recall / F1 für Anwesenheit/Abwesenheit der Namen ([Table 1]).

Table 1

System

Vornamen (%, Mittel±SD)

Nachnamen (%, Mittel±SD)

Perfekte Treffer (% Vornamen /% Nachnamen)

DeepSeek-R1 1,5b

58,6±33,6

59,7±41,7

59 / 92

RegEx Baseline

21,6±36,3

8,7±14,9

50 / 0

Rechenzeit: Alle Experimente wurden offline durchgeführt; Verarbeitungsdauer pro Bericht ca. 0,8 s (LLM) gegenüber 0,02 s (RegEx).

Ergebnis:

DeepSeek übertraf die RegEx-Lösung in mehrsprachigen, "noisy" Datensätzen um mehr als 50 Prozentpunkte. Bei exakter Musterübereinstimmungen war die RegEx-Lösung ausreichend. Somit erreichte DeepSeek-R1 etwa dreimal mehr korrekte Namenswiederherstellungen als eine leistungsstarke RegEx-basierte Lösung.

Verbleibende Haupt-Fehlerquellen:

  • Vermischung von Anrede, Vor- und Nachnamen

  • Entfernung von Diakritika (bspw. Anhängsel an Buchstaben)

Schlussfolgerung: Das lokal ausführbare LLM in Kombination mit regelbasierter Nachverarbeitung zeigt solide Erfolge bei der Anonymisierung. Die ausschließliche Offline-Ausführung erfüllt Sicherheitsanforderungen (bspw. Art. 32, DSGVO) minimiert Datenschutzrisiken. Die Verarbeitung von Dokumenten ohne spezialisierte Server erleichtert multizentrische Forschungsvorhaben. Aktuell ist weiterhin eine manuelle Validierung notwendig. Dennoch birgt dieser Ansatz erhebliches Potenzial, die Forschungsprozesse künftig zu beschleunigen.



Publication History

Article published online:
04 September 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany