Rofo 2025; 197(S 01): S34
DOI: 10.1055/s-0045-1802767
Abstracts
Vortrag (Wissenschaft)
IT/Bildverarbeitung/Software

Vergleich von Retrieval-Mechanismen und Large Language Models zur automatisierten Beantwortung von Fragen zu neurovaskulären Leitlinien

M Vach
1   Heinrich-Heine-Universität Düsseldorf, Medizinische Fakultät, Institut für Diagnostische und Interventionelle Radiologie, Düsseldorf
,
M Gliem
2   Universitätsklinikum Düsseldorf, Klinik für Neurologie, Düsseldorf
,
V Ivan
3   Universitätsklinikum Düsseldorf, Institut für Diagnostische und Interventionelle Radiologie, Düsseldorf
,
D Weiß
3   Universitätsklinikum Düsseldorf, Institut für Diagnostische und Interventionelle Radiologie, Düsseldorf
,
C Boschenriedter
3   Universitätsklinikum Düsseldorf, Institut für Diagnostische und Interventionelle Radiologie, Düsseldorf
,
C Rubbert
3   Universitätsklinikum Düsseldorf, Institut für Diagnostische und Interventionelle Radiologie, Düsseldorf
,
J Caspers
3   Universitätsklinikum Düsseldorf, Institut für Diagnostische und Interventionelle Radiologie, Düsseldorf
› Author Affiliations
 

Zielsetzung Diese Studie evaluiert die Leistung verschiedener Retrieval-augmented Generation (RAG) Ansätze und Large Language Models (LLMs) bei der Beantwortung von Fragen zu zwei neurovaskulären Leitlinien.

Material und Methoden Es wurden fünf Text Embedding Modelle zur Extraktion relevanter Informationen aus den Leitlinien „S3-Leitlinie Diagnostik, Therapie und Nachsorge der extracraniellen Carotisstenose“ und „S2e-Leitlinie Akuttherapie des ischämischen Hirninfarktes“ miteinander verglichen. Anschließend wurden fünf LLMs (GPT-4o-mini mit/ohne RAG, Llama 3.1 405B Instruct Turbo, Mixtral 8x22B Instruct und Claude 3.5 Sonnet) zur Generierung von Antworten evaluiert. Die Antworten wurden von einem Neuroradiologen und einem Neurologen als „korrekt“, „ungenau“ oder „falsch“ klassifiziert.

Ergebnisse Das Text Embedding Model „text-embedding-3-large“ (OpenAI) erzielte den höchsten Recall (84,4%) beim Retrieval. Bei der Antwortgenerierung erreichte Claude 3.5 Sonnet die höchste Genauigkeit (70,6% Fragen korrekt, 18,8% ungenau, 10,6% falsch), gefolgt von Llama 3.1 405B Instruct Turbo (64,7% korrekt, 20,0% ungenau, 15,3% falsch). GPT-4o-mini ohne RAG zeigte die niedrigste Genauigkeit (20,0% korrekt, 47,1% ungenau, 32,9% falsch).

Schlussfolgerungen RAG-basierte Ansätze verbessern signifikant die Genauigkeit von LLMs bei der Beantwortung von Fragen zu medizinischen Leitlinien. Die Kombination aus OpenAI „text-embedding-3-large“ als Text Embedding Model und Claude 3.5 Sonnet als LLM für die Antwortgenerierung erwies sich als besonders effektiv. Diese Ergebnisse unterstreichen das Potenzial von KI-gestützten Systemen zur Unterstützung von Ärzten bei der schnellen und präzisen Extraktion von Informationen aus komplexen medizinischen Leitlinien.



Publication History

Article published online:
25 March 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany