Zielsetzung Diese Studie evaluiert die Leistung verschiedener Retrieval-augmented Generation
(RAG) Ansätze und Large Language Models (LLMs) bei der Beantwortung von Fragen zu
zwei neurovaskulären Leitlinien.
Material und Methoden Es wurden fünf Text Embedding Modelle zur Extraktion relevanter Informationen aus
den Leitlinien „S3-Leitlinie Diagnostik, Therapie und Nachsorge der extracraniellen
Carotisstenose“ und „S2e-Leitlinie Akuttherapie des ischämischen Hirninfarktes“ miteinander
verglichen. Anschließend wurden fünf LLMs (GPT-4o-mini mit/ohne RAG, Llama 3.1 405B
Instruct Turbo, Mixtral 8x22B Instruct und Claude 3.5 Sonnet) zur Generierung von
Antworten evaluiert. Die Antworten wurden von einem Neuroradiologen und einem Neurologen
als „korrekt“, „ungenau“ oder „falsch“ klassifiziert.
Ergebnisse Das Text Embedding Model „text-embedding-3-large“ (OpenAI) erzielte den höchsten
Recall (84,4%) beim Retrieval. Bei der Antwortgenerierung erreichte Claude 3.5 Sonnet
die höchste Genauigkeit (70,6% Fragen korrekt, 18,8% ungenau, 10,6% falsch), gefolgt
von Llama 3.1 405B Instruct Turbo (64,7% korrekt, 20,0% ungenau, 15,3% falsch). GPT-4o-mini
ohne RAG zeigte die niedrigste Genauigkeit (20,0% korrekt, 47,1% ungenau, 32,9% falsch).
Schlussfolgerungen RAG-basierte Ansätze verbessern signifikant die Genauigkeit von LLMs bei der Beantwortung
von Fragen zu medizinischen Leitlinien. Die Kombination aus OpenAI „text-embedding-3-large“
als Text Embedding Model und Claude 3.5 Sonnet als LLM für die Antwortgenerierung
erwies sich als besonders effektiv. Diese Ergebnisse unterstreichen das Potenzial
von KI-gestützten Systemen zur Unterstützung von Ärzten bei der schnellen und präzisen
Extraktion von Informationen aus komplexen medizinischen Leitlinien.