Z Gastroenterol 2025; 63(08): e517
DOI: 10.1055/s-0045-1810904
Abstracts | DGVS/DGAV
Kurzvorträge
Innovationen bei seltenen Tumoren Freitag, 19. September 2025, 09:51 – 11:01, Vortragsraum 10

Einsatz von KI-gestützten Reasoning-Modellen zur Therapieentscheidung bei gastrointestinalen Stromatumoren: Vergleichende Bewertung von OpenAI o1 und DeepSeek-R1 durch Expert:innen und Sprachmodelle

M Harbrücker
1   Universitätsmedizin Mannheim, medizinische Fakultät Mannheim der Universität Heidelberg, Chirurgische Klinik, Mannheim, Deutschland
2   Deutsches Krebsforschungszentrum, DKFZ-Hector Krebsinstitut an der Universitätsmedizin Mannheim, Heidelberg, Deutschland
,
F Menge
1   Universitätsmedizin Mannheim, medizinische Fakultät Mannheim der Universität Heidelberg, Chirurgische Klinik, Mannheim, Deutschland
,
A Taebi
1   Universitätsmedizin Mannheim, medizinische Fakultät Mannheim der Universität Heidelberg, Chirurgische Klinik, Mannheim, Deutschland
,
D Nörenberg
3   Universitätsmedizin Mannheim, medizinische Fakultät der Universität Heidelberg, Klinik für Radiologie und Nuklearmedizin, Mannheim, Deutschland
,
T Speer
4   Unabhängiger Forscher, Ludwigshafen, Deutschland
,
C Reißfelder
1   Universitätsmedizin Mannheim, medizinische Fakultät Mannheim der Universität Heidelberg, Chirurgische Klinik, Mannheim, Deutschland
2   Deutsches Krebsforschungszentrum, DKFZ-Hector Krebsinstitut an der Universitätsmedizin Mannheim, Heidelberg, Deutschland
,
P Hohenberger
5   Universitätsmedizin Mannheim, medizinische Fakultät der Universität Heidelberg, Sektion Spezielle chirurgische Onkologie und Thoraxchirurgie, Mannheim, Deutschland
,
J Jakob
1   Universitätsmedizin Mannheim, medizinische Fakultät Mannheim der Universität Heidelberg, Chirurgische Klinik, Mannheim, Deutschland
2   Deutsches Krebsforschungszentrum, DKFZ-Hector Krebsinstitut an der Universitätsmedizin Mannheim, Heidelberg, Deutschland
,
C-P Li
6   Sarkomzentrum, Krebszentrum und -institut der Peking-Universität, Labor für Karzinogenese und translationale Forschung (Bildungsministerium/Peking), Peking, China
,
C Yang
1   Universitätsmedizin Mannheim, medizinische Fakultät Mannheim der Universität Heidelberg, Chirurgische Klinik, Mannheim, Deutschland
› Institutsangaben
 

Einleitung: Gastrointestinale Stromatumoren (GIST) stellen eine seltene Form von Weichgewebssarkomen dar, deren Behandlung komplex ist und eine interdisziplinäre Entscheidungsfindung in multidisziplinären Tumorboards (MDTs) erfordert. Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als potenzielle Unterstützung bei klinischen Entscheidungen diskutiert, jedoch ist ihr Nutzen in der onkologischen Praxis, insbesondere bei GIST, bisher wenig untersucht.

Ziele: Ziel der Studie war die Prüfung der Übereinstimmung von Therapieempfehlungen zweier fortgeschrittener LLMs (OpenAI o1 und DeepSeek-R1) mit den realen Entscheidungen eines MDTs bei GIST-Fällen. Zudem wurde die Anwendbarkeit eines LLM als unabhängiger Bewerter („LLM-as-a-Judge“) untersucht.

Methodik: In einer retrospektiven monozentrischen Studie wurden 65 reale GIST-Fälle ausgewertet, die zwischen Januar 2024 und Januar 2025 in einem zertifizierten Sarkomzentrum diskutiert wurden. Beide LLMs generierten auf Basis strukturierter Fallinformationen und der S3-Leitlinie Therapieempfehlungen. Fünf klinische Experten sowie ein weiteres LLM (Mistral AI) bewerteten unabhängig die Übereinstimmung der LLM-Empfehlungen mit den MDT-Entscheidungen auf einer 5-Punkte-Likert-Skala. Zusätzlich wurde die Verständnistiefe und Leitlinienkonformität fehlklassifizierter Fälle analysiert.

Ergebnisse: OpenAI o1 zeigte eine signifikant höhere Übereinstimmung mit den MDT-Entscheidungen als DeepSeek-R1 (76,9 % vs. 53,8 %, p < 0,001) und lieferte häufiger leitlinienkonforme Empfehlungen (80,0 % vs. 63,1 %, p = 0,005). Die Interrater-Reliabilität unter den Experten war exzellent (ICC = 0,929). Die Übereinstimmung zwischen Experten und dem LLM-Richter war moderat (κ = 0,647). OpenAI o1 erzeugte deutlich längere und detailliertere Texte, was Vorteile für die Dokumentation, aber potenzielle Nachteile für die Effizienz in zeitkritischen MDTs mit sich bringt.

Schlussfolgerung: LLMs – insbesondere OpenAI o1 – zeigen ein vielversprechendes Potenzial als Assistenzsysteme für onkologische Entscheidungsprozesse im Rahmen von MDTs. Auch als Bewertungsinstanz („LLM-as-a-Judge“) könnten sie zur Steigerung der Effizienz beitragen. Für den klinischen Einsatz ist jedoch eine enge fachliche Kontrolle unerlässlich, um die Patientensicherheit zu gewährleisten. Künftige Studien sollten multizentrisch angelegt sein und den Einsatz von Retrieval Augmented Generation (RAG)-Methoden zur weiteren Optimierung der LLMs untersuchen.



Publikationsverlauf

Artikel online veröffentlicht:
04. September 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany