Subscribe to RSS
DOI: 10.1055/a-2641-3059
Von der Indikationsstellung bis zur Befundung: Potential von Large Language Models im radiologischen Workflow
Article in several languages: English | deutschAuthors
Supported by: Berta-Ottenstein-Programme for Clinician Scientists, Faculty of Medicine, University of Freiburg
Zusammenfassung
Hintergrund
Large Language Models (LLMs) bieten angesichts steigender radiologischer Fallzahlen ein vielversprechendes Potenzial zur Optimierung und Unterstützung von Arbeitsabläufen. In dieser Übersicht sollen potenzielle Anwendungsmöglichkeiten im radiologischen Alltag, verbleibende Herausforderungen sowie potenzielle Lösungsansätze diskutiert werden.
Methode
Darstellung der Anwendungsmöglichkeiten und Herausforderungen anhand praxisnaher Beispiele mit konkreten Optimierungsvorschlägen.
Ergebnisse
In nahezu allen Schritten des radiologischen Workflows, die sprachbasierte Prozesse beinhalten, ist der Einsatz von LLM-basierten Assistenzsystemen denkbar. Besonders in der Befunderstellung wurden in den letzten Jahren durch Retrieval-Augmented Generation (RAG) und mehrstufige Argumentationsansätze bedeutende Fortschritte erzielt. Vor einer breiten Implementierung müssen jedoch bleibende Herausforderungen wie Halluzinationen, Reproduzierbarkeit sowie datenschutzrechtliche und ethische Bedenken adressiert werden.
Schlussfolgerung
LLMs haben ein enormes Potenzial in der Radiologie, insbesondere zur Unterstützung sprachbasierter Prozessschritte, wobei technologische Fortschritte wie RAG und cloud-basierte Ansätze die klinische Implementierung näherbringen könnten.
Kernaussagen
-
LLMs können mit Technologien wie Retrieval-Augmented Generation (RAG) und mit mehrstufigen Argumentationsansätzen die Befunderstellung und andere sprachbasierte Prozesse in der Radiologie verbessern.
-
Vor einer breiten Anwendung müssen Herausforderungen wie Halluzinationen, Reproduzierbarkeit sowie datenschutzrechtliche und ethische Bedenken gelöst werden.
-
RAG und cloud-basierte Ansätze könnten helfen, diese Herausforderungen zu überwinden und die klinische Implementierung von LLMs voranzutreiben.
Zitierweise
-
Fink A, Rau S, Kästingschäfer K et al. From Referral to Reporting: The Potential of Large Language Models in the Radiological Workflow. Rofo 2026; 198: 55–63
Abkürzungen
Einleitung
Die Radiologie ist ein traditionell von technologischem Fortschritt geprägtes Fach. Bereits der Übergang von der Röntgenarchivierung auf Film zur digitalen Archivierung und die Entwicklung hochmoderner Schnittbilddiagnostik wie CT oder MRT stellten einen großen Umbruch dar. Heute steht die Radiologie vor einer erneuten Umbruchphase: der Integration künstlicher Intelligenz (KI) in die klinische Routine.
Angesichts steigender Fallzahlen [1] und des damit verbundenen Fehlerrisikos [2] wächst der Bedarf an Hilfsmitteln zur Verbesserung der diagnostischen Effizienz. In den letzten Jahren hat die Entwicklung von Large Language Models (dt.: große Sprachmodelle, LLMs) wie GPT-4 [3], Claude [4] und Gemini Pro [5] große Aufmerksamkeit erregt, da diese ein vielversprechendes Optimierungspotenzial für den radiologischen Alltag bieten [6] [7] [8] [9] [10]. Dennoch bleiben Herausforderungen wie Halluzinationen, bei denen falsche Antworten zur Überbrückung von Wissenslücken generiert werden, sowie Einschränkungen bei komplexen kognitiven Aufgaben [11] [12]. Auch die mangelnde Transparenz ist im medizinischen Kontext problematisch, da man hier auf präzise und korrekte Antworten angewiesen ist [13] [14]. Darüber hinaus müssen vor einem breiten Einsatz in der Medizin datenschutzrechtliche und ethische Fragestellungen geklärt werden [15] [16].
Ziel dieser Arbeit ist es, einen umfassenden Überblick über die Anwendungsfelder von LLMs in der Radiologie zu geben, Lösungsansätze zur Reduktion der genannten Limitationen zu diskutieren und Perspektiven für eine zukünftige Implementierung zu skizzieren.
Hauptteil
1. Grundlagen der Interaktion
Die Entwicklung großer Sprachmodelle wäre ohne die Fortschritte im Natural Language Processing (NLP [17]), welches die sprachliche Interaktion zwischen Mensch und Computer erforscht, nicht denkbar gewesen. Erste Forschungsansätze in diesem Bereich reichen bis in die 1950er Jahre zurück, der eigentliche Durchbruch gelang jedoch erst mit der Einführung der sogenannten Transformer-Architektur [18]. Diese Architektur bildet die Grundlage vieler kommerzieller Modelle wie GPT-4 [3], Claude [4] und Gemini Pro [5], die mittlerweile weltweit bekannt sind.
Die automatisierte Generierung sequenzieller Textdateien erfolgt hierbei auf der Grundlage von „embeddings“, d.h. der numerischen Repräsentation von Wörtern und ihrem Kontext. Das LLM versucht auf Basis der trainierten Parameter das wahrscheinlichste nächste Wort oder die wahrscheinlichste nächste Wortfolge im Satzkontext vorherzusagen und auf diese Weise einen Text zu generieren (sog. „generative KI“). LLM-Ausgaben basieren also primär auf Wahrscheinlichkeiten, was ein zentraler Aspekt für das Verständnis sowohl der Anwendungsmöglichkeiten als auch der Grenzen dieser Technologie ist.
Trotz des großen Hypes, der mit der Entwicklung dieser Sprachmodelle einherging, zeigten sich bald auch deren Grenzen. Neben der oft intransparenten Anpassung von Modellparametern durch die Anbieter wurden inzwischen weitere, individuelle Optimierungsansätze entwickelt. So ermöglicht Prompt Engineering eine gezielte Anpassung der Eingabeaufforderung, während der Einsatz mehrstufiger Argumentationsansätze die Qualität der Interaktion weiter verbessern kann. Techniken wie Few-Shot Learning oder Zero-Shot Learning optimieren die Antwortgenauigkeit von LLMs, indem aufgabenspezifische Informationen oder Beispiele direkt in die Eingabeaufforderung eingebettet werden. Retrieval-Augmented Generation (RAG), ermöglicht die automatisierte Integration von aktualisierbaren, fachspezifischen Informationen aus externen Quellen. Dies erhöht die Transparenz, da die verwendeten Quellen explizit angegeben werden können [19] [20].
Insgesamt haben diese Anpassungen das Potenzial, das Anwendungsspektrum im medizinischen Kontext erheblich zu erweitern. In nahezu jedem Schritt der radiologischen Patientenversorgung – von der Indikationsstellung über die Terminvergabe bis hin zur Bildakquisition und Befundung ([Abb. 1]) – sind mittlerweile Einsatzmöglichkeiten für LLM denkbar.


2. Anwendungsspektrum in der klinischen Praxis
2.1. Indikationsstellung und Protokollfestlegung
Da die bekanntesten Modelle auf Sprachverarbeitung mittels NLP basieren, liegt ihr größtes Anwendungspotenzial in der Optimierung sprach- oder textbasierter Arbeitsschritte. In der Radiologie denkt man dabei in erster Linie an die Anpassung von Befundtexten, aber auch in den vorgelagerten Prozessschritten gibt es Möglichkeiten zur Effizienzsteigerung.
Am Beginn der radiologischen Patient*innenversorgung steht die Indikationsstellung und Festlegung des Untersuchungsprotokolls in Zusammenarbeit zwischen den anfordernden Ärzt*innen und den verantwortlichen Radiolog*innen. Dieser Schritt bildet die Grundlage für eine korrekte Diagnosestellung und trägt dazu bei, unnötige Untersuchungen und Strahlenexposition zu vermeiden.
Rosen et al. und Barash et al. konnten zeigen, dass die von LLMs aus Anforderungstexten abgeleiteten Empfehlungen zur geeigneten Bildgebung und Kontrastmittelgabe weitgehend mit etablierten Leitlinien wie den European Imaging Referral Guidelines [21] oder den Appropriateness Criteria des American College of Radiology [22] übereinstimmen. Viele dieser Anwendungen bezogen sich jedoch auf spezialisierte Bereiche und in einigen Fällen traten Probleme mit vage formulierten Empfehlungen auf [21] [22].
Ein vielversprechender Lösungsansatz ist Meta-Lernen („in-context learning“), bei dem das LLM seine Ausgaben anhand von fragenspezifischen Beispielen optimiert, um neue Aufgaben zu lösen [23]. Eine Weiterentwicklung dieser Technik, Retrieval-Augmented Generation, ermöglicht es dem Modell, auf eine externe Datenbank zuzugreifen, die speziell für das jeweilige Fachgebiet zusammengestellt wurde und beispielsweise Fachartikel, Lehrbuchinhalte oder abteilungsspezifische Standardarbeitsanweisungen (SOPs) enthält [20]. Das extrahierte Wissen wird direkt in die Eingabe des LLMs integriert, um präzisere und fundiertere Antworten zu liefern ([Abb. 2]). Rau et al. und Rosen et al. konnten zeigen, dass dieser Ansatz die Antwortgenauigkeit signifikant erhöht und in fiktiven Fallbeispielen ein mit Fachexpert*innen vergleichbares Niveau erreicht. Darüber hinaus trägt der Einsatz solcher spezialisierter LLMs zu einer erheblichen Zeitersparnis und Kostenreduktion bei [7] [24].


Zukünftige, bislang wenig erforschte Ansätze umfassen unter anderem die Unterstützung bei der Auswertung von Laborparametern, die automatisierte Extraktion bildgebender Vorbefunde sowie die Extraktion relevanter Patientendaten aus Arztbriefen oder Sprechstundennotizen. Klinische Informationen in Bildgebungsanforderungen sind häufig unvollständig und fehlerbehaftet, was problematisch ist, da eine höhere Qualität dieser Angaben zu einer signifikanten Verbesserung der Befundqualität führt [25]. Sowohl der klinische Bedarf als auch das Potenzial sprechen für eine intensivere Erforschung des Einsatzes von LLMs in diesem Bereich.
2.2. Terminvergabe und Patientenvorbereitung
Nicht nur Radiolog*innen, sondern auch andere Berufsgruppen wie medizinische Fachangestellte könnten in Zukunft von der Integration von Sprachmodellen profitieren. Ein mögliches Anwendungsszenario ist die Unterstützung bei der Terminvergabe, indem dringende Anfragen automatisch priorisiert und die zugehörigen Termine entsprechend hervorgehoben werden. Darüber hinaus ist eine Integration in KI-basierte, automatisierte Terminvergabesysteme denkbar [26].
Auch in der Patient*innenvorbereitung gibt es sprachbasierte Aufgaben, bei denen Automatisierungspotenzial besteht. Beispielsweise könnte eine Kombination aus Sprachmodellen und digitalen Aufklärungsbögen entwickelt werden, die Patient*innen idealerweise zu Hause vor der Untersuchung ausfüllen, um Wartezimmer zu entlasten. In diesem Szenario könnte das Sprachmodell als Vermittler fungieren, indem es auf abteilungsspezifische SOPs, zeitliche Abläufe und Ortsbeschreibungen zugreift und den Patient*innen häufig gestellte Fragen beantwortet. Zusätzlich könnte diese Technologie zu einer Zeitersparnis für die aufklärende Fachkraft beitragen, indem relevante Informationen aus den Aufklärungsbögen – wie Vorerkrankungen der Niere, der Schilddrüse, oder mögliche Kontrastmittelallergien – strukturiert zur Verfügung gestellt werden.
Technisch ist die Umsetzung dieser Ansätze bereits heute möglich, sogar eine lokale Anpassung an klinikinterne Standards könnte mithilfe von RAG realisiert werden. Die Qualität und Struktur der Eingaben hat jedoch einen erheblichen Einfluss auf die Ausgaben von LLMs [27]. Unstrukturierte Eingaben von Patient*innen, die potenziell über wenig oder kein medizinisches Fachwissen verfügen, könnten also zu Fehlinformationen führen. Die Anwendungsforschung wird daher zeigen müssen, inwieweit solche Systeme erfolgreich umgesetzt werden können.
2.3. Befunderstellung
Nach der Bildakquisition folgt ein weiterer sprachbasierter Bereich im radiologischen Workflow: die Befundung. Dieser Bereich stand in der LLM-Forschung der letzten Jahre im Fokus, da er eine direkte Entlastung für Radiolog*innen im klinischen Alltag verspricht.
Die Stärke von LLMs liegt insbesondere in der Strukturierung großer Textmengen. Daraus hat sich in der Anfangszeit der Sprachmodelle ein wichtiges Forschungsfeld entwickelt: die Generierung strukturierter Befunde aus unstrukturierten Freitexten. So sind LLMs in der Lage, Befunde thematisch zu sortieren, Fließtexte zu strukturieren und Verlaufskontrollen, bspw. onkologischer Erkrankungen, zu visualisieren [28] [29]. In einer verblindeten Analyse konnten Bhayana et al. zeigen, dass zuweisende Ärzt*innen die durch LLMs generierten, strukturierten Befunde den Originalbefunden vorziehen und mit diesen schneller zu einer Therapieentscheidung gelangen [30]. Darüber hinaus können LLMs eingesetzt werden, um bestehende Befundtexte zu korrigieren und so Zeit bei der Befundung einzusparen [31] [32]. Erste Unternehmen in den USA bieten solche Systeme bereits zur automatisierten Generierung von Befundbeurteilungen an, wie beispielsweise RadAI mit Omni Impressions [33] oder Nuance Communications mit PowerScribe Smart Impression [34].
Auch im letzten Schritt der Prozesskette, der Befundkommunikation mit den Patient*innen, bestehen Anwendungsmöglichkeiten für LLMs. So konnte in Studien von Amin et al. und Meddeb et al. gezeigt werden, dass eine Übersetzung der radiologischen Fachsprache in vereinfachte, für Patient*innen verständliche Begriffe [10] sowie in Fremdsprachen [35] möglich ist, um Kommunikationsbarrieren zu überwinden.
Lange Zeit galten diese Anwendungen als Hauptpotenzial von LLMs, während die Generierung neuer Texte an Grenzen stieß. Gängige große Sprachmodelle konnten zwar multiple-choice-basierte Wissensprüfungen wie die nordamerikanische radiologische Facharztprüfung bestehen, wiesen aber zum Teil eine schlechte Robustheit und Reproduzierbarkeit auf. Zudem präsentierten die Modelle mit hoher Selbstsicherheit falsche Lösungen und zeigten vor allem bei komplexen Denkaufgaben Defizite [11] [36]. Auch bei der Beantwortung medizinischer Wissensfragen und der Generierung von Differenzialdiagnosen aus Befundtexten zeigten sich Defizite, was die Notwendigkeit von medizinischem Expertenwissen in den Trainingsdaten der Sprachmodelle unterstreicht [37] [38].
Ein zentrales Problem besteht hierbei darin, dass die meisten leistungsfähigen Modelle von kommerziellen Anbietern stammen, sodass ein spezialisiertes medizinisches Training aufgrund des mangelnden Interesses der Anbieter unwahrscheinlich ist. Zudem ist das manuelle, aufgabenspezifische Training der Modelle extrem zeit- und datenintensiv und daher nur schwer realisierbar.
Daher haben sich in den letzten Jahren verschiedene Ansätze herauskristallisiert, bei denen aufgabenspezifisches Wissen direkt in den Eingabeprompt integriert wird, anstatt das gesamte Modell neu zu trainieren [23]. Bei der Integration großer Datenmengen in den Eingabeprompt stößt man jedoch schnell auf Eingabebeschränkungen (sog. Token-Limits) und das Problem, dass relevante Inhalte in der Informationsmenge unterzugehen drohen [39]. Ein vielversprechender Lösungsansatz ist RAG, bei der das LLM für jeden Prompt auf eine externe, manuell erstellte Datenbank aus Fachartikeln, Lehrbüchern oder SOPs zugreift. Dieser Ansatz hat nicht nur zu einer signifikanten Performancesteigerung bei radiologischen Fachfragen geführt [40], sondern auch Potenzial zur Diagnosestellung aus unstrukturierten Befundtexten gezeigt. So konnten beispielsweise in der Traumabildgebung [8], der gastrointestinalen Bildgebung [9] oder bei der Frakturklassifikation nach den Vorgaben der Arbeitsgemeinschaft für Osteosynthesefragen [41] konkrete Diagnosen generiert werden. Die [Abb. 3] und [Abb. 4] zeigen zwei praxisnahe Beispiele mit korrespondierender Ausgabe aus dem Bereich der Traumabildgebung. Der genaue Eingabeprompt für beide Modelle ist im Zusatzmaterial (Suppl. 1 und 2) bereitgestellt.




Solche Werkzeuge könnten in der radiologischen Routine zu erheblicher Zeiteinsparung führen und aufwendige Recherchen verkürzen. Um die Transparenz und das Vertrauen in die Aussagen des LLMs zu erhöhen, können Hyperlinks zu den verwendeten Quellen inklusive Seitenangaben der extrahierten Informationen in jede Antwort integriert werden [8].
[Abb. 5] bietet eine zusammenfassende Übersicht der diskutierten Anwendungsmöglichkeiten.


3. Herausforderungen und Implikationen
Trotz des enormen Potenzials von LLMs sind nach wie vor Einschränkungen zu berücksichtigen. Zu den bekanntesten Herausforderungen zählen Halluzinationen, bei denen Fehlinformationen zur Überbrückung von Wissenslücken generiert werden, sowie Probleme bei komplexeren Denkaufgaben mit mehreren Iterationsschritten. LLMs basieren auf Wahrscheinlichkeitsvorhersagen und verwenden kein klassisches maschinelles Lernen mit einem „Ground Truth“-Referenzwert. Dies führt zu Einschränkungen in spezialisierten Bereichen, in welchen dedizierte Informationen im Trainingsdatensatz unterrepräsentiert sind.
Ein weiteres Problem ist die fehlende Aktualität des Wissens, da Sprachmodelle nur Informationen bis zum Zeitpunkt ihres Trainings nutzen können (bei GPT-4 Turbo bis Dezember 2023 [43]). Dies ist insbesondere in sich schnell entwickelnden Bereichen wie der Radiologie problematisch. Beispielsweise kann es vorkommen, dass diagnostische Leitlinien in der Zwischenzeit überarbeitet wurden, sodass das LLM nicht mehr auf die neueste Version zugreifen kann und seine Antwort potenziell auf veraltetem Wissen basiert.
Da ein fachspezifisches Training aus den bereits genannten Gründen derzeit kaum realisierbar ist, konzentrieren sich Lösungsansätze vor allem auf die Optimierung der Eingabeaufforderung, z.B. durch den Einsatz mehrstufiger Argumentationsansätze, oder auf die Ergänzung der Eingabedaten mittels RAG [27]. Dabei kann das LLM entweder in Echtzeit auf Web-Datenbanken wie PubMed oder auf eine traditionelle RAG-Datenbank mit sorgfältig kuratierten, wissenschaftlich geprüften Informationen zugreifen. Auch agentenbasierte Ansätze [44], bei denen mehrere RAG-augmentierte LLMs wie ein interdisziplinäres Expertenteam interagieren und hierdurch ein gemeinsames Ergebnis produzieren, bieten vielversprechende Zukunftsperspektiven. Eine wichtige Frage, die sich hier stellt, ist die der Verantwortlichkeit. In Zukunft könnte es notwendig sein, dass RAG-Datenbanken von Fachgesellschaften, wissenschaftlichen Journalen oder innerhalb von Abteilungen unter Einbeziehung lokaler SOPs erstellt und kontinuierlich angepasst werden.
Eine weitere Einschränkung ist die sprachliche, teilweise aber auch inhaltliche Variabilität der Ausgaben, sodass die gleiche Anweisung mehrmals hintereinander zu unterschiedlichen Ergebnissen führen kann [45]. Dies ist meist auf eine hohe Kreativität des Sprachmodells zurückzuführen, d.h. auf die Variabilität bei der Auswahl des nächsten Wortes („temperature setting“). In den meisten gängigen LLMs kann dieser Parameter manuell angepasst werden, um eine höhere Konsistenz zu gewährleisten. Probleme der mangelnden Transparenz von LLM-Ausgaben können durch RAG-basierte, überprüfbare Quellenangaben mit Hyperlinks in jeder Ausgabe adressiert werden.
Ein weiteres Hindernis für die Implementierung von LLMs in die klinische Routine sind Datenschutzbedenken. Jede LLM-Anfrage in den leistungsfähigen, kommerziell betriebenen LLMs läuft über externe Firmenserver; ein großflächiger Einsatz mit hochsensiblen Patientendaten würde daher einen gravierenden Datenschutzverstoß darstellen. Eine Lösung könnte der Einsatz speziell entwickelter, lokaler Modelle sein, was sowohl hohe Expertise als auch erhebliche Serverkapazitäten erfordert.
Eine Ressourcen-schonende und nachhaltige Alternative bieten cloud-basierte Lösungen von Anbietern wie AWS [46], Google [47], oder Microsoft [48]. Hierbei werden die Daten in einer geschützten Cloudumgebung verarbeitet, die einer ähnlichen Datensicherheit unterliegen wie ein klinikinternes IT-System. In diesem Zusammenhang hat sich kürzlich die Europäische Gesellschaft für Radiologie für eine konforme Implementierung des European AI Act ausgesprochen, unter anderem durch die Schaffung eines European Health Data Space [49]. Da die Nutzung dieser Systeme nach wie vor ein hohes Maß an technischer Expertise erfordert, könnten sich hierbei in Zukunft kommerzielle ‘out-of-the-box’-Lösungen oder integrierte Plattformansätze etablieren.
Abschließend sollten ethische Bedenken nicht außer Acht gelassen werden, insbesondere hinsichtlich des inhärenten Bias von LLMs, der durch verzerrte Trainingsdaten entstehen kann. Hier besteht die Gefahr, dass Nutzer*innen durch die oft überzeugend dargestellten Antworten der Modelle beeinflusst und möglicherweise fehlgeleitet werden. Dies ist insbesondere relevant, wenn LLMs als Vorinformation für Patient*innen ohne medizinischen Hintergrund dienen, etwa im Rahmen digitaler Aufklärung. Vor einer breiten Implementierung ist es daher unerlässlich, sowohl die Diversität der Trainingsdaten als auch eine nachvollziehbare Argumentationskette des Sprachmodells sicherzustellen, um die Ausgaben verifizieren zu können.
Vor dem Hintergrund der zunehmenden Verbreitung großer Sprachmodelle kommt es immer häufiger vor, dass Patient*innen Bilddaten oder Befundtexte in LLMs eingeben, um diese in eine für Laien verständliche Sprache übersetzen zu lassen oder eine vermeintliche Zweitmeinung einzuholen. Da LLMs auch bei komplexen Sachverhalten mit hoher sprachlicher Sicherheit antworten, kann dies zu Verunsicherung und Rückfragen seitens der Patient*innen führen. Radiologisches Fachpersonal sollte daher gezielt im Umgang mit solchen Situationen sowie in der Einordnung LLM-generierter Aussagen geschult werden.
Neben der individuellen Verantwortung der Ärzt*innen kommt insbesondere den medizinischen Fachgesellschaften eine zentrale Rolle bei der Integration von LLM-Anwendungen im Gesundheitswesen zu. Die Bundesärztekammer fordert die Fachgesellschaften in ihrer aktuellen Stellungnahme ausdrücklich dazu auf, den klinischen Einsatz von KI mit klaren, evidenzbasierten Handlungsempfehlungen zu begleiten [50]. Angesichts der hohen Innovationsdynamik ist ein kontinuierlicher Evaluationsprozess notwendig, um die Sicherheit, Wirksamkeit und Qualität neuer Systeme im klinischen Alltag langfristig zu gewährleisten.
4. Fazit für die Praxis
Zusammenfassend bieten LLMs ein enormes Potenzial, das in der medizinischen Fachwelt bereits breit diskutiert wird [12] [51]. In der Radiologie können vor allem sprachbasierte Prozessschritte durch LLMs unterstützt werden. Der stetige technische Fortschritt dieser Modelle sowie Perspektiven wie RAG, agentenbasierte Modelle oder cloud-basierte Ansätze könnten eine klinische Implementierung ermöglichen. Hierbei ist es unabdingbar, feste Regeln bezüglich Datensicherheit, ethischer Fragen und Verantwortlichkeiten zu definieren. Darüber hinaus ist eine umfassende Schulung von Radiolog*innen und medizinischem Fachpersonal hinsichtlich der Funktionsweise, Möglichkeiten und Grenzen von LLMs notwendig, um einen verantwortungsvollen Umgang zu gewährleisten und das notwendige Vertrauen für eine erfolgreiche Implementierung zu schaffen.
Diese Entwicklung gilt es, aktiv mitzugestalten, um angesichts steigender Untersuchungszahlen und zunehmender Arbeitsbelastung einen verantwortungsvollen Einsatz von LLMs als Unterstützung im radiologischen Alltag zu gewährleisten.
Interessenkonflikt
Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.
-
References
- 1 McDonald RJ, Schwartz KM, Eckel LJ. et al. The Effects of Changes in Utilization and Technological Advancements of Cross-Sectional Imaging on Radiologist Workload. Acad Radiol 2015; 22: 1191-8
- 2 Kasalak Ö, Alnahwi H, Toxopeus R. et al. Work overload and diagnostic errors in radiology. Eur J Radiol 2023; 167: 111032
- 3 OpenAIAchiam J, Adler S. et al. GPT-4 Technical Report. arXiv;. 2024 Accessed March 12, 2025 at: http://arxiv.org/abs/2303.08774
- 4 Enis M, Hopkins M. From LLM to NMT: Advancing Low-Resource Machine Translation with Claude. arXiv;. 2024 Accessed March 12, 2025 at: http://arxiv.org/abs/2404.13813
- 5 Team G, Anil R, Borgeaud S. et al. Gemini: A Family of Highly Capable Multimodal Models. arXiv;. 2024 Accessed March 12, 2025 at: http://arxiv.org/abs/2312.11805
- 6 Gertz RJ, Bunck AC, Lennartz S. et al. GPT-4 for Automated Determination of Radiologic Study and Protocol Based on Radiology Request Forms: A Feasibility Study. Radiology 2023; 307: e230877
- 7 Rau A, Rau S, Zöller D. et al. A Context-based Chatbot Surpasses Radiologists and Generic ChatGPT in Following the ACR Appropriateness Guidelines. Radiology 2023; 308: e230970
- 8 Fink A, Nattenmüller J, Rau S. et al. Retrieval-augmented generation improves precision and trust of a GPT-4 model for emergency radiology diagnosis and classification: A proof-of-concept study. Eur Radiol 2025;
- 9 Rau S, Rau A, Nattenmüller J. et al. A retrieval-augmented chatbot based on GPT-4 provides appropriate differential diagnosis in gastrointestinal radiology: A proof of concept study. Eur Radiol Exp 2024; 8: 1-8
- 10 Amin KS, Davis MA, Doshi R. et al. Accuracy of ChatGPT, Google Bard, and Microsoft Bing for Simplifying Radiology Reports. Radiology 2023; 309: e232561
- 11 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology 2023; 307: e230582
- 12 Bhayana R. Chatbots and Large Language Models in Radiology: A Practical Primer for Clinical and Research Applications. Radiology 2024; 310: e232756
- 13 Sallam M. ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns. Healthcare 2023; 11: 887
- 14 Srivastav S, Chandrakar R, Gupta S. et al. ChatGPT in Radiology: The Advantages and Limitations of Artificial Intelligence for Medical Imaging Diagnosis. Cureus 2023; 15: e41435
- 15 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. Insights Imaging 2019; 10: 44
- 16 Strohm L, Hehakaya C, Ranschaert ER. et al. Implementation of artificial intelligence (AI) applications in radiology: Hindering and facilitating factors. Eur Radiol 2020; 30: 5525-5532
- 17 Nadkarni PM, Ohno-Machado L, Chapman WW. Natural language processing: an introduction. J Am Med Inform Assoc 2011; 18: 544-51
- 18 Vaswani A, Shazeer N, Parmar N. et al. Attention Is All You Need. arXiv;. 2023 Accessed March 12, 2025 at: http://arxiv.org/abs/1706.03762
- 19 Fink A, Rau A, Kotter E. et al. Optimierte Interaktion mit Large Language Models. Radiologie 2025;
- 20 Lewis P, Perez E, Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv;. 2021 Accessed November 21, 2024 at: http://arxiv.org/abs/2005.11401
- 21 Rosen S, Saban M. Evaluating the reliability of ChatGPT as a tool for imaging test referral: a comparative study with a clinical decision support system. Eur Radiol 2024; 34: 2826-37
- 22 Barash Y, Klang E, Konen E. et al. ChatGPT-4 Assistance in Optimizing Emergency Department Radiology Referrals and Imaging Selection. J Am Coll Radiol 2023; 20: 998-1003
- 23 Brown TB, Mann B, Ryder N. et al. Language Models are Few-Shot Learners. arXiv;. 2020 Accessed November 21, 2024 at: http://arxiv.org/abs/2005.14165
- 24 Russe MF, Rau A, Ermer MA. et al. A content-aware chatbot based on GPT 4 provides trustworthy recommendations for Cone-Beam CT guidelines in dental imaging. Dentomaxillofac Radiol 2024; 53: 109-14
- 25 Castillo C, Steffens T, Sim L. et al. The effect of clinical information on radiology reporting: A systematic review. J Med Radiat Sci 2021; 68: 60-74
- 26 Chen PS, Lai CH, Chen YT. et al. Developing a prototype system of computer-aided appointment scheduling: A radiology department case study. Technol Health Care 2024; 32: 997-1013
- 27 Russe MF, Reisert M, Bamberg F. et al. Improving the use of LLMs in radiology through prompt engineering: from precision prompts to zero-shot learning. Rofo 2024; 196: 1166-70
- 28 Laukamp KR, Terzis RA, Werner JM. et al. Monitoring Patients with Glioblastoma by Using a Large Language Model: Accurate Summarization of Radiology Reports with GPT-4. Radiology 2024; 312: e232640
- 29 Fink MA, Bischoff A, Fink CA. et al. Potential of ChatGPT and GPT-4 for Data Mining of Free-Text CT Reports on Lung Cancer. Radiology 2023; 308: e231362
- 30 Bhayana R, Nanda B, Dehkharghanian T. et al. Large Language Models for Automated Synoptic Reports and Resectability Categorization in Pancreatic Cancer. Radiology 2024; 311: e233117
- 31 Kim S, Kim D, Shin HJ. et al. Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports. Radiology 2025; 314: e240701
- 32 Gertz RJ, Dratsch T, Bunck AC. et al. Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy. Radiology 2024; 311: e232714
- 33 Rad AI to Unveil Next-Generation Intelligent Radiology Reporting Solution at Launch Event. Accessed March 12, 2025 at: https://www.radai.com/news/rad-ai-to-unveil-next-generation-intelligent-radiology-reporting-solution-at-launch-event
- 34 PowerScribe One: Microsoft Cloud For Healthcare. Accessed March 12, 2025 at: https://www.microsoft.com/en-us/health-solutions/radiology-workflow/powerscribe-one
- 35 Meddeb A, Lüken S, Busch F. et al. Large Language Model Ability to Translate CT and MRI Free-Text Radiology Reports Into Multiple Languages. Radiology 2024; 313: e241736
- 36 Krishna S, Bhambra N, Bleakney R. et al. Evaluation of Reliability, Repeatability, Robustness, and Confidence of GPT-3.5 and GPT-4 on a Radiology Board-style Examination. Radiology 2024; 311: e232715
- 37 Rahsepar AA, Tavakoli N, Kim GHJ. et al. How AI Responds to Common Lung Cancer Questions: ChatGPT versus Google Bard. Radiology 2023; 307: e230922
- 38 Sun SH, Huynh K, Cortes G. et al. Testing the Ability and Limitations of ChatGPT to Generate Differential Diagnoses from Transcribed Radiologic Findings. Radiology 2024; 313: e232346
- 39 Liu NF, Lin K, Hewitt J. et al. Lost in the Middle: How Language Models Use Long Contexts. arXiv;. 2023 Accessed November 21, 2024 at: http://arxiv.org/abs/2307.03172
- 40 Bhayana R, Fawzy A, Deng Y. et al. Retrieval-Augmented Generation for Large Language Models in Radiology: Another Leap Forward in Board Examination Performance. Radiology 2024; 313: e241489
- 41 Russe MF, Fink A, Ngo H. et al. Performance of ChatGPT, human radiologists, and context-aware ChatGPT in identifying AO codes from radiology reports. Sci Rep 2023; 13: 14215
- 42 RG TEAM Top 10 Reading List. Accessed March 12, 2025 at: https://pubs.rsna.org/page/radiographics/rgteam/top10_trauma
- 43 OpenAI Platform. Accessed March 30, 2024 at: https://platform.openai.com
- 44 Ravuru C, Sakhinana SS, Runkana V. Agentic Retrieval-Augmented Generation for Time Series Analysis. arXiv;. 2024 Accessed November 21, 2024 at: http://arxiv.org/abs/2408.14484
- 45 Shen Y, Heacock L, Elias J. et al. ChatGPT and Other Large Language Models Are Double-edged Swords. Radiology 2023; 307: e230163
- 46 Amazon Web Services, Inc. Amazon Web Services AWS – Server Hosting & Cloud Services. Accessed February 01, 2025 at: https://aws.amazon.com/de/
- 47 Google Cloud. Sovereign Cloud Solutions. Accessed February 01, 2025 at: https://cloud.google.com/sovereign-cloud
- 48 Microsoft Cloud for Sovereignty. Accessed February 01, 2025 at: https://www.microsoft.com/en-us/industry/sovereignty/cloud
- 49 Kotter E, D’Antonoli TA, Cuocolo R. et al. Guiding AI in radiology: ESR’s recommendations for effective implementation of the European AI Act. Insights Imaging 2025; 16: 1-11
- 50 Bundesärztekammer. [German Medical Association] Statement regarding “Artificial Intelligence in Medicine.”. Dtsch Arztebl International 2025; 4: 238
- 51 Lee P, Bubeck S, Petro J. Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine. N Engl J Med 2023; 388: 1233-39
Correspondence
Publication History
Received: 25 March 2025
Accepted after revision: 16 June 2025
Article published online:
16 July 2025
© 2025. Thieme. All rights reserved.
Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany
-
References
- 1 McDonald RJ, Schwartz KM, Eckel LJ. et al. The Effects of Changes in Utilization and Technological Advancements of Cross-Sectional Imaging on Radiologist Workload. Acad Radiol 2015; 22: 1191-8
- 2 Kasalak Ö, Alnahwi H, Toxopeus R. et al. Work overload and diagnostic errors in radiology. Eur J Radiol 2023; 167: 111032
- 3 OpenAIAchiam J, Adler S. et al. GPT-4 Technical Report. arXiv;. 2024 Accessed March 12, 2025 at: http://arxiv.org/abs/2303.08774
- 4 Enis M, Hopkins M. From LLM to NMT: Advancing Low-Resource Machine Translation with Claude. arXiv;. 2024 Accessed March 12, 2025 at: http://arxiv.org/abs/2404.13813
- 5 Team G, Anil R, Borgeaud S. et al. Gemini: A Family of Highly Capable Multimodal Models. arXiv;. 2024 Accessed March 12, 2025 at: http://arxiv.org/abs/2312.11805
- 6 Gertz RJ, Bunck AC, Lennartz S. et al. GPT-4 for Automated Determination of Radiologic Study and Protocol Based on Radiology Request Forms: A Feasibility Study. Radiology 2023; 307: e230877
- 7 Rau A, Rau S, Zöller D. et al. A Context-based Chatbot Surpasses Radiologists and Generic ChatGPT in Following the ACR Appropriateness Guidelines. Radiology 2023; 308: e230970
- 8 Fink A, Nattenmüller J, Rau S. et al. Retrieval-augmented generation improves precision and trust of a GPT-4 model for emergency radiology diagnosis and classification: A proof-of-concept study. Eur Radiol 2025;
- 9 Rau S, Rau A, Nattenmüller J. et al. A retrieval-augmented chatbot based on GPT-4 provides appropriate differential diagnosis in gastrointestinal radiology: A proof of concept study. Eur Radiol Exp 2024; 8: 1-8
- 10 Amin KS, Davis MA, Doshi R. et al. Accuracy of ChatGPT, Google Bard, and Microsoft Bing for Simplifying Radiology Reports. Radiology 2023; 309: e232561
- 11 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology 2023; 307: e230582
- 12 Bhayana R. Chatbots and Large Language Models in Radiology: A Practical Primer for Clinical and Research Applications. Radiology 2024; 310: e232756
- 13 Sallam M. ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns. Healthcare 2023; 11: 887
- 14 Srivastav S, Chandrakar R, Gupta S. et al. ChatGPT in Radiology: The Advantages and Limitations of Artificial Intelligence for Medical Imaging Diagnosis. Cureus 2023; 15: e41435
- 15 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. Insights Imaging 2019; 10: 44
- 16 Strohm L, Hehakaya C, Ranschaert ER. et al. Implementation of artificial intelligence (AI) applications in radiology: Hindering and facilitating factors. Eur Radiol 2020; 30: 5525-5532
- 17 Nadkarni PM, Ohno-Machado L, Chapman WW. Natural language processing: an introduction. J Am Med Inform Assoc 2011; 18: 544-51
- 18 Vaswani A, Shazeer N, Parmar N. et al. Attention Is All You Need. arXiv;. 2023 Accessed March 12, 2025 at: http://arxiv.org/abs/1706.03762
- 19 Fink A, Rau A, Kotter E. et al. Optimierte Interaktion mit Large Language Models. Radiologie 2025;
- 20 Lewis P, Perez E, Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv;. 2021 Accessed November 21, 2024 at: http://arxiv.org/abs/2005.11401
- 21 Rosen S, Saban M. Evaluating the reliability of ChatGPT as a tool for imaging test referral: a comparative study with a clinical decision support system. Eur Radiol 2024; 34: 2826-37
- 22 Barash Y, Klang E, Konen E. et al. ChatGPT-4 Assistance in Optimizing Emergency Department Radiology Referrals and Imaging Selection. J Am Coll Radiol 2023; 20: 998-1003
- 23 Brown TB, Mann B, Ryder N. et al. Language Models are Few-Shot Learners. arXiv;. 2020 Accessed November 21, 2024 at: http://arxiv.org/abs/2005.14165
- 24 Russe MF, Rau A, Ermer MA. et al. A content-aware chatbot based on GPT 4 provides trustworthy recommendations for Cone-Beam CT guidelines in dental imaging. Dentomaxillofac Radiol 2024; 53: 109-14
- 25 Castillo C, Steffens T, Sim L. et al. The effect of clinical information on radiology reporting: A systematic review. J Med Radiat Sci 2021; 68: 60-74
- 26 Chen PS, Lai CH, Chen YT. et al. Developing a prototype system of computer-aided appointment scheduling: A radiology department case study. Technol Health Care 2024; 32: 997-1013
- 27 Russe MF, Reisert M, Bamberg F. et al. Improving the use of LLMs in radiology through prompt engineering: from precision prompts to zero-shot learning. Rofo 2024; 196: 1166-70
- 28 Laukamp KR, Terzis RA, Werner JM. et al. Monitoring Patients with Glioblastoma by Using a Large Language Model: Accurate Summarization of Radiology Reports with GPT-4. Radiology 2024; 312: e232640
- 29 Fink MA, Bischoff A, Fink CA. et al. Potential of ChatGPT and GPT-4 for Data Mining of Free-Text CT Reports on Lung Cancer. Radiology 2023; 308: e231362
- 30 Bhayana R, Nanda B, Dehkharghanian T. et al. Large Language Models for Automated Synoptic Reports and Resectability Categorization in Pancreatic Cancer. Radiology 2024; 311: e233117
- 31 Kim S, Kim D, Shin HJ. et al. Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports. Radiology 2025; 314: e240701
- 32 Gertz RJ, Dratsch T, Bunck AC. et al. Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy. Radiology 2024; 311: e232714
- 33 Rad AI to Unveil Next-Generation Intelligent Radiology Reporting Solution at Launch Event. Accessed March 12, 2025 at: https://www.radai.com/news/rad-ai-to-unveil-next-generation-intelligent-radiology-reporting-solution-at-launch-event
- 34 PowerScribe One: Microsoft Cloud For Healthcare. Accessed March 12, 2025 at: https://www.microsoft.com/en-us/health-solutions/radiology-workflow/powerscribe-one
- 35 Meddeb A, Lüken S, Busch F. et al. Large Language Model Ability to Translate CT and MRI Free-Text Radiology Reports Into Multiple Languages. Radiology 2024; 313: e241736
- 36 Krishna S, Bhambra N, Bleakney R. et al. Evaluation of Reliability, Repeatability, Robustness, and Confidence of GPT-3.5 and GPT-4 on a Radiology Board-style Examination. Radiology 2024; 311: e232715
- 37 Rahsepar AA, Tavakoli N, Kim GHJ. et al. How AI Responds to Common Lung Cancer Questions: ChatGPT versus Google Bard. Radiology 2023; 307: e230922
- 38 Sun SH, Huynh K, Cortes G. et al. Testing the Ability and Limitations of ChatGPT to Generate Differential Diagnoses from Transcribed Radiologic Findings. Radiology 2024; 313: e232346
- 39 Liu NF, Lin K, Hewitt J. et al. Lost in the Middle: How Language Models Use Long Contexts. arXiv;. 2023 Accessed November 21, 2024 at: http://arxiv.org/abs/2307.03172
- 40 Bhayana R, Fawzy A, Deng Y. et al. Retrieval-Augmented Generation for Large Language Models in Radiology: Another Leap Forward in Board Examination Performance. Radiology 2024; 313: e241489
- 41 Russe MF, Fink A, Ngo H. et al. Performance of ChatGPT, human radiologists, and context-aware ChatGPT in identifying AO codes from radiology reports. Sci Rep 2023; 13: 14215
- 42 RG TEAM Top 10 Reading List. Accessed March 12, 2025 at: https://pubs.rsna.org/page/radiographics/rgteam/top10_trauma
- 43 OpenAI Platform. Accessed March 30, 2024 at: https://platform.openai.com
- 44 Ravuru C, Sakhinana SS, Runkana V. Agentic Retrieval-Augmented Generation for Time Series Analysis. arXiv;. 2024 Accessed November 21, 2024 at: http://arxiv.org/abs/2408.14484
- 45 Shen Y, Heacock L, Elias J. et al. ChatGPT and Other Large Language Models Are Double-edged Swords. Radiology 2023; 307: e230163
- 46 Amazon Web Services, Inc. Amazon Web Services AWS – Server Hosting & Cloud Services. Accessed February 01, 2025 at: https://aws.amazon.com/de/
- 47 Google Cloud. Sovereign Cloud Solutions. Accessed February 01, 2025 at: https://cloud.google.com/sovereign-cloud
- 48 Microsoft Cloud for Sovereignty. Accessed February 01, 2025 at: https://www.microsoft.com/en-us/industry/sovereignty/cloud
- 49 Kotter E, D’Antonoli TA, Cuocolo R. et al. Guiding AI in radiology: ESR’s recommendations for effective implementation of the European AI Act. Insights Imaging 2025; 16: 1-11
- 50 Bundesärztekammer. [German Medical Association] Statement regarding “Artificial Intelligence in Medicine.”. Dtsch Arztebl International 2025; 4: 238
- 51 Lee P, Bubeck S, Petro J. Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine. N Engl J Med 2023; 388: 1233-39




















