Rofo 2026; 198(01): 55-63
DOI: 10.1055/a-2641-3059
Review

Von der Indikationsstellung bis zur Befundung: Potential von Large Language Models im radiologischen Workflow

Article in several languages: English | deutsch

Authors

  • Anna Fink

    1   Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine, Freiburg, Germany (Ringgold ID: RIN88751)
  • Stephan Rau

    1   Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine, Freiburg, Germany (Ringgold ID: RIN88751)
  • Kai Kästingschäfer

    1   Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine, Freiburg, Germany (Ringgold ID: RIN88751)
  • Jakob Weiß

    1   Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine, Freiburg, Germany (Ringgold ID: RIN88751)
  • Fabian Bamberg

    1   Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine, Freiburg, Germany (Ringgold ID: RIN88751)
  • Maximilian Frederik Russe

    1   Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine, Freiburg, Germany (Ringgold ID: RIN88751)


Supported by: Berta-Ottenstein-Programme for Clinician Scientists, Faculty of Medicine, University of Freiburg
 

Zusammenfassung

Hintergrund

Large Language Models (LLMs) bieten angesichts steigender radiologischer Fallzahlen ein vielversprechendes Potenzial zur Optimierung und Unterstützung von Arbeitsabläufen. In dieser Übersicht sollen potenzielle Anwendungsmöglichkeiten im radiologischen Alltag, verbleibende Herausforderungen sowie potenzielle Lösungsansätze diskutiert werden.

Methode

Darstellung der Anwendungsmöglichkeiten und Herausforderungen anhand praxisnaher Beispiele mit konkreten Optimierungsvorschlägen.

Ergebnisse

In nahezu allen Schritten des radiologischen Workflows, die sprachbasierte Prozesse beinhalten, ist der Einsatz von LLM-basierten Assistenzsystemen denkbar. Besonders in der Befunderstellung wurden in den letzten Jahren durch Retrieval-Augmented Generation (RAG) und mehrstufige Argumentationsansätze bedeutende Fortschritte erzielt. Vor einer breiten Implementierung müssen jedoch bleibende Herausforderungen wie Halluzinationen, Reproduzierbarkeit sowie datenschutzrechtliche und ethische Bedenken adressiert werden.

Schlussfolgerung

LLMs haben ein enormes Potenzial in der Radiologie, insbesondere zur Unterstützung sprachbasierter Prozessschritte, wobei technologische Fortschritte wie RAG und cloud-basierte Ansätze die klinische Implementierung näherbringen könnten.

Kernaussagen

  • LLMs können mit Technologien wie Retrieval-Augmented Generation (RAG) und mit mehrstufigen Argumentationsansätzen die Befunderstellung und andere sprachbasierte Prozesse in der Radiologie verbessern.

  • Vor einer breiten Anwendung müssen Herausforderungen wie Halluzinationen, Reproduzierbarkeit sowie datenschutzrechtliche und ethische Bedenken gelöst werden.

  • RAG und cloud-basierte Ansätze könnten helfen, diese Herausforderungen zu überwinden und die klinische Implementierung von LLMs voranzutreiben.

Zitierweise

  • Fink A, Rau S, Kästingschäfer K et al. From Referral to Reporting: The Potential of Large Language Models in the Radiological Workflow. Rofo 2026; 198: 55–63


Abkürzungen

EHDS : European Health Data Space
GPT: Generative Pre-Trained Transformer
KI: Künstliche Intelligenz
LLM: Large Language Model (Großes Sprachmodell)
NLP: Natural Language Processing
RAG: Retrieval-Augmented Generation
SOP: Standardarbeitsanweisungen


Einleitung

Die Radiologie ist ein traditionell von technologischem Fortschritt geprägtes Fach. Bereits der Übergang von der Röntgenarchivierung auf Film zur digitalen Archivierung und die Entwicklung hochmoderner Schnittbilddiagnostik wie CT oder MRT stellten einen großen Umbruch dar. Heute steht die Radiologie vor einer erneuten Umbruchphase: der Integration künstlicher Intelligenz (KI) in die klinische Routine.

Angesichts steigender Fallzahlen [1] und des damit verbundenen Fehlerrisikos [2] wächst der Bedarf an Hilfsmitteln zur Verbesserung der diagnostischen Effizienz. In den letzten Jahren hat die Entwicklung von Large Language Models (dt.: große Sprachmodelle, LLMs) wie GPT-4 [3], Claude [4] und Gemini Pro [5] große Aufmerksamkeit erregt, da diese ein vielversprechendes Optimierungspotenzial für den radiologischen Alltag bieten [6] [7] [8] [9] [10]. Dennoch bleiben Herausforderungen wie Halluzinationen, bei denen falsche Antworten zur Überbrückung von Wissenslücken generiert werden, sowie Einschränkungen bei komplexen kognitiven Aufgaben [11] [12]. Auch die mangelnde Transparenz ist im medizinischen Kontext problematisch, da man hier auf präzise und korrekte Antworten angewiesen ist [13] [14]. Darüber hinaus müssen vor einem breiten Einsatz in der Medizin datenschutzrechtliche und ethische Fragestellungen geklärt werden [15] [16].

Ziel dieser Arbeit ist es, einen umfassenden Überblick über die Anwendungsfelder von LLMs in der Radiologie zu geben, Lösungsansätze zur Reduktion der genannten Limitationen zu diskutieren und Perspektiven für eine zukünftige Implementierung zu skizzieren.


Hauptteil

1. Grundlagen der Interaktion

Die Entwicklung großer Sprachmodelle wäre ohne die Fortschritte im Natural Language Processing (NLP [17]), welches die sprachliche Interaktion zwischen Mensch und Computer erforscht, nicht denkbar gewesen. Erste Forschungsansätze in diesem Bereich reichen bis in die 1950er Jahre zurück, der eigentliche Durchbruch gelang jedoch erst mit der Einführung der sogenannten Transformer-Architektur [18]. Diese Architektur bildet die Grundlage vieler kommerzieller Modelle wie GPT-4 [3], Claude [4] und Gemini Pro [5], die mittlerweile weltweit bekannt sind.

Die automatisierte Generierung sequenzieller Textdateien erfolgt hierbei auf der Grundlage von „embeddings“, d.h. der numerischen Repräsentation von Wörtern und ihrem Kontext. Das LLM versucht auf Basis der trainierten Parameter das wahrscheinlichste nächste Wort oder die wahrscheinlichste nächste Wortfolge im Satzkontext vorherzusagen und auf diese Weise einen Text zu generieren (sog. „generative KI“). LLM-Ausgaben basieren also primär auf Wahrscheinlichkeiten, was ein zentraler Aspekt für das Verständnis sowohl der Anwendungsmöglichkeiten als auch der Grenzen dieser Technologie ist.

Trotz des großen Hypes, der mit der Entwicklung dieser Sprachmodelle einherging, zeigten sich bald auch deren Grenzen. Neben der oft intransparenten Anpassung von Modellparametern durch die Anbieter wurden inzwischen weitere, individuelle Optimierungsansätze entwickelt. So ermöglicht Prompt Engineering eine gezielte Anpassung der Eingabeaufforderung, während der Einsatz mehrstufiger Argumentationsansätze die Qualität der Interaktion weiter verbessern kann. Techniken wie Few-Shot Learning oder Zero-Shot Learning optimieren die Antwortgenauigkeit von LLMs, indem aufgabenspezifische Informationen oder Beispiele direkt in die Eingabeaufforderung eingebettet werden. Retrieval-Augmented Generation (RAG), ermöglicht die automatisierte Integration von aktualisierbaren, fachspezifischen Informationen aus externen Quellen. Dies erhöht die Transparenz, da die verwendeten Quellen explizit angegeben werden können [19] [20].

Insgesamt haben diese Anpassungen das Potenzial, das Anwendungsspektrum im medizinischen Kontext erheblich zu erweitern. In nahezu jedem Schritt der radiologischen Patientenversorgung – von der Indikationsstellung über die Terminvergabe bis hin zur Bildakquisition und Befundung ([Abb. 1]) – sind mittlerweile Einsatzmöglichkeiten für LLM denkbar.

Zoom
Abb. 1 Visualisierung der Schritte in der täglichen Routineversorgung radiologischer Patient*innen, in denen das Potenzial großer Sprachmodelle genutzt werden könnte.

2. Anwendungsspektrum in der klinischen Praxis

2.1. Indikationsstellung und Protokollfestlegung

Da die bekanntesten Modelle auf Sprachverarbeitung mittels NLP basieren, liegt ihr größtes Anwendungspotenzial in der Optimierung sprach- oder textbasierter Arbeitsschritte. In der Radiologie denkt man dabei in erster Linie an die Anpassung von Befundtexten, aber auch in den vorgelagerten Prozessschritten gibt es Möglichkeiten zur Effizienzsteigerung.

Am Beginn der radiologischen Patient*innenversorgung steht die Indikationsstellung und Festlegung des Untersuchungsprotokolls in Zusammenarbeit zwischen den anfordernden Ärzt*innen und den verantwortlichen Radiolog*innen. Dieser Schritt bildet die Grundlage für eine korrekte Diagnosestellung und trägt dazu bei, unnötige Untersuchungen und Strahlenexposition zu vermeiden.

Rosen et al. und Barash et al. konnten zeigen, dass die von LLMs aus Anforderungstexten abgeleiteten Empfehlungen zur geeigneten Bildgebung und Kontrastmittelgabe weitgehend mit etablierten Leitlinien wie den European Imaging Referral Guidelines [21] oder den Appropriateness Criteria des American College of Radiology [22] übereinstimmen. Viele dieser Anwendungen bezogen sich jedoch auf spezialisierte Bereiche und in einigen Fällen traten Probleme mit vage formulierten Empfehlungen auf [21] [22].

Ein vielversprechender Lösungsansatz ist Meta-Lernen („in-context learning“), bei dem das LLM seine Ausgaben anhand von fragenspezifischen Beispielen optimiert, um neue Aufgaben zu lösen [23]. Eine Weiterentwicklung dieser Technik, Retrieval-Augmented Generation, ermöglicht es dem Modell, auf eine externe Datenbank zuzugreifen, die speziell für das jeweilige Fachgebiet zusammengestellt wurde und beispielsweise Fachartikel, Lehrbuchinhalte oder abteilungsspezifische Standardarbeitsanweisungen (SOPs) enthält [20]. Das extrahierte Wissen wird direkt in die Eingabe des LLMs integriert, um präzisere und fundiertere Antworten zu liefern ([Abb. 2]). Rau et al. und Rosen et al. konnten zeigen, dass dieser Ansatz die Antwortgenauigkeit signifikant erhöht und in fiktiven Fallbeispielen ein mit Fachexpert*innen vergleichbares Niveau erreicht. Darüber hinaus trägt der Einsatz solcher spezialisierter LLMs zu einer erheblichen Zeitersparnis und Kostenreduktion bei [7] [24].

Zoom
Abb. 2 Visualisierung der Prozessschritte bei RAG: Nach der manuellen Benutzereingabe wird die Anfrage in einen hochdimensionalen Vektorraum eingebettet, um anschließend eine Ähnlichkeitssuche in einem separaten Vektorindex, der z.B. Fachliteratur oder Leitlinien enthält, durchzuführen. Die so gewonnene Kontextinformation wird zusammen mit der ursprünglichen Eingabeaufforderung an das Sprachmodell übergeben und zur Generierung einer auf verifizierbaren Quellen basierenden Antwort verwendet.

Zukünftige, bislang wenig erforschte Ansätze umfassen unter anderem die Unterstützung bei der Auswertung von Laborparametern, die automatisierte Extraktion bildgebender Vorbefunde sowie die Extraktion relevanter Patientendaten aus Arztbriefen oder Sprechstundennotizen. Klinische Informationen in Bildgebungsanforderungen sind häufig unvollständig und fehlerbehaftet, was problematisch ist, da eine höhere Qualität dieser Angaben zu einer signifikanten Verbesserung der Befundqualität führt [25]. Sowohl der klinische Bedarf als auch das Potenzial sprechen für eine intensivere Erforschung des Einsatzes von LLMs in diesem Bereich.


2.2. Terminvergabe und Patientenvorbereitung

Nicht nur Radiolog*innen, sondern auch andere Berufsgruppen wie medizinische Fachangestellte könnten in Zukunft von der Integration von Sprachmodellen profitieren. Ein mögliches Anwendungsszenario ist die Unterstützung bei der Terminvergabe, indem dringende Anfragen automatisch priorisiert und die zugehörigen Termine entsprechend hervorgehoben werden. Darüber hinaus ist eine Integration in KI-basierte, automatisierte Terminvergabesysteme denkbar [26].

Auch in der Patient*innenvorbereitung gibt es sprachbasierte Aufgaben, bei denen Automatisierungspotenzial besteht. Beispielsweise könnte eine Kombination aus Sprachmodellen und digitalen Aufklärungsbögen entwickelt werden, die Patient*innen idealerweise zu Hause vor der Untersuchung ausfüllen, um Wartezimmer zu entlasten. In diesem Szenario könnte das Sprachmodell als Vermittler fungieren, indem es auf abteilungsspezifische SOPs, zeitliche Abläufe und Ortsbeschreibungen zugreift und den Patient*innen häufig gestellte Fragen beantwortet. Zusätzlich könnte diese Technologie zu einer Zeitersparnis für die aufklärende Fachkraft beitragen, indem relevante Informationen aus den Aufklärungsbögen – wie Vorerkrankungen der Niere, der Schilddrüse, oder mögliche Kontrastmittelallergien – strukturiert zur Verfügung gestellt werden.

Technisch ist die Umsetzung dieser Ansätze bereits heute möglich, sogar eine lokale Anpassung an klinikinterne Standards könnte mithilfe von RAG realisiert werden. Die Qualität und Struktur der Eingaben hat jedoch einen erheblichen Einfluss auf die Ausgaben von LLMs [27]. Unstrukturierte Eingaben von Patient*innen, die potenziell über wenig oder kein medizinisches Fachwissen verfügen, könnten also zu Fehlinformationen führen. Die Anwendungsforschung wird daher zeigen müssen, inwieweit solche Systeme erfolgreich umgesetzt werden können.


2.3. Befunderstellung

Nach der Bildakquisition folgt ein weiterer sprachbasierter Bereich im radiologischen Workflow: die Befundung. Dieser Bereich stand in der LLM-Forschung der letzten Jahre im Fokus, da er eine direkte Entlastung für Radiolog*innen im klinischen Alltag verspricht.

Die Stärke von LLMs liegt insbesondere in der Strukturierung großer Textmengen. Daraus hat sich in der Anfangszeit der Sprachmodelle ein wichtiges Forschungsfeld entwickelt: die Generierung strukturierter Befunde aus unstrukturierten Freitexten. So sind LLMs in der Lage, Befunde thematisch zu sortieren, Fließtexte zu strukturieren und Verlaufskontrollen, bspw. onkologischer Erkrankungen, zu visualisieren [28] [29]. In einer verblindeten Analyse konnten Bhayana et al. zeigen, dass zuweisende Ärzt*innen die durch LLMs generierten, strukturierten Befunde den Originalbefunden vorziehen und mit diesen schneller zu einer Therapieentscheidung gelangen [30]. Darüber hinaus können LLMs eingesetzt werden, um bestehende Befundtexte zu korrigieren und so Zeit bei der Befundung einzusparen [31] [32]. Erste Unternehmen in den USA bieten solche Systeme bereits zur automatisierten Generierung von Befundbeurteilungen an, wie beispielsweise RadAI mit Omni Impressions [33] oder Nuance Communications mit PowerScribe Smart Impression [34].

Auch im letzten Schritt der Prozesskette, der Befundkommunikation mit den Patient*innen, bestehen Anwendungsmöglichkeiten für LLMs. So konnte in Studien von Amin et al. und Meddeb et al. gezeigt werden, dass eine Übersetzung der radiologischen Fachsprache in vereinfachte, für Patient*innen verständliche Begriffe [10] sowie in Fremdsprachen [35] möglich ist, um Kommunikationsbarrieren zu überwinden.

Lange Zeit galten diese Anwendungen als Hauptpotenzial von LLMs, während die Generierung neuer Texte an Grenzen stieß. Gängige große Sprachmodelle konnten zwar multiple-choice-basierte Wissensprüfungen wie die nordamerikanische radiologische Facharztprüfung bestehen, wiesen aber zum Teil eine schlechte Robustheit und Reproduzierbarkeit auf. Zudem präsentierten die Modelle mit hoher Selbstsicherheit falsche Lösungen und zeigten vor allem bei komplexen Denkaufgaben Defizite [11] [36]. Auch bei der Beantwortung medizinischer Wissensfragen und der Generierung von Differenzialdiagnosen aus Befundtexten zeigten sich Defizite, was die Notwendigkeit von medizinischem Expertenwissen in den Trainingsdaten der Sprachmodelle unterstreicht [37] [38].

Ein zentrales Problem besteht hierbei darin, dass die meisten leistungsfähigen Modelle von kommerziellen Anbietern stammen, sodass ein spezialisiertes medizinisches Training aufgrund des mangelnden Interesses der Anbieter unwahrscheinlich ist. Zudem ist das manuelle, aufgabenspezifische Training der Modelle extrem zeit- und datenintensiv und daher nur schwer realisierbar.

Daher haben sich in den letzten Jahren verschiedene Ansätze herauskristallisiert, bei denen aufgabenspezifisches Wissen direkt in den Eingabeprompt integriert wird, anstatt das gesamte Modell neu zu trainieren [23]. Bei der Integration großer Datenmengen in den Eingabeprompt stößt man jedoch schnell auf Eingabebeschränkungen (sog. Token-Limits) und das Problem, dass relevante Inhalte in der Informationsmenge unterzugehen drohen [39]. Ein vielversprechender Lösungsansatz ist RAG, bei der das LLM für jeden Prompt auf eine externe, manuell erstellte Datenbank aus Fachartikeln, Lehrbüchern oder SOPs zugreift. Dieser Ansatz hat nicht nur zu einer signifikanten Performancesteigerung bei radiologischen Fachfragen geführt [40], sondern auch Potenzial zur Diagnosestellung aus unstrukturierten Befundtexten gezeigt. So konnten beispielsweise in der Traumabildgebung [8], der gastrointestinalen Bildgebung [9] oder bei der Frakturklassifikation nach den Vorgaben der Arbeitsgemeinschaft für Osteosynthesefragen [41] konkrete Diagnosen generiert werden. Die [Abb. 3] und [Abb. 4] zeigen zwei praxisnahe Beispiele mit korrespondierender Ausgabe aus dem Bereich der Traumabildgebung. Der genaue Eingabeprompt für beide Modelle ist im Zusatzmaterial (Suppl. 1 und 2) bereitgestellt.

Zoom
Abb. 3 Vergleich eines generischen Modells (GPT-4 Turbo, falsche Antworten in rot markiert) mit einem durch einen zweistufigen Prompt und Retrieval-Augmented Generation (RAG) erweiterten Modell (GPT-4 Turbo mit RAG, richtige Antwort) bei der Befundung und Klassifikation einer proximalen Tibiafraktur, Schatzker Typ IV. Durch RAG wurden dem LLM automatisch extrahierte, kontextspezifische Informationen aus der „RadioGraphics Top 10 Reading List Trauma Radiology“ [51] bereitgestellt. Der genaue Eingabeprompt für beide Modelle ist im Zusatzmaterial (Suppl. 1 und 2) bereitgestellt.
Zoom
Abb. 4 Vergleich eines generischen Modells (GPT-4 Turbo, falsche Antworten in rot markiert) mit einem durch einen zweistufigen Prompt und Retrieval-Augmented Generation (RAG) erweiterten Modell (GPT-4 Turbo mit RAG, richtige Antwort) bei der Befundung und Klassifikation einer periprothetischen Femurfraktur, Vancouver Typ AGT. Durch RAG wurden dem LLM automatisch extrahierte, kontextspezifische Informationen aus der "RadioGraphics Top 10 Reading List Trauma Radiology" [42] bereitgestellt. Der genaue Eingabeprompt für beide Modelle ist im Zusatzmaterial (Suppl. 1 und 2) bereitgestellt.

Solche Werkzeuge könnten in der radiologischen Routine zu erheblicher Zeiteinsparung führen und aufwendige Recherchen verkürzen. Um die Transparenz und das Vertrauen in die Aussagen des LLMs zu erhöhen, können Hyperlinks zu den verwendeten Quellen inklusive Seitenangaben der extrahierten Informationen in jede Antwort integriert werden [8].

[Abb. 5] bietet eine zusammenfassende Übersicht der diskutierten Anwendungsmöglichkeiten.

Zoom
Abb. 5 Visualisierung potenzieller Anwendungsmöglichkeiten von LLMs in der radiologischen Prozesskette. MFA: Medizinische Fachangestellte.


3. Herausforderungen und Implikationen

Trotz des enormen Potenzials von LLMs sind nach wie vor Einschränkungen zu berücksichtigen. Zu den bekanntesten Herausforderungen zählen Halluzinationen, bei denen Fehlinformationen zur Überbrückung von Wissenslücken generiert werden, sowie Probleme bei komplexeren Denkaufgaben mit mehreren Iterationsschritten. LLMs basieren auf Wahrscheinlichkeitsvorhersagen und verwenden kein klassisches maschinelles Lernen mit einem „Ground Truth“-Referenzwert. Dies führt zu Einschränkungen in spezialisierten Bereichen, in welchen dedizierte Informationen im Trainingsdatensatz unterrepräsentiert sind.

Ein weiteres Problem ist die fehlende Aktualität des Wissens, da Sprachmodelle nur Informationen bis zum Zeitpunkt ihres Trainings nutzen können (bei GPT-4 Turbo bis Dezember 2023 [43]). Dies ist insbesondere in sich schnell entwickelnden Bereichen wie der Radiologie problematisch. Beispielsweise kann es vorkommen, dass diagnostische Leitlinien in der Zwischenzeit überarbeitet wurden, sodass das LLM nicht mehr auf die neueste Version zugreifen kann und seine Antwort potenziell auf veraltetem Wissen basiert.

Da ein fachspezifisches Training aus den bereits genannten Gründen derzeit kaum realisierbar ist, konzentrieren sich Lösungsansätze vor allem auf die Optimierung der Eingabeaufforderung, z.B. durch den Einsatz mehrstufiger Argumentationsansätze, oder auf die Ergänzung der Eingabedaten mittels RAG [27]. Dabei kann das LLM entweder in Echtzeit auf Web-Datenbanken wie PubMed oder auf eine traditionelle RAG-Datenbank mit sorgfältig kuratierten, wissenschaftlich geprüften Informationen zugreifen. Auch agentenbasierte Ansätze [44], bei denen mehrere RAG-augmentierte LLMs wie ein interdisziplinäres Expertenteam interagieren und hierdurch ein gemeinsames Ergebnis produzieren, bieten vielversprechende Zukunftsperspektiven. Eine wichtige Frage, die sich hier stellt, ist die der Verantwortlichkeit. In Zukunft könnte es notwendig sein, dass RAG-Datenbanken von Fachgesellschaften, wissenschaftlichen Journalen oder innerhalb von Abteilungen unter Einbeziehung lokaler SOPs erstellt und kontinuierlich angepasst werden.

Eine weitere Einschränkung ist die sprachliche, teilweise aber auch inhaltliche Variabilität der Ausgaben, sodass die gleiche Anweisung mehrmals hintereinander zu unterschiedlichen Ergebnissen führen kann [45]. Dies ist meist auf eine hohe Kreativität des Sprachmodells zurückzuführen, d.h. auf die Variabilität bei der Auswahl des nächsten Wortes („temperature setting“). In den meisten gängigen LLMs kann dieser Parameter manuell angepasst werden, um eine höhere Konsistenz zu gewährleisten. Probleme der mangelnden Transparenz von LLM-Ausgaben können durch RAG-basierte, überprüfbare Quellenangaben mit Hyperlinks in jeder Ausgabe adressiert werden.

Ein weiteres Hindernis für die Implementierung von LLMs in die klinische Routine sind Datenschutzbedenken. Jede LLM-Anfrage in den leistungsfähigen, kommerziell betriebenen LLMs läuft über externe Firmenserver; ein großflächiger Einsatz mit hochsensiblen Patientendaten würde daher einen gravierenden Datenschutzverstoß darstellen. Eine Lösung könnte der Einsatz speziell entwickelter, lokaler Modelle sein, was sowohl hohe Expertise als auch erhebliche Serverkapazitäten erfordert.

Eine Ressourcen-schonende und nachhaltige Alternative bieten cloud-basierte Lösungen von Anbietern wie AWS [46], Google [47], oder Microsoft [48]. Hierbei werden die Daten in einer geschützten Cloudumgebung verarbeitet, die einer ähnlichen Datensicherheit unterliegen wie ein klinikinternes IT-System. In diesem Zusammenhang hat sich kürzlich die Europäische Gesellschaft für Radiologie für eine konforme Implementierung des European AI Act ausgesprochen, unter anderem durch die Schaffung eines European Health Data Space [49]. Da die Nutzung dieser Systeme nach wie vor ein hohes Maß an technischer Expertise erfordert, könnten sich hierbei in Zukunft kommerzielle ‘out-of-the-box’-Lösungen oder integrierte Plattformansätze etablieren.

Abschließend sollten ethische Bedenken nicht außer Acht gelassen werden, insbesondere hinsichtlich des inhärenten Bias von LLMs, der durch verzerrte Trainingsdaten entstehen kann. Hier besteht die Gefahr, dass Nutzer*innen durch die oft überzeugend dargestellten Antworten der Modelle beeinflusst und möglicherweise fehlgeleitet werden. Dies ist insbesondere relevant, wenn LLMs als Vorinformation für Patient*innen ohne medizinischen Hintergrund dienen, etwa im Rahmen digitaler Aufklärung. Vor einer breiten Implementierung ist es daher unerlässlich, sowohl die Diversität der Trainingsdaten als auch eine nachvollziehbare Argumentationskette des Sprachmodells sicherzustellen, um die Ausgaben verifizieren zu können.

Vor dem Hintergrund der zunehmenden Verbreitung großer Sprachmodelle kommt es immer häufiger vor, dass Patient*innen Bilddaten oder Befundtexte in LLMs eingeben, um diese in eine für Laien verständliche Sprache übersetzen zu lassen oder eine vermeintliche Zweitmeinung einzuholen. Da LLMs auch bei komplexen Sachverhalten mit hoher sprachlicher Sicherheit antworten, kann dies zu Verunsicherung und Rückfragen seitens der Patient*innen führen. Radiologisches Fachpersonal sollte daher gezielt im Umgang mit solchen Situationen sowie in der Einordnung LLM-generierter Aussagen geschult werden.

Neben der individuellen Verantwortung der Ärzt*innen kommt insbesondere den medizinischen Fachgesellschaften eine zentrale Rolle bei der Integration von LLM-Anwendungen im Gesundheitswesen zu. Die Bundesärztekammer fordert die Fachgesellschaften in ihrer aktuellen Stellungnahme ausdrücklich dazu auf, den klinischen Einsatz von KI mit klaren, evidenzbasierten Handlungsempfehlungen zu begleiten [50]. Angesichts der hohen Innovationsdynamik ist ein kontinuierlicher Evaluationsprozess notwendig, um die Sicherheit, Wirksamkeit und Qualität neuer Systeme im klinischen Alltag langfristig zu gewährleisten.


4. Fazit für die Praxis

Zusammenfassend bieten LLMs ein enormes Potenzial, das in der medizinischen Fachwelt bereits breit diskutiert wird [12] [51]. In der Radiologie können vor allem sprachbasierte Prozessschritte durch LLMs unterstützt werden. Der stetige technische Fortschritt dieser Modelle sowie Perspektiven wie RAG, agentenbasierte Modelle oder cloud-basierte Ansätze könnten eine klinische Implementierung ermöglichen. Hierbei ist es unabdingbar, feste Regeln bezüglich Datensicherheit, ethischer Fragen und Verantwortlichkeiten zu definieren. Darüber hinaus ist eine umfassende Schulung von Radiolog*innen und medizinischem Fachpersonal hinsichtlich der Funktionsweise, Möglichkeiten und Grenzen von LLMs notwendig, um einen verantwortungsvollen Umgang zu gewährleisten und das notwendige Vertrauen für eine erfolgreiche Implementierung zu schaffen.

Diese Entwicklung gilt es, aktiv mitzugestalten, um angesichts steigender Untersuchungszahlen und zunehmender Arbeitsbelastung einen verantwortungsvollen Einsatz von LLMs als Unterstützung im radiologischen Alltag zu gewährleisten.




Interessenkonflikt

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.


Correspondence

Anna Fink
Department of Diagnostic and Interventional Radiology, University of Freiburg Faculty of Medicine
Hugstetter Str. 55
79106 Freiburg
Germany   

Publication History

Received: 25 March 2025

Accepted after revision: 16 June 2025

Article published online:
16 July 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany


Zoom
Fig. 1 Steps in the everyday routine care of radiology patients that could benefit from the potential of large language models.
Zoom
Fig. 2 Process steps with RAG: After manual user input, the query is embedded in a high-dimensional vector space, in order to subsequently perform a similarity search in a separate vector index containing specialist literature or guidelines, for example. The context information obtained in this way is handed over to the language model together with the original prompt and used to produce an answer based on verifiable sources.
Zoom
Fig. 3 Comparison of a generic model (GPT-4 Turbo, incorrect answers are highlighted in red) versus an enhanced model that uses a two-stage prompt, as well as retrieval-augmented generation (RAG) (GPT-4 Turbo with RAG, correct answer), to diagnose and classify a proximal tibial fracture, Schatzker type IV. The RAG solution provided the LLM with context-specific information extracted automatically from the “RadioGraphics Top 10 Reading List Trauma Radiology” [51]. The detailed input prompt for both models is provided in the supplementary material (Suppls. 1 and 2).
Zoom
Fig. 4 Comparison of a generic model (GPT-4 Turbo, incorrect answers are highlighted in red) versus an enhanced model that uses a two-stage prompt, as well as retrieval-augmented generation (RAG) (GPT-4 Turbo with RAG, correct answer), to diagnose and classify a periprosthetic femur fracture, Vancouver type AGT. The RAG solution provided the LLM with context-specific information extracted automatically from the “RadioGraphics Top 10 Reading List Trauma Radiology” [42]. The detailed input prompt for both models is provided in the supplementary material (Suppls. 1 and 2).
Zoom
Fig. 5 Potential applications of LLMs in the radiological process chain.
Zoom
Abb. 1 Visualisierung der Schritte in der täglichen Routineversorgung radiologischer Patient*innen, in denen das Potenzial großer Sprachmodelle genutzt werden könnte.
Zoom
Abb. 2 Visualisierung der Prozessschritte bei RAG: Nach der manuellen Benutzereingabe wird die Anfrage in einen hochdimensionalen Vektorraum eingebettet, um anschließend eine Ähnlichkeitssuche in einem separaten Vektorindex, der z.B. Fachliteratur oder Leitlinien enthält, durchzuführen. Die so gewonnene Kontextinformation wird zusammen mit der ursprünglichen Eingabeaufforderung an das Sprachmodell übergeben und zur Generierung einer auf verifizierbaren Quellen basierenden Antwort verwendet.
Zoom
Abb. 3 Vergleich eines generischen Modells (GPT-4 Turbo, falsche Antworten in rot markiert) mit einem durch einen zweistufigen Prompt und Retrieval-Augmented Generation (RAG) erweiterten Modell (GPT-4 Turbo mit RAG, richtige Antwort) bei der Befundung und Klassifikation einer proximalen Tibiafraktur, Schatzker Typ IV. Durch RAG wurden dem LLM automatisch extrahierte, kontextspezifische Informationen aus der „RadioGraphics Top 10 Reading List Trauma Radiology“ [51] bereitgestellt. Der genaue Eingabeprompt für beide Modelle ist im Zusatzmaterial (Suppl. 1 und 2) bereitgestellt.
Zoom
Abb. 4 Vergleich eines generischen Modells (GPT-4 Turbo, falsche Antworten in rot markiert) mit einem durch einen zweistufigen Prompt und Retrieval-Augmented Generation (RAG) erweiterten Modell (GPT-4 Turbo mit RAG, richtige Antwort) bei der Befundung und Klassifikation einer periprothetischen Femurfraktur, Vancouver Typ AGT. Durch RAG wurden dem LLM automatisch extrahierte, kontextspezifische Informationen aus der "RadioGraphics Top 10 Reading List Trauma Radiology" [42] bereitgestellt. Der genaue Eingabeprompt für beide Modelle ist im Zusatzmaterial (Suppl. 1 und 2) bereitgestellt.
Zoom
Abb. 5 Visualisierung potenzieller Anwendungsmöglichkeiten von LLMs in der radiologischen Prozesskette. MFA: Medizinische Fachangestellte.