Rofo 2025; 197(09): 1057-1067
DOI: 10.1055/a-2437-2067
Academic Radiology

Large language models (LLMs) in radiology exams for medical students: Performance and consequences

Die Leistungen von große Sprachmodelle (LLMs) in radiologischen Studentenprüfungen: Leistung und Auswirkungen
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Quang Anh Le Hong
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Vitali Koch
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Leon D. Gruenewald
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Tobias Geyer
2   Institute of Diagnostic and Interventional Radiology, Pediatric Radiology and Neuroradiology, Rostock University Medical Center, Rostock, Germany (Ringgold ID: RIN39071)
,
Simon S. Martin
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Jan-Erik Scholtz
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Christian Booz
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Daniel Pinto Dos Santos
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Scherwin Mahmoudi
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Katrin Eichler
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Tatjana Gruber-Rouh
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Renate Hammerstingl
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Teodora Biciusca
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Lisa Joy Juergens
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Elena Höhne
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Christoph Mader
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
,
Philipp Reschke
1   Department of Diagnostic and Interventional Radiology, Goethe University Frankfurt, Frankfurt am Main, Germany (Ringgold ID: RIN9173)
› Author Affiliations
Preview

Abstract

Purpose

The evolving field of medical education is being shaped by technological advancements, including the integration of Large Language Models (LLMs) like ChatGPT. These models could be invaluable resources for medical students, by simplifying complex concepts and enhancing interactive learning by providing personalized support. LLMs have shown impressive performance in professional examinations, even without specific domain training, making them particularly relevant in the medical field. This study aims to assess the performance of LLMs in radiology examinations for medical students, thereby shedding light on their current capabilities and implications.

Materials and Methods

This study was conducted using 151 multiple-choice questions, which were used for radiology exams for medical students. The questions were categorized by type and topic and were then processed using OpenAIʼs GPT-3.5 and GPT- 4 via their API, or manually put into Perplexity AI with GPT-3.5 and Bing. LLM performance was evaluated overall, by question type and by topic.

Results

GPT-3.5 achieved a 67.6% overall accuracy on all 151 questions, while GPT-4 outperformed it significantly with an 88.1% overall accuracy (p<0.001). GPT-4 demonstrated superior performance in both lower-order and higher-order questions compared to GPT-3.5, Perplexity AI, and medical students, with GPT-4 particularly excelling in higher-order questions. All GPT models would have successfully passed the radiology exam for medical students at our university.

Conclusion

In conclusion, our study highlights the potential of LLMs as accessible knowledge resources for medical students. GPT-4 performed well on lower-order as well as higher-order questions, making ChatGPT-4 a potentially very useful tool for reviewing radiology exam questions. Radiologists should be aware of ChatGPTʼs limitations, including its tendency to confidently provide incorrect responses.

Key Points

  • ChatGPT demonstrated remarkable performance, achieving a passing grade on a radiology examination for medical students that did not include image questions.

  • GPT-4 exhibits significantly improved performance compared to its predecessors GPT-3.5 and Perplexity AI with 88% of questions answered correctly.

  • Radiologists as well as medical students should be aware of ChatGPTʼs limitations, including its tendency to confidently provide incorrect responses.

Citation Format

  • Gotta J, Le Hong QA, Koch V et al. Large language models (LLMs) in radiology exams for medical students: Performance and consequences. Rofo 2025; 197: 1057–1067

Zusammenfassung

Ziel

Das sich entwickelnde Feld der medizinischen Ausbildung wird durch technologische Fortschritte geprägt, einschließlich der Integration von Large Language Models (LLMs) wie ChatGPT. Diese Modelle könnten für Medizinstudenten unschätzbare Ressourcen sein, indem sie komplexe Konzepte vereinfachen und das interaktive Lernen durch persönliche Unterstützung verbessern. Diese Studie zielt darauf ab, die Leistung von LLMs in radiologischen Prüfungen für Medizinstudenten zu bewerten und Einblicke in ihre aktuellen Fähigkeiten und Auswirkungen zu geben.

Materialien und Methoden

Diese Studie wurde mit 151 Multiple-Choice-Fragen durchgeführt, die für radiologische Prüfungen von Medizinstudenten verwendet wurden. Die Fragen wurden nach Typ und Thema kategorisiert und dann mithilfe von OpenAIʼs GPT-3.5 und GPT-4 über deren API verarbeitet oder manuell in Perplexity AI mit GPT-3.5 und Bing eingegeben. Die Leistung der LLMs wurde insgesamt nach Fragetyp und nach Thema bewertet.

Ergebnisse

GPT-3.5 erreichte eine Gesamtgenauigkeit von 67,6% bei allen 151 Fragen, während GPT-4 mit einer Gesamtgenauigkeit von 88,1% signifikant besser abschnitt (p<0,001). GPT-4 zeigte sowohl bei einfachen als auch bei komplexeren Fragen eine überlegene Leistung im Vergleich zu GPT-3.5, Perplexity AI und Medizinstudenten. Besonders hervorzuheben ist, dass GPT-4 bei den komplexeren Fragen deutlich besser abschnitt. Alle GPT-Modelle hätten die radiologische Prüfung für Medizinstudenten an unserer Universität erfolgreich bestanden.

Schlussfolgerung

Zusammenfassend hebt unsere Studie das Potenzial von LLMs als zugängliche Wissensressourcen für Medizinstudenten hervor. GPT-4 schnitt gut bei Fragen niedriger und höherer Ordnung ab, was ChatGPT-4 zu einem potenziell sehr nützlichen Werkzeug für die Überprüfung von radiologischen Prüfungsfragen macht. Radiologen sollten sich der Grenzen von ChatGPT bewusst sein, einschließlich seiner Tendenz, selbstbewusst falsche Antworten zu geben.

Kernaussagen

  • ChatGPT zeigte eine bemerkenswerte Leistung und alle Modelle bestanden die Radiologie-Prüfung für Medizinstudenten ohne Bildfragen.

  • GPT-4 erzielte mit einer Gesamtgenauigkeit von 88% die höchste Punktzahl bei den Radiologie-Prüfungsfragen und übertraf damit GPT-3.5, Perplexity AI und Medizinstudenten deutlich.

  • Radiologen sowie Medizinstudenten sollten sich der Einschränkungen von ChatGPT bewusst sein, einschließlich seiner Tendenz, selbstsicher falsche Antworten zu geben.

Supplementary Material



Publication History

Received: 27 June 2024

Accepted after revision: 02 October 2024

Article published online:
04 November 2024

© 2024. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany