Subscribe to RSS
DOI: 10.1055/s-0043-1763165
Automatisierte Auswertung von Freitextantworten mittels Natural Language Processing – eine Machbarkeitsstudie auf Basis des EDiR-Examens.
Zielsetzung Die Mehrzahl der schriftlichen medizinischen Examina basieren auf Multiple-Choice-Fragen und/oder Freitextantworten. Die Aus- und Bewertung derartiger Freitextantworten erfolgt händisch und ist dementsprechend 1. zeitintensiv und 2. fehleranfällig. Ziel dieser Studie ist es daher zu untersuchen, ob es möglich ist, Freitextantworten mittels Natural Language Processing (NLP) automatisiert zu analysieren und anschließend eine Benotung vorzuschlagen, um den Auswerteprozess zu unterstützen.
Material und Methoden Vom "European Board of Radiology" (EBR) der Europäischen Röntgengesellschaft (ESR) wurde ein repräsentatives Datenset zur Verfügung gestellt. Es bestand aus den offiziellen Fragen des „European Diploma in Radiology“ (EDiR), dem offiziellen Lösungsschlüssel sowie den Antworten der Teilnehmer inklusive Benotung. Anschließend wurde auf Basis von Wortlisten, von regel-basierten Synonymen und von direkt aus dem offiziellen Lösungsschlüssel gelernten Entscheidungsbäumen ein NLP-System erstellt.
Ergebnisse Basierend auf einer Beispielfrage wurden Antworten von insgesamt 327 Teilnehmern analysiert und bewertet. Basierend auf dem offiziellen Lösungsschlüssel konnten 0-4 Punkte erreicht werden. Über 10 „Läufe“ gemittelt wurde ein „F1-Score“ von 0,39, eine „Precision“ von 0,39 und ein „Recall“ von 0.29 erreicht.
Schlussfolgerungen Diese Studie zeigt, dass NLP-Systeme prinzipiell eingesetzt werden können, um Freitextantworten automatisiert zu analysieren und sogar zu bewerten. Je komplexer jedoch die Frage bzw. Antwort ist, desto schwieriger ist es, passende Wortlisten bzw. Synonyme zu finden, auf deren Basis das NLP-System gut arbeitet. In Zukunft könnten NLP-Systeme auch im Bereich des primären Fragen-Designs eingesetzt werden, um den Auswertevorgang noch effizienter und standardisierter zu gestalten. In Folgearbeiten könnte darüber hinaus untersucht werden, ob die gezeigten Ergebnisse auch in der Praxis zu einem effektiveren Bewertungsprozess führen (z.B. Einfluss auf die Varianz zwischen Prüfern, Zeitersparnis).
Publication History
Article published online:
13 April 2023
© 2023. Thieme. All rights reserved.
Georg Thieme Verlag
Rüdigerstraße 14, 70469 Stuttgart, Germany