Hintergrund: Algorithmen der künstlichen Intelligenz (KI) zur Frakturerkennung auf konventionellen
Röntgenaufnahmen finden zunehmend Eingang in die klinische Routine. In der vorliegenden
Studie wurden drei derzeit kommerziell verfügbare, CE-zertifizierte KI-Algorithmen
(Algorithmus A, B und C), die für die Detektion pädiatrischer Frakturen zugelassen
sind, anhand einer umfangreichen pädiatrischen Kohorte extern validiert. Die Kohorte
wurde gezielt mit typischen Frakturmustern angereichert, um eine praxisnahe Leistungsbewertung
zu ermöglichen.
Methoden: Ein Kollektiv von 1.114 konventionellen Röntgenaufnahmen von Patienten im Alter zwischen
0 und 18 Jahren (mittleres Alter: 8,5 Jahre) wurde retrospektiv am LMU Klinikum München
mittels strukturierter Befundrecherche identifiziert. Von diesen Aufnahmen konnten
1.013 (90,9%) durch alle drei getesteten Algorithmen analysiert werden. Als Referenzstandard
dienten die schriftlichen Befunde von Fachärzten für Radiologie mit Schwerpunkt Kinderradiologie,
die jeweils nach interdisziplinären Fallbesprechungen mit Kinderchirurgen unter Einbeziehung
klinischer Befunde erstellt wurden. Zusätzlich wurden Subgruppenanalysen für definierte
Altersklassen sowie für typische pädiatrische Frakturmuster durchgeführt.
Ergebnisse: Für die gesamte Kohorte zeigte Algorithmus C die besten Ergebnisse (Sensitivität:
89,0%, Spezifität: 92,7%, Accuracy: 90,5%) gefolgt von Algorithmus B (Sensitivität:
88,3%, Spezifität: 90,0%, Accuracy: 89,0%) und Algorithmus A (Sensitivität: 84,4%,
Spezifität: 92,9%, Accuracy: 88,0%) – Cochran‘s Q-Test: p<0,001. Bei der Detektion
von Frakturen des Ellbogens erreichte Algorithmus B die höchste Sensitivität (79,7%),
Algorithmus A und C zeigten hingegen eine höhere Spezifität (A: 96,0%, C: 94,0%).
In der Altersgruppe 2 – 5 Jahre konnte Algorithmus C besonders überzeugen (Sensitivität:
91,1%, Spezifität: 97,6%, Accuracy: 93,4%). Algorithmus B und C sind aktuell nicht
für die Analyse von Röntgenaufnahmen bei Kindern unter 2 Jahren zugelassen. Algorithmus
A und C analysieren derzeit keine Wirbelsäulen.
Diskussion: Insgesamt zeigten alle drei Algorithmen eine solide Performance. Im Vergleich zu
bereits publizierten externen Validierungsstudien erzielten Algorithmus A (hier Sensitivität:
95,7%, Spezifität: 91,2%, Accuracy: 92,6%) und Algorithmus B (hier Sensitivität: 91,3%,
Spezifität: 92,5%, Accuracy: 91,9%) etwas bessere Ergebnisse, während Algorithmus
C (hier Sensitivität: 92,0%, Spezifität: 83,0%, Accuracy: 87,0%) etwas schlechter
abschnitt. Die direkte Vergleichbarkeit dieser Studien ist jedoch durch die jeweils
unterschiedlichen Patientenkollektive nur eingeschränkt möglich. Die vorliegende Studie
stellt – unseres Wissens nach – die erste direkte Vergleichsuntersuchung dieser drei
Algorithmen innerhalb desselben pädiatrischen Kollektivs dar. Aufgrund bestehender
Limitationen, insbesondere bei Babys, Kleinkindern und in spezifischen anatomischen
Regionen (z. B. Ellbogen, Wirbelsäule), erscheint der gegenwärtige Einsatz dieser
KI-Systeme vorrangig für Einrichtungen ohne kinderradiologische oder kinderchirurgische
Expertise oder bei fehlender 24/7-Verfügbarkeit dieser Expertise als unterstützende
Komponente im Sinne eines „Second Readers“ sinnvoll. Für eine langfristige Integration
in spezialisierten pädiatrischen Zentren ist eine gezielte Weiterentwicklung notwendig,
etwa durch gezieltes Training auf unterrepräsentierten Altersgruppen und Frakturregionen.
Fazit: Alle drei geprüften KI-Algorithmen demonstrierten eine insgesamt robuste diagnostische
Performance, teils auch mit statistisch signifikanten Unterschieden zwischen den Algorithmen,
ohne jedoch, dass einer der Algorithmen in sämtlichen Subgruppen den anderen relevant
überlegen war. Dennoch bestehen in den aktuellen Versionen weiterhin Limitationen
– insbesondere hinsichtlich der Detektion spezifischer Frakturmuster sowie bei Aufnahmen
von Babys und Kleinkindern.