Abstract
Purpose Sonographic diagnosis of developmental dysplasia of the hip allows treatment with
a flexion-abduction orthosis preventing hip luxation. Accurate determination of alpha
and beta angles according to Graf is crucial for correct diagnosis. It is unclear
if algorithms could predict the angles. We aimed to compare the accuracy for users
and automation reporting root mean squared errors (RMSE).
Materials and Methods We used 303 306 ultrasound images of newborn hips collected between 2009 and 2016
in screening consultations. Trained physicians labelled every second image with alpha
and beta angles during the consultations. A random subset of images was labeled with
time and precision under lab conditions as ground truth. Automation predicted the
two angles using a convolutional neural network (CNN). The analysis was focused on
the alpha angle.
Results Three methods were implemented, each with a different abstraction of the problem:
(1) CNNs that directly learn the angles without any post-processing steps; (2) CNNs
that return the relevant landmarks in the image to identify the angles; (3) CNNs that
return the base line, bony roof line, and the cartilage roof line which are necessary
to calculate the angles. The RMSE between physicians and ground truth were found to
be 7.1° for alpha. The best CNN architecture was (2) landmark detection. The RMSE
between landmark detection and ground truth was 3.9° for alpha.
Conclusion The accuracy of physicians in their daily routine is inferior to deep learning-based
algorithms for determining angles in ultrasound of the newborn hip. Similar methods
could be used to support physicians.
Zusammenfassung
Ziel Die Diagnose von Hüftdysplasie mittels Sonografie erlaubt das Behandeln mit Flexionsorthese,
um einer Hüftluxation vorzubeugen. Genaue Bestimmungen der Winkel Alpha und Beta nach
Graf sind essenziell für eine korrekte Diagnose. Es ist unklar, ob ein Algorithmus
die Winkel vorhersagen könnte. Diese Arbeit vergleicht die Genauigkeit für Anwender
und Automation mittels mittlerer quadratischer Fehler (MQF).
Material und Methode Wir verwendeten 303 306 Ultraschallbilder von Neugeborenenhüften, die zwischen 2009
und 2016 in Screening-Untersuchungen akquiriert wurden. Ausgebildete Ärzte bestimmten
während der Konsultation in jedem zweiten Bild die Winkel Alpha und Beta. Eine zufällige
Teilmenge an Bildern wurde unter Laborbedingungen mit Zeit und Präzision als Ground
Truth beschriftet. Die Automation sagte die beiden Winkel mittels convolutional neural
network (CNN) voraus. Die Analyse war auf den Winkel Alpha fokussiert.
Ergebnisse Drei Methoden wurden implementiert, jede davon mit einer anderen Abstraktion des
Problems: (1) CNNs, die Winkel ohne post-processing direkt lernen; (2) CNNs, die Punkte
im Bild bestimmen, die relevant sind, um die Winkel zu bestimmen; (3) CNNs, die Grundlinie,
Pfannendachlinie und die Knorpeldachlinie in das Bild legen, um daraus die Winkel
zu bestimmen. Der MQF zwischen Ärzten und der Ground Truth war 7,1° für Alpha. Die
beste CNN-Architektur war (2) die Detektion der Punkte. Der MQF zwischen Punktedetektion
und Ground Truth betrug 3,9° für Alpha.
Schlussfolgerung Die Genauigkeit von Ärzten in ihrer täglichen Arbeit ist kleiner als diejenige eines
Deep-Learning-basierten Algorithmus beim Bestimmen von Winkeln im Ultraschall der
Säuglingshüfte. Ähnliche Methoden könnten verwendet werden, um Ärzte zu unterstützen.
Key words
accuracy - automation - deep learning - feedback - developmental dysplasia of the
hip