RSS-Feed abonnieren

DOI: 10.1055/s-0042-1747569
Sprach- und Video-Verarbeitung für die semi-automatische Erzeugung von OP-Berichten von Nasennebenhöhlen-Operationen
Einleitung Ziel des Projekts ist die Entwicklung eines Dokumentations-Tools, welches anhand von Spracheingaben und endoskopischen Videoaufnahmen im Rahmen von NNH-Operationen einen OP-Bericht generiert. Somit soll die Dokumentationszeit verkürzt und die Bericht-Qualität verbessert werden.
Material und Methoden Zunächst wurde ein bereits erprobtes Sprachmodell erweitert, um neben textuellen OP-Berichten Videoaufzeichnungen von NNH-OPs mit nachträglich erzeugten Audio-Kommentaren zu verarbeiten.
Das Sprachmodell basiert auf der Architektur künstlicher neuronaler Netze und erzeugt OP-Berichte rekursiv Satz für Satz basierend auf den bisher erzeugten Berichtsätzen. Es wurde auf dem CC100-G Datensatz vortrainiert und dann mit 48 OP-Berichten sowie 5 kommentierten und 27 unkommentierten Videoaufzeichnungen trainiert. Für die Bewertung der erzeugten OP-Berichte bzgl. Spezifität, Sensitivität und Semantik wurden die Text-Metriken ROUGE, BLEU und METEOR verwendet.
Ergebnisse Das Modelltraining erfolgte in einer k-Means Kreuzvalidierung mit k=10. Im Mittel dauert ein Trainingsdurchlauf 25 min auf einer GPU-Workstation mit einer Nvidia RTX 2070S. Ein OP-Bericht wird in 300 ms erzeugt. Die Berichte erreichten Werte von 0.74, 0.62 und 0.68 von ROUGE, BLEU und METEOR. Damit wurde durch die Erweiterung um Video- und Kommentardaten eine leichte Verbesserung der Bericht-Qualität erzielt.
Schlussfolgerung Die kombinierte Nutzung von Video- und Textdaten stellt einen vielversprechenden Ansatz für Anwendungsfälle der Sprachverarbeitung dar und zeigt im Vergleich mit rein textuellen Trainingsdaten eine verbesserte Leistung. Sie bietet das Potential einer zeitsparenden und qualitativ hochwertigen OP-Dokumentation und kann Grundlage für die Entwicklung neuer integrierter Assistenzsysteme sein.
Publikationsverlauf
Artikel online veröffentlicht:
24. Mai 2022
© 2022. The Author(s). This is an open access article published by Thieme under the terms of the Creative Commons Attribution-NonDerivative-NonCommercial-License, permitting copying and reproduction so long as the original work is given appropriate credit. Contents may not be used for commercial purposes, or adapted, remixed, transformed or built upon. (https://creativecommons.org/licenses/by-nc-nd/4.0/).
Georg Thieme Verlag
Rüdigerstraße 14, 70469 Stuttgart, Germany