Klinische Monatsblätter für Augenheilkunde

nicht eingeloggt Login
- Benutzername oder E-Mail-Adresse:
  
  Passwort:
  
  Zugangsdaten vergessen? Neu registrieren OpenAthens/Shibboleth Login

Klinische Monatsblätter für Augenheilkunde

Jahre (Archiv)

2019

Ausgaben

Theodor -Axenfeld - Preis 2024

Evaluation des Prototyps eines neuen intraoperativen Aberrometers für die Vorhersage der postoperativen Zielrefraktion

RSS-Feed abonnieren

Bitte kopieren Sie die angezeigte URL und fügen sie dann in Ihren RSS-Reader ein.

https://www.thieme-connect.de/rss/thieme/de/10.1055-s-00000031.xml

Teilen / Bookmarken

Facebook Linkedin Weibo

PDF herunterladen

Klin Monbl Augenheilkd 2019; 236(12): 1413-1417
DOI: 10.1055/a-1023-4490

Klinische Studie

Georg Thieme Verlag KG Stuttgart · New York

Automatisierte Zuordnung von ICD- und Alpha-ID-Codes zu „Real-World“-Arztbriefdiagnosen durch die „word2vec“-Methode

Unsupervised Linkage between ICD- and Alpha-ID Codes and Real-World Diagnoses from Medical Reports by Means of the “word2vec” Method

Daniel Böhringer

¹Klinik für Augenheilkunde, Universitätsklinikum Freiburg

²Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg

,

Stefan J. Lang

¹Klinik für Augenheilkunde, Universitätsklinikum Freiburg

²Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg

,

Moritz Claudius Daniel

¹Klinik für Augenheilkunde, Universitätsklinikum Freiburg

²Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg

,

Thabo Lapp

¹Klinik für Augenheilkunde, Universitätsklinikum Freiburg

²Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg

,

Thomas Reinhard

¹Klinik für Augenheilkunde, Universitätsklinikum Freiburg

²Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg

› Institutsangaben

Weitere Informationen

Publikationsverlauf

eingereicht 11. September 2019

akzeptiert 21. September 2019

Publikationsdatum:
05. Dezember 2019 (online)

Auch verfügbar auf

Abstract
Volltext
Referenzen

Lizenzen und Reprints

Preview

Zusammenfassung

Hintergrund Für eine wissenschaftliche Auswertung von Arztbriefen bedarf es aufgrund unterschiedlicher Terminologien und dem häufigen Gebrauch von Synonymen der Transformation in ein normiertes Codesystem wie bspw. ICD-10 oder Alpha-ID. Das sog. „Word Vector Embedding“ erscheint für die Generierung des dafür erforderlichen Thesaurus geeignet, da hierüber – nach geeignetem Training des zugrunde liegenden neuronalen Netzwerkes – synonyme Diagnosen unabhängig von der Schreibweise automatisch identifiziert werden können.

Methoden Es wurden alle Arztbriefe von insgesamt 50 000 Patienten anonymisiert extrahiert. Diagnosen, die aus mehreren Wörtern bestehen, wurden mittels Phrasenerkennung in Einzelwörter verschmolzen und das „word2vec“-Modell auf dem Textkorpus von 352 Megabytes trainiert. Insgesamt 3742 Diagnosen bzw. ophthalmologische Interventionen wurden aus den Arztbriefen halbautomatisch extrahiert. Die ophthalmologischen ICD- und Alpha-ID-Codes wurden zusammen mit den offiziellen Beschreibungen von der Website des DIMDI heruntergeladen und die ophthalmologischen Diagnosen/Interventionen aus den Arztbriefen mit den jeweils im „word2vec“-Modell nächstgelegenen ICD- und Alpha-ID-Codes automatisiert verknüpft.

Ergebnisse Es wurden von „word2vec“-Modell 90% der Arztbriefdiagnosen den korrekten ICD-10-Codes zugeordnet. Auf Ebene der viel feiner aufgelösten Alpha-ID-Codes betrug die Quote korrekter Zuordnungen nur 76%. Die Interventionen wurden in 92% der korrekten Indikation zugewiesen. Als Fehlerquellen für inkorrekte oder fehlende Zuordnungen wurden seltene Erkrankungen, ungewöhnliche Bezeichnungen und Codedegeneration in der offiziellen DIMDI-Datei identifiziert.

Diskussion Aus „Real-World“-Arztbriefen und der offiziellen Alpha-ID-Datei und lässt sich mit der „word2vec“-Methode ein Diagnosenthesaurus generieren. Dieser könnte, eine geringfügige manuelle Überarbeitung vorausgesetzt, zukünftig für eine automatische Extraktion von Diagnosen aus Arztbriefen verwendet werden.

Abstract

Background Transformation into a standardised code system such as ICD-10 or Alpha-ID is required before medical reports can be scientifically analysed. This is due to the use of different terminologies and the frequent use of synonyms. The so-called “word vector embedding” seems to be suitable for the generation of the required thesaurus, because synonymous diagnoses can be identified independently of the spelling – after suitable training of the underlying neural network.

Methods All letters from a total of 50,000 patients were extracted anonymously. Diagnoses consisting of several words were merged into single words by means of phrase recognition and the “word2vec” model was trained on the text corpus of 352 megabytes. A total of 3742 diagnoses and ophthalmological interventions were extracted semi-automatically. The ophthalmological ICD and Alpha-ID codes were downloaded together with the official descriptions from the DIMDI website and the ophthalmological diagnoses/interventions were automatically linked with the nearest ICD- and Alpha-ID codes in the “word2vec” model.

Results The “word2vec” model assigned 90% of the doctorʼs letter diagnoses correctly to appropriate ICD-10 codes. At the finer level of Alpha-ID, the rate of correct assignments was only 76%. The interventions were assigned to the correct indication in 92% of cases. Rare diseases, unusual designations and code degeneration in the official DIMDI file were identified as sources of error for incorrect or missing allocations.

Discussion A diagnostic thesaurus can be generated with the “word2vec” method from a corpus of anonymised medical reports and the official Alpha-ID file from the DIMDI website. This thesaurus could be used for automatic extraction of diagnoses from doctorʼs letters in the future, given appropriate manual revision.

Schlüsselwörter

Diagnosen - word2vec - Arztbrief

Key words

diagnosis - word2vec - medical report

Literatur
1 Sheikhalishahi S, Miotto R, Dudley JT. et al. Natural language processing of clinical notes on chronic diseases: systematic review. JMIR Med Inform 2019; 7: e12239

MissingFormLabel
Crossref PubMed Suche in Google Scholar
2 Ford E, Carroll JA, Smith HE. et al. Extracting information from the text of electronic medical records to improve case detection: a systematic review. J Am Med Inform Assoc 2016; 23: 1007-1015

MissingFormLabel
Crossref PubMed Suche in Google Scholar
3 Mikolov T, Chen K, Corrado G. et al. Efficient estimation of word representations in vector space. Im Internet: https://arxiv.org/pdf/1301.3781.pdf Stand: 14.08.2019

MissingFormLabel
PubMed Suche in Google Scholar
4 Wang Y, Liu S, Afzal N. et al. A comparison of word embeddings for the biomedical natural language processing. J Biomed Inform 2018; 87: 12-20

MissingFormLabel
Crossref PubMed Suche in Google Scholar
5 Deutsches Institut für Medizinische Dokumentation und Information (DIMDI). ICD-10-GM. Im Internet: https://www.dimdi.de/dynamic/de/klassifikationen/icd/icd-10-gm/ Stand: 14.08.2019

MissingFormLabel
PubMed Suche in Google Scholar
6 Lang S, Rilk R, Müller A. et al. Qualitätsmessung aus Routinedaten. Klin Monatsbl Augenheilkd 2017; 234: 891-893 doi:10.1055/s-0043-106307

MissingFormLabel
Thieme Connect PubMed Suche in Google Scholar
7 Deutsches Institut für Medizinische Dokumentation und Information (DIMDI). Alpha-ID. Im Internet: https://www.dimdi.de/dynamic/de/klassifikationen/icd/alpha-id/ Stand: 14.08.2019

MissingFormLabel
PubMed Suche in Google Scholar
8 El-Kishky A, Song Y, Wang C. et al. Scalable topical phrase mining from text corpora. Proceedings of the VLDB Endowment 2014; 8: 305-316 doi:10.14778/2735508.2735519

MissingFormLabel
Crossref PubMed Suche in Google Scholar
9 Schmidt B. R Paket für word2vec. GitHub. Im Internet: https://github.com/bmschmidt/wordVectors/blob/master/README.md Stand: 14.08.2019

MissingFormLabel
PubMed Suche in Google Scholar
10 Feinerer I, Hornik K, Meyer D. Text mining infrastructure in R. Journal of Statistical Software 2008; 25 doi:10.18637/jss.v025.i05

MissingFormLabel
Crossref PubMed Suche in Google Scholar
11 Lin C, Lou YS, Tsai DJ. et al. Projection word embedding model with hybrid sampling training for classifying ICD-10-CM codes: longitudinal observational study. JMIR Med Inform 2019; 7: e14499

MissingFormLabel
Crossref PubMed Suche in Google Scholar
12 Dietrich G, Krebs J, Fette G. et al. Ad hoc information extraction for clinical data warehouses. Methods Inf Med 2018; 57: e22

MissingFormLabel
Thieme Connect PubMed Suche in Google Scholar