Grundlagen
Durch ihre Fähigkeit, große Datenmengen zu verarbeiten und zu interpretieren, hat
die Künstliche Intelligenz (KI) in fast alle Bereiche der Medizin Einzug gehalten.
Auch für die neurologische Gesundheitsversorgung wird der KI ein großes Potenzial
zugeschrieben [1 ]. Viele neurologische Erkrankungen erfordern umfangreiche multimodale Diagnostik
und personalisierte Therapiekonzepte, die durch KI automatisiert bzw. optimiert werden
können. Ein grundlegendes Verständnis der Anwendungen und Funktionsweisen der KI,
aber auch der Herausforderungen und Limitationen ist für den erfolgreichen Einsatz
in der neurologischen Forschung und Praxis entscheidend.
In diesem Übersichtsartikel geben wir zunächst eine allgemeine Einführung in die KI
und definieren wichtige Grundbegriffe zu den Teilbereichen der KI und den zugrunde
liegenden Lernprozessen. Anschließend wird erläutert, welche Daten sich für die Verarbeitung
durch KI-Modelle eignen und wie sie in die Modelle eingespeist werden können. Es folgen
ausführlichere Erklärungen der Anwendungen von Funktionsweisen von neuronalen Netzen
und Transformern als 2 besonders leistungsfähigen KI-Modellen. Abschließend werden
einige Herausforderungen der Nutzung von KI in der Neurologie kurz beschrieben.
Künstliche Intelligenz und ihre Teilbereiche
Neben dem Begriff „Künstliche Intelligenz“ haben sich weitere Begriffe etabliert,
die z. T. synonym für KI verwendet werden, jedoch Teilbereiche der KI darstellen ([
Abb. 1a
]). Da sich die englische Terminologie in vielen Fällen auch im deutschen Sprachgebrauch
durchgesetzt hat, werden wir auch in diesem Artikel häufig die etablierte englischsprachige
Nomenklatur verwenden und lediglich auf die deutschen Übersetzungen verweisen.
Abb. 1 a Abgrenzung der Begriffe „künstliche Intelligenz“, „machine learning“ und „deep learning“.
b Abgrenzung der Begriffe „supervised learning“, „unsupervised learning“ und „reinforcement
learning“.
Künstliche Intelligenz: Unter diesem Begriff werden gemeinhin all jene Algorithmen
subsummiert, die biologischer Intelligenz ähneln bzw. diese nachahmen. KI umfasst
damit eine große Anzahl an Algorithmen von simpler Logik, über Regressionen, bis hin
zu komplexen neuronalen Netzen. Die KI weist große Überschneidungen mit dem Feld der
Statistik auf, die ebenfalls zur Entdeckung von Zusammenhängen und dem Treffen von
Vorhersagen genutzt wird.
Machine learning (maschinelles Lernen): Hierbei handelt es sich um einen Teilbereich
der KI, der Algorithmen umfasst, die in der Lage sind, anhand von Daten selbstständig
zu lernen und sich anzupassen. Das bedeutet, dem Algorithmus müssen keine ausdrücklichen
Anweisungen gegeben werden, wie die gegebenen Daten verarbeitet werden sollen. Machine-learning-Algorithmen
sind meist etwas komplexere KI-Algorithmen wie z. B. support vector machines, Random-forest-Modelle
oder neuronale Netze. Sie lernen bspw. medizinische Eingabedaten wie radiologische
Bilder zu verarbeiten und eine Diagnose auszugeben.
Deep learning (tiefes Lernen): Hierbei handelt es sich wiederum um einen Teilbereich
des machine learnings, der umfangreiche („tiefe“) neuronale Netze umfasst. Sie können
besonders komplexe Aufgaben lösen und weisen z. B. eine höhere Präzision bei der Befundung
radiologischer Bilder auf. Sie gehören damit zu den zukunftsträchtigsten KI-Algorithmen.
Lernprozesse der KI
Es lassen sich verschiedene Lernprozesse der Algorithmen differenzieren. Sie beeinflussen
wiederum, für welche neurologischen Anwendungsbereiche sich Algorithmen eignen ([
Abb. 1b
]).
Supervised learning (überwachtes Lernen): Hierbei handelt es sich um Algorithmen,
die mittels exakt beschriebener Eingabedaten lernen, um diese Beschreibungen anschließend
selbstständig generieren zu können. Die Beschreibungen der Eingabedaten werden „label“
genannt. Soll ein KI-Algorithmus aus dem Bereich supervised learning bspw. maligne
Raumforderungen in Schädel-Magnetresonanztomografie (MRT)-Bildern erkennen, wird der
Algorithmus anhand befundeter Bilddaten trainiert. Diese Trainingsdaten bestehen aus
den MRT-Bildern sowie den labels, also den Beschreibungen, ob (und ggf. auch wo) jeweils
eine maligne Raumforderung vorliegt oder nicht. Der Algorithmus lernt anhand dieser
Beschreibungen zwischen MRT-Bildern mit und ohne Malignomen zu unterscheiden [2 ]. Die Qualität der label ist hierbei entscheidend, da der Algorithmus anhand dieser
lernt.
Unsupervised learning (unüberwachtes Lernen): Es umfasst Algorithmen, die ohne label
lernen. Solche Algorithmen erkennen selbst Muster und Zusammenhänge in den Daten.
Ein typisches Beispiel sind Cluster-Algorithmen, die Gruppen von ähnlichen Datenpunkten
identifizieren und so bspw. anhand klinischer Merkmale oder genetischer Marker Subgruppen
neuropsychiatrischer oder -genetischer Erkrankungen identifizieren [3 ], [4 ].
Reinforcement learning (verstärkendes Lernen): Hierbei erlernt der Algorithmus Strategien,
die Belohnungen nach sich ziehen bzw. Bestrafung vermeiden. Das Training erfolgt ebenfalls
nicht anhand gelabelter Daten, sondern durch das Ausprobieren verschiedener Handlungsmöglichkeiten
(z. B. Bewegungen der Gelenke eines chirurgischen Roboterarms), um positive Ergebnisse
zu erzielen (z. B. eine chirurgische Prozedur zu meistern). Reinforcement learning
ist besonders geeignet für die Verarbeitung von „Real-time“-Daten aus kontinuierlichen
Messungen und Sensoren. Neurologische Anwendungen für reinforcement learning bestehen
somit in Robotern wie bspw. für die (Neuro-)Chirurgie [5 ] oder in klinischen decision support systems wie etwa in der neurologischen Intensivmedizin
[6 ], [7 ].
Daten
Statische und sequenzielle Daten
Die Wahl des geeigneten KI-Modells hängt maßgeblich davon ab, ob einzelne statische
oder sequenzielle Daten verarbeitet werden sollen. Statische Daten weisen keine zeitliche
Abfolge auf und können somit einzeln in einen Algorithmus eingespeist werden. Beispiele
für statische Daten sind klinische Scores, Laborwerte und radiologische oder histologische
Bilder. Sequenzielle Daten weisen hingegen eine zeitliche Abfolge auf. Beispiele sind
Texte, Sprachaufnahmen oder Elektroenzephalografie (EEG)-Aufzeichnungen.
Dateiformate und Einschleusen in Algorithmen
Für jede Art Daten existieren meist mehrere Dateiformate. Ein Bild kann z. B. als
JPEG oder PNG gespeichert sein. In der Radiologie üblich ist das Dateiformat DICOM
(Digital Imaging and Communications in Medicine). Je nachdem, ob etablierte Standards
existieren oder Gerätehersteller eigene Dateiformate verwenden, sind unterschiedliche
Verarbeitungsschritte notwendig, um die Daten in einen KI-Algorithmus einzuspeisen.
In der klinischen Praxis übliche Dateiformate wie DICOM enthalten meist neben der
eigentlichen Kerndatei (bspw. dem Bild) zusätzliche Informationen zur untersuchten
Person, dem Aufnahmezeitpunkt, technischen Spezifikationen u. a. Häufig wird jedoch
nur das eigentliche Bild in ein KI-Modell eingespeist. Im Kern handelt es sich bei
Bildern um Tabellen mit Zahlenwerten, die die Farbwerte jedes Pixels im Bild repräsentieren.
Schwarz-weiß-Bilder stellen 2-dimensionale Tabellen bzw. Matrizen dar, wobei die Zahlenwerte
den Graustufen der Pixel entsprechen ([
Abb. 2a
] links). Für Farbbilder existieren verschiedene Farbräume. Im RGB-(Rot-Grün-Blau)-Farbraum
bestehen Bilder aus 3-dimensionalen Tabellen bzw. Tensoren mit 3 Schichten für jeden
Farbanteil ([
Abb. 2a
] rechts). Auf diese Weise lassen sich statische Dateien wie Bilder in Form von Zahlenwerten
in KI-Algorithmen einspeisen.
Abb. 2 a Einzelnes Schwarz-weiß-Bild (links) sowie Farbbild (rechts) als Beispiele statischer
Eingabedaten. Die Zahlenwerte jedes Pixels können als Vektoren, Matrizen bzw. Tensoren
dargestellt und verarbeitet werden. b Textabschnitt als Beispiel sequenzieller Eingabedaten. Der Text kann in tokens zerlegt
werden. Diese können als Vektoren dargestellt werden, die zusätzlich die semantische
Nähe der tokens zueinander abbilden (embeddings).
Sequenzielle Daten müssen für viele KI-Algorithmen in vordefinierte Zeitfenster oder
Segmente aufgeteilt werden. Ein Text wird dabei in einzelne Einheiten aufgeteilt,
die als tokens bezeichnet werden. Tokens können Wörter, Zeichen oder Wortbestandteile
sein. Ihnen werden spezifische Zahlenwerte zugewiesen, die ihre semantische Nähe zueinander
abbilden ([
Abb. 2b
]). Für diese Zahlenrepräsentation der tokes werden oft eigene Algorithmen verwendet.
Das Ergebnis wird als embedding bezeichnet. Die embeddings stellen oft 1-dimensionale
Tabellen bzw. Vektoren dar. Die Zahlendarstellungen können nun ebenfalls in KI-Algorithmen
eingespeist werden.
Trainings-, Validierungs- und Testdaten
Um ein leistungsstarkes KI-Modell zu entwickeln, werden je nach Art des Modells und
Komplexität der Anwendung häufig große Mengen an Daten benötigt. Der verfügbare Datensatz
wird für viele Anwendungen in 3 Teile unterteilt.
Trainingsdaten: Sie werden verwendet, um ein KI-Modell zu trainieren. Dies bedeutet,
dass das mathematische Modell anhand der Trainingsdaten zunehmend verfeinert wird,
bis es zu den Trainingsdaten passt. Mittels der Trainingsdaten passt ein Regressions-Algorithmus
bspw. die Regressionsgerade so an, dass sie optimal durch die Punktewolke verläuft,
also der Abstand zwischen Regressionsgerade und Datenpunkten minimal ist. Meist wird
der größte Teil des Datensatzes, bspw. 70 %, für das Training verwendet.
Validierungsdaten: Sie dienen dazu, die Leistung verschiedener trainierter Modelle
zu vergleichen. So können während des Entwicklungsprozesses bspw. mehrere Varianten
neuronaler Netze, die alle mit denselben Trainingsdaten trainiert wurden, verglichen
werden und das Modell mit der besten Leistung ausgewählt werden. Häufig werden ca.
10–20 % des Datensatzes hierzu verwendet.
Testdaten: Der verbleibende Teil des Datensatzes wird für die finale Bewertung der
Leistung des Modells genutzt. Hierzu müssen Daten verwendet werden, die der Algorithmus
nicht kennt, die also weder für Training noch Validierung verwendet wurden. Der Testdatensatz
soll einen Eindruck der Modell-Leistung in der Realität vermitteln. Hierzu werden
ca. 10–20 % der Daten verwendet.
Modelle
Es existiert eine große Anzahl verschiedener KI-Algorithmen. Sie unterscheiden sich
u. a. darin, ob sie statische oder sequenzielle Eingabedaten akzeptieren und ob sie
statische oder sequenzielle Ausgaben produzieren. Im Folgenden werden die KI-Algorithmen
neuronale Netze sowie Transformer als 2 moderne und besonders leistungsstarke Algorithmen
näher beschrieben.
Neuronale Netze
Neuronale Netze eignen sich für die Verarbeitung statischer Eingabedaten, z. B. demografische
Daten, klinische Befunde, medizinische Bilder und Laborwerte, und können basierend
hierauf statische Ausgaben wie Verdachtsdiagnosen oder Prognoseeinschätzungen generieren
[8 ]. Insbesondere große neuronale Netze aus dem Bereich deep learning können sehr leistungsstark
sein und sich für neurologische Fragestellungen eignen. Bei der Analyse neuroradiologischer
Aufnahmen liefern neuronale Netze hilfreiche Informationen, z. B. Angaben zur 3-dimensionalen
Ausdehnung eines Tumors oder Hinweise auf auffällige Areale in einem Bild [9 ]. Auch genetische Daten können von neuronalen Netzen verarbeitet werden, um etwa
Risikofaktoren für neurologische Erkrankungen zu identifizieren oder Vorhersagen zur
Krankheitsentwicklung zu treffen [10 ], [11 ].
Der Aufbau und die Funktionsweise künstlicher neuronaler Netze orientiert sich an
biologischen neuronalen Netzen im Gehirn. Künstliche Neurone sind die funktionellen
Einheiten, die zu großen Netzwerken verknüpft sind. Ein künstliches Neuron erhält
mehrere Eingabewerte x ([
Abb. 3a
]). Diese Eingabewerte repräsentieren Informationen oder Signale, die von anderen
Neuronen oder externen Quellen stammen. Jeder Eingabewert weist ein Gewicht w auf,
das seine Bedeutung oder Stärke in Bezug auf das Ergebnis des Neurons angibt. Die
Eingabewerte x werden mit ihren Gewichten w multipliziert. Die Ergebnisse werden zu
einem Zahlenwert addiert, der in eine Aktivierungsfunktion eigesetzt wird. Sie berechnet,
wie stark ein nachfolgendes Neuron aktiviert wird. Es gibt eine Vielzahl unterschiedlicher
Aktivierungsfunktionen. Sie ermöglichen es, komplexe, nicht lineare Zusammenhänge
zu modellieren.
Abb. 3 a Aufbau eines einzelnen künstlichen Neurons. Der input x wird zunächst gewichtet,
d. h. mit den Gewichten w multipliziert. Die gewichteten Eingaben werden summiert
(Σ) und in die Aktivierungsfunktion f(x) eingesetzt (vergleichbar mit einem Aktionspotenzial).
Hierdurch entsteht der output ŷ, der wiederum den input für nachfolgende Neurone darstellt.
b Ein beispielhaftes neuronales Netz mit 2 hidden layern mit jeweils 3 Neuronen.
Mehrere Neurone können zu einem neuronalen Netz angeordnet werden ([
Abb. 3b
]), das grundsätzlich beliebig viele Schichten und Neurone pro Schicht aufweisen kann.
Die erste Schicht wird als input layer (Eingabeschicht) bezeichnet. Sie erhält die
Eingabedaten (z. B. ein Röntgenbild). Es folgen die hidden layer (versteckte Schichten),
in denen die Eingabe mit Gewichten und Aktivierungsfunktionen weiterverarbeitet wird.
Am Ende des Netzes folgt das output layer (Ausgabeschicht), das die finale Ausgabe
(z. B. die Verdachtsdiagnose oder Klassifikation „gesund“ vs. „krank“) ausgibt.
Mithilfe der linearen Algebra können die beschriebenen Rechenschritte kompakt gebündelt
durchgeführt werden. Die Eingabe entspricht bspw. einem Vektor, der die Zahlenwerte
jedes Pixels des Röntgenbilds enthält ([
Abb. 2a
] links). Die Gewichte können in Matrizen angeordnet werden. Sie werden initial bspw.
zufällig festgelegt und während des Trainingsprozesses optimiert. Eingabe-Vektoren
und Gewichts-Matrizen können multipliziert und die Ergebnisse in die Aktivierungsfunktionen
eingesetzt werden. Diese Berechnungen lassen sich mit jeder zusätzlichen Schicht beliebig
oft wiederholen. Zusätzliche Schichten erlauben komplexere Modellierungen und ggf.
eine bessere Modell-Leistung, erfordern jedoch auch mehr Rechenleistung. Die finale
Ausgabe entspricht ebenfalls einem Vektor. Soll das Netz zwischen einem pathologischen
und einem unauffälligen Röntgenbild unterscheiden, kann die Klassifikation „krank“
z. B. durch einen Zahlenwert nahe 1 und „gesund“ durch einen Zahlenwert nahe 0 repräsentiert
werden. Dieser gesamte Rechenprozess von Eingabe bis Ausgabe wird als forward pass
bezeichnet.
Der Trainingsprozess eines neuronalen Netzes wird analog auch backward pass genannt.
Hierzu wird zunächst eine Fehlerfunktion berechnet. Sie beschreibt den Fehler des
Modells, also den Unterschied der aktuellen Ausgabe des Modells zur korrekten Ausgabe.
Die korrekte Ausgabe entspricht dem label der Eingabedaten, also bspw. dem Zahlenwert
0, wenn es sich bei dem Trainings-Röntgenbild um ein unauffälliges Bild handelt. Wird
die Fehlerfunktion minimiert, sinkt der Unterschied zwischen der Modell-Ausgabe und
der korrekten Klassifikation. Die einzigen Variablen, die hierzu angepasst werden
können, sind die Gewichte (Eingabe und Aktivierungsfunktionen sind vorbestimmt). Der
backward pass nutzt demnach ein mathematisches Verfahren, das die Gewichte des Netzes
schrittweise so anpasst, dass die Fehlerfunktion minimiert wird. Dieses Verfahren
heißt gradient descent (Gradientenabstieg).
Eine spezielle Form der neuronalen Netze, die besonders für die Verarbeitung von Bildern
geeignet ist, sind convolutional neural networks (CNNs) [12 ]. Sie verarbeiten mehrere benachbarte Pixel auf einmal. Hierdurch können Zusammenhänge
zwischen benachbarten Pixeln berücksichtigt und Muster besser erkannt werden.
Transformer
Transformer eignen sich für die Verarbeitung sequenzieller Daten wie Text. Sie wurden
2017 erstbeschrieben [13 ] und bilden den Kern von Software wie ChatGPT (Chat Generative Pretrained Transformer)
[14 ] der Firma OpenAI oder BERT (Bidirectional Encoder Representations from Transformers)
[15 ] und PaLM (Pathways Language Model) [16 ] der Firma Google.
Eine Vielzahl medizinischer Anwendungen von Transformern scheint möglich. Jüngste
Veröffentlichungen zeigten, dass ChatGPT die deutschen [17 ] und US-amerikanischen [18 ] medizinischen Staatsexamina bestehen und somit komplexe medizinische Fragestellungen
beantworten kann. Transformerbasierte Sprachmodelle können neue medizinische Datenpunkte
vor dem Hintergrund riesiger Mengen verfügbarer Literatur interpretieren. Somit können
sie potenziell die Diagnosestellung unterstützen oder individualisierte Therapieempfehlungen
abgeben [19 ]. Auch Texte können von Transformern verarbeitet und zusammengefasst werden, um z.
B. bei Neuaufnahmen einen schnellen Überblick über die bisherige Krankengeschichte
zu vermitteln [20 ]. Transformer können zudem strukturierte und eloquente Texte formuliere und damit
u. a. die zeitaufwendige medizinische Dokumentation vereinfachen [21 ], [22 ].
Eine erste Besonderheit der Funktionsweise der Transformer ist die Art der Texteingabe.
Während ältere Algorithmen wie etwa recurrent neural networks (RNNs, rekurrente neuronale
Netze) lediglich ein token nach dem anderen verarbeiten können, verarbeiten Transformer
die gesamte Texteingabe auf einmal. Der Textabschnitt wird in tokens unterteilt und
diese zu input embeddings weiterverarbeitet ([
Abb. 2b
]). Hinzu kommen Informationen zur Position der tokens im Eingabetext. Diese optimierten
Vektor-Repräsentationen der tokens werden nun parallel in den ersten Abschnitt des
Transformers eingespeist, den encoder (Kodierer; [
Abb. 4
]). Die Aufgabe des encoders besteht darin, den Eingabetext zu „verstehen“, bevor
im decoder (Dekodierer) eine Ausgabe produziert wird. In der Praxis werden mehrere
encoder- und mehrere decoder-Blöcke hintereinandergeschaltet, um komplexere Berechnungen
zu ermöglichen.
Abb. 4 Vereinfachte Darstellung einer Transformer-Architektur mit einem encoder- und einem
decoder-Block. Das Modell erhält als Eingabetext eine kurze Fallvignette und erstellt
schrittweise einen Ausgabetext mit einer Verdachtsdiagnose. Der Eingabetext wird zunächst
in tokens umgewandelt, d. h. in Wortbestandteile unterteilt, die als Zahl bzw. Vektor
ausgedrückt werden und Informationen zur Position der Wortbestandteile im Satz enthalten.
In den attention-Blöcken wird die Beziehung der tokens zueinander berechnet. Diese
optimierten Zahlenrepräsentationen von Wortbestandteilen können genutzt werden, um
mittels neuronalen Netzen das nächste möglichst sinnvolle Wort auszugeben. Die Abbildung
zeigt den Zustand des Modells, in dem es im vergangenen Zyklus das Wort „Verdachtsdiagnose“
ausgegeben hat und im jetzigen Zyklus das Wort „Migräne“ ausgibt.
Die zweite Besonderheit und der Kern der Transformer sind die Self-attention-Module
[13 ]. Sie verwenden eine mathematische Formel, die für jeden token die Beziehung zu allen
einzelnen token der Textsequenz (allen anderen und sich selbst) berechnet. Diese Beziehungen
werden auch als attention bezeichnet und als Gewicht ausgedrückt. Ein höheres attention-Gewicht
beschreibt eine stärkere Beziehung eines tokens zu einem anderen, z. B. bezieht sich
der Artikel „Die“ stark auf „Patientin“ und wenig auf die anderen tokens ([
Abb. 4
]). Die Funktionsweise der attention-Module ist komplex. Für besonders Interessierte
folgt nun eine ausführlichere Erläuterung.
dim = Dimensionalität des key-Vektor
Die Variablen-Bezeichnungen der Formel sind der Suchmaschinensprache entlehnt. Hierbei
bezeichnet „query“ eine Suchmaschinenanfrage (z. B. nach einem Bild in einer Datenbank).
„keys“ sind Kodierungen der einzelnen Elemente der Datenbank (vergleichbar mit den
Namen oder Kurzbeschreibungen der Bilddateien). „Value“ sind die Elemente selbst (z.
B. die Bilder). Es soll das Element (value) ausgegeben werden, für das die Anfrage
(query) am besten zur Kodierung (key) passt. Hierzu werden die Anfrage (query) und
alle Kodierungen (keys) hinsichtlich ihrer Ähnlichkeit verglichen. Je ähnlicher die
query und ein bestimmter key sind, desto stärker wird das Element (value), das zu
dem key gehört, gewichtet, und desto eher wird es letztlich ausgegeben (also z. B.
ein spezifisches Bild nach einer Datenbankanfrage).
Im Kontext der Transformer bezeichnet „value“ das Textelement bzw. den token, für
den die attention-Gewichte bzw. Beziehungen zu allen einzelnen Textelementen bzw.
tokens berechnet werden soll. Die Gewichte berechnen sich durch den Vergleich der
query- und key-Vektoren. Mathematisch gelingt dies über ein Skalarprodukt aus query
und keys, also einer Multiplikation der Vektoren. „Query“ ist ein Anfrage-Vektor,
der der Kodierung des keys eines values ähneln kann/soll. „Keys“ sind Kodierungen
in Form von Vektoren für jeden einzelnen token. Query und die keys werden meist zufällig
initialisiert und während des Trainings des Modells optimiert, um eine bestmögliche
Gewichtung der values zu bewerkstelligen. Die Gewichte werden anschließend skaliert
und auf Zahlenwerte zwischen 0 und 1 normalisiert. Abschließend wird jedes Gewicht
mit den value-Vektoren multipliziert.
Die Ausgabe eines attention-Moduls sind nun noch weiter verbesserte Vektordarstellungen
der tokens, die neben den initialen input embeddings und Positionskodierungen auch
Informationen zur Beziehung zu anderen Wörtern im Text enthalten. Auf diese Weise
werden Zusammenhänge zwischen selbst weit entfernen Textabschnitten berücksichtigt.
Der attention-Mechanismus wird parallel für unterschiedliche Aspekte und Arten der
Beziehungen durchgeführt, um unterschiedliche Facetten zu berücksichtigen. Im encoder
durchwandern die token-Vektoren zunächst ein attention-Modul. Die resultierenden attention-Vektoren
werden anschließend in einem klassischen neuronalen Netz-Modul weiter optimiert und
danach in den decoder eingeschleust.
Transformer geben Schritt für Schritt weitere Wörter aus, bis ein ganzer Ausgabetext
entsteht. In jedem Zyklus erhält der decoder hierzu die zuletzt erzeugte Modellausgabe
als Eingabe. In unserem Beispiel entspräche dies dem zuletzt ausgegebenen Wort („Verdachtsdiagnose“;
[
Abb. 4
]). Wie beim encoder, wird diese letzte Modellausgabe zunächst in embeddings und anschließend
in einem attention-Modul in attention-Vektoren umgewandelt. Im nun folgenden attention-Modul
laufen die attention-Vektoren des zuletzt ausgegebenen Textabschnitts sowie der initialen
Texteingabe zusammen. Die Ausgabe dieses attention-Moduls sind schließlich attention-Vektoren,
die die Beziehung jedes Worts der initialen Eingabe zur letzten Ausgabe darstellen.
Es folgt ein weiteres neuronales Netz-Modul, das die Umwandlung der Vektoren in Text
vorbereitet. Die finale Ausgabe des Models eines Zyklus ist vereinfacht beschrieben
eine Wahrscheinlichkeitsverteilung über alle Wörter im Wörterbuch. Das Wort mit der
höchsten Wahrscheinlichkeit wird ausgegeben (in unserem Fall „Migräne“). Auf diese
Weise gibt der Transformer mit jedem Zyklus ein weiteres Wort aus, bis ein Ausgabetext
als Antwort auf den Eingabetext entstanden ist.
Anforderungen für die KI in der Neurologie
Die Anwendungsmöglichkeiten von KI in der Neurologie sind breit. Es existieren leistungsstarke
Modelle, die nahezu jede Form von Daten verarbeiten und auswerten können. Jedoch bestehen
weiterhin einige Herausforderungen für die Nutzung von KI in Klinik und Forschung:
Menge und Qualität der Daten: Für viele Anwendungen sind große Mengen Trainingsdaten
notwendig mit Hunderten bis Tausenden Datenpunkten. Gerade für seltenere Erkrankungen
ist dies oft nicht zu bewerkstelligen. Zudem ist die Qualität der Trainingsdaten entscheidend.
Sie sollten eine breite Palette von Szenarien abdecken und repräsentativ für die Eingabedaten
der realen Welt sein. Unterschiede hinsichtlich Alter, Ethnizität, Krankheitsmanifestation
etc. können zu einer reduzierten Leistungsfähigkeit der Algorithmen in der Praxis
führen, also z. B. zu fehlerhaften Klassifikationen radiologischer Bilder. Die Daten
sollten frei von Artefakten, Ausreißern und Rauschen sein. Beim supervised learning
müssen zudem die label zuverlässig sein, also die Beschreibungen der Daten anhand
derer der Algorithmus lernt.
Infrastruktur: Die notwendige technische Infrastruktur aus Software zur strukturierten
Erfassung von Daten, Servern zur Speicherung der Daten, Rechenleistung zur Verarbeitung
der Daten sowie entsprechenden Verknüpfungen existieren vielerorts noch nicht. Hinzu
kommen Anforderungen an die Expertise der Anwender zur erfolgreichen Nutzung von KI
und insbesondere der Interpretation der Ausgaben.
Erklärbarkeit: Zwar können KI-Modelle „intelligente“ Ausgaben wie Verdachtsdiagnosen
und Prognoseabschätzungen liefern, diese Ausgaben jedoch oft nicht näher erklären
oder begründen. Ein wichtiges Forschungsfeld ist daher die explainable AI (xAI, erklärbare
KI). Sie entwickelt Methoden, um die Ausgaben der KI-Algorithmen besser zu erklären,
z. B. indem zusätzlich zur reinen Bildklassifikation die vermeintliche Auffälligkeit
farbig markiert wird. Somit kann die Ausgabe bzw. Entscheidung des Modells besser
nachvollzogen werden.
Ethische und juristische Anforderungen: Der Einsatz von KI in der Medizin erfordert
sorgfältige ethische und juristische Abwägung, z. B. hinsichtlich Datenschutz, Sicherheit
und der sachgemäßen Anwendung von KI-Algorithmen, oder der Haftung bei Fehlern. Die
Zulassungsverfahren sind daher oft langwierig und kostenintensiv. Haftungsfragen sind
in vielen Fällen nicht hinreichend geklärt [23 ].
KI weist großes Potenzial in der Neurologie auf, da sie sowohl Forschungsanwendungen
als auch eine Vielzahl diagnostischer und therapeutischer Prozesse unterstützen bzw.
automatisieren kann. Die Art der Eingabedaten und gewünschten Ausgaben beeinflusst
die Auswahl des KI-Modells. Neuronale Netze eignen sich besonders für die Verarbeitung
statischer Daten, Transformer für die Verarbeitung sequenzieller Daten. Die Anforderungen
an die Datenmenge und -qualität, die IT-Infrastruktur, die Erklärbarkeit der Ergebnisse
sowie die ethischen und rechtlichen Bestimmungen sind hoch und erfordern eine kontinuierliche
Weiterentwicklung. Bis das volle Potenzial der KI in der Neurologie ausgeschöpft werden
kann, wird es deshalb noch einige Zeit dauern.
Algorithmus: Handlungsvorschrift bzw. Sammlung von Handlungsvorschriften zur schrittweisen
(mathematischen) Lösung eines Problems
Attention: Methode, um die Beziehung zwischen verschiedenen Teilen sequenzieller Eingabedaten
zu berücksichtigen
Deep learning (tiefes Lernen): Teilbereich der künstlichen Intelligenz und des machine
learning mit umfangreichen neuronalen Netzen, die besonders komplexe Aufgaben lösen
können
Embedding: Zahlenrepräsentation von tokens, die zusätzliche Informationen wie z. B.
zur semantischen Nähe der tokens enthalten kann
Gradient descent (Gradientenabstiegsverfahren): Methode, die genutzt wird, um Algorithmen
aus dem Bereich machine learning, z. B. neuronale Netze zu trainieren, indem der Fehler
des Modells als Funktion ausgedrückt wird, die schrittweise minimiert wird
Künstliche Intelligenz: Algorithmen, die biologischer Intelligenz ähneln bzw. diese
nachahmen
Künstliche neuronale Netze: Algorithmen aus den Bereichen künstliche Intelligenz bzw.
machine learning, die biologischen neuronalen Netzen ähneln und zur Verarbeitung von
Informationen und dem Lernen aus Daten verwendet werden
Label: Exakte Beschreibungen bzw. „Beschriftungen“ der Daten, meist durch Menschen
Machine learning (machinelles Lernen): Teilbereich der künstlichen Intelligenz mit
Algorithmen, die anhand von Daten selbstständig lernen und sich anpassen, ohne dass
explizit vorgegeben wird, wie die Daten verarbeitet werden sollen
Modell: Repräsentation bzw. Abbildung der Realität, z.B. mithilfe einer mathematischen
Formel
Reinforcement learning (verstärkendes Lernen): Lernen durch Belohnung und Bestrafung
Supervised learning (überwachtes Lernen): Lernen anhand exakt beschriebener Eingabedaten
(labels), um diese Beschreibungen anschließend selbstständig generieren zu können
Testdaten: Anteil der verfügbaren Daten, die genutzt werden, um die Leistung eines
Modells abschließend zu beurteilen
Token: Einteilung sequenzieller Daten wie Text in diskrete (endliche) Einheiten wie
Wörter oder Wortteile, die meist durch Zahlenwerte bzw. Vektoren repräsentiert werden
Trainingsdaten: Anteil der verfügbaren Daten, die genutzt werden, um ein Modell zu
trainieren und dessen Leistung zu verbessern
Transformer: Moderne Algorithmen aus dem Bereich künstliche Intelligenz bzw. machine
learning, die u. a. einen attention-Mechanismus nutzen, um sequenzielle Daten zu verarbeiten
und auszugeben
Unsupervised learning (unüberwachtes Lernen): Lernen bzw. Mustererkennung ohne exakt
beschriebene Eingabedaten (labels)
Validierungsdaten: Anteil der verfügbaren Daten, die genutzt werden, um die Leistung
verschiedener bereits trainierter Modelle zu vergleichen
Wissenschaftlich verantwortlich
Wissenschaftlich verantwortlich gemäß CME-Zertifizierungsbedingungen für diesen Beitrag
ist Prof. Dr. med. Inga K. Körte, München.