Key words
multiple sclerosis - artificial intelligence - MR-imaging - radiomics - segmentation
Einleitung
Multiple Sklerose (MS) ist eine neurologische Erkrankung, die insbesondere in frühen
Krankheitsphasen bei vielen Betroffenen durch autoimmun-vermittelte Schubereignisse
gekennzeichnet ist [1]. In MRT-Untersuchungen zeigen sich entsprechende Parenchymläsionen des zentralen
Nervensystems. Dies bedingt zum einen eine wesentliche Rolle der Bildgebung in der
Diagnosestellung gemäß den aktuellen McDonald-Kriterien [2], zum anderen lässt sich über die Darstellung entzündlicher Läsionen die Krankheitsaktivität
im Verlauf beobachten. Neben der Läsionsdiagnostik werden zunehmend auch weitere MRT-Parameter
wie Atrophieraten [3] zur Charakterisierung des Krankheitsverlaufs genutzt. Entsprechend haben sich MRT-Untersuchungen
als wichtiges Werkzeug etabliert, um die Wirksamkeit einer immunmodulatorischen Therapie
zu überwachen: Eine bildgebend nachgewiesene Krankheitsaktivität eröffnet die Möglichkeit
einer Therapieumstellung noch vor einer klinisch fassbaren Verschlechterung [4].
Die Auswertung von MRT-Bildgebung bei MS ist daher eine sehr häufige Aufgabe in der
(neuro-) radiologischen Routine. Die für die Überwachung des Krankheitsverlaufs relevanten
Fragen sind klar definiert (Wie hat sich die Läsionslast entwickelt? Gibt es Zeichen
einer zunehmenden Atrophie?) und entsprechend in den NEDA-Kriterien (No Evidence of
Disease Activity) kodifiziert [3]. Durch diese Standardisierung sowie durch die hohe Zahl an erhobenen MRT-Datensätzen
gehört die MS zu den Krankheitsbildern, bei denen die computergestützte Auswertung
der Bildgebung an Bedeutung gewinnt. Mit zunehmender Popularität von sogenanntem Deep
Learning [5] und einem allgemein wachsenden Interesse an Künstlicher Intelligenz (KI) wurde diese
Entwicklung weiter beschleunigt
Ziel dieser Arbeit ist es, einen Überblick über kürzlich publizierte Anwendungsbeispiele
von Computeralgorithmen im Kontext von MS-Bildgebung bereitzustellen. Dabei liegt
ein Hauptaugenmerk auf Studien aus dem Feld der KI [6].
Technischer Hintergrund
Bei konventionellen CAD-Anwendungen (Computer aided diagnosis) wird ein Algorithmus
explizit mit Expertenwissen programmiert, um ein bestimmtes Problem zu lösen. Demgegenüber
wird beim Maschinenlernen zwar eine grobe Architektur des Algorithmus vorgegeben,
die genaue Ausgestaltung wird aber von diesem „erlernt“. Hierzu sind Trainingsdaten
notwendig, anhand derer die Parameter des Algorithmus schrittweise eingestellt („gelernt“)
werden. Im Rahmen dieses Übersichtsartikels sind insbesondere 3 Arten von Maschinenlernalgorithmen
von Bedeutung: Support-Vector-Maschinen, Random-Forest-Modelle und künstliche neuronale
Netzwerke.
Support-Vector-Maschinen (SVM) sind auf Klassifikationsprobleme hin ausgerichtet,
daneben lassen sie sich auch für Regressionsaufgaben verwenden [7]. Hierfür werden die Trainingsdaten als Punkte in einem Datenraum aufgefasst. Im
einfachsten Fall wäre das eine Ebene, also ein xy-Diagramm. Für dieses Beispiel wird
dann eine Gerade berechnet, die diese Datenpunkte gemäß ihrer Klasse voneinander trennt.
Im Allgemeinen, wo die Daten als komplexer Vektor vorliegen, wird entsprechend ein
höherdimensionales Analogon einer solchen Trennungsgerade berechnet.
Bei Random-Forest-Modellen [8] wird eine Gruppe von unkorrelierten Entscheidungsbäumen erzeugt, deren gemeinsames
Votum das Ergebnis bestimmt. Mit dieser Architektur sind solche Algorithmen ebenfalls
auf Klassifikationsprobleme zugeschnitten, können aber auch Regressionsprobleme lösen.
Künstliche neuronale Netze sind mehrlagige Vernetzungen von künstlichen Neuronen.
Diese ähneln ihren biologischen Vorbildern nur entfernt. Letztlich beinhalten sie
nur eine Vorschrift, wie aus mehreren Eingängen eine Ausgabe generiert wird. Die im
Lernprozess anzupassenden Parameter innerhalb eines neuronalen Netzwerks sind die
Verbindungsstärken zwischen den einzelnen Neuronen. Der aktuell häufig verwendete
Begriff „Deep Learning“ bezieht sich auf solche künstlichen neuronalen Netzwerke,
die über wenige Einzelschichten hinausgehen. Allerdings ist dieser Begriff nicht streng
definiert [9]. Ein wesentlicher Unterschied zwischen SVM und Random-Forest-Modellen auf der einen
Seite und künstlichen neuronalen Netzwerken auf der anderen Seite ist, dass bei den
erstgenannten Modellen die Features (also in quantitative Werte übersetzte Bildeigenschaften),
auf denen die Algorithmen basieren, zuvor vorgegeben werden. Künstliche neuronale
Netzwerke sind hingegen nicht auf vordefinierte Features festgelegt, sondern „erlernen“
relevante Bildeigenschaften selbstständig im Trainingsprozess.
Literatursuche
Die im Rahmen dieser Übersichtsarbeit berücksichtigten Arbeiten wurden über eine Literatursuche
mittels PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) identifiziert. Dabei wurden Artikel herangezogen, die bis zum 30. November 2019
erschienen waren. Besonderes Augenmerk wurde auf aktuelle Studien aus den Jahren 2018
und 2019 gelegt. Die Begriffe, die im Rahmen der Recherche genutzt wurden, waren „Multiple
Sclerosis“ und „MRI“ bzw. „Neuroimaging“, jeweils in Verbindung mit „Artificial Intelligence“,
„Machine Learning“ und „Neural Networks“. Des Weiteren wurden die Literaturverzeichnisse
der so gefundenen Artikel auf weitere passende Titel hin durchsucht.
Literaturergebnisse: Anwendung von KI bei Multipler Sklerose
Literaturergebnisse: Anwendung von KI bei Multipler Sklerose
Läsionsdetektion und -segmentierung
Die manuelle Analyse von Läsionsdaten hinsichtlich neuer oder vergrößerter Läsionen,
eine der radiologischen Kernaufgaben in der Auswertung von MS-Bildgebung, ist aufwendig
und fehleranfällig. Demgegenüber bietet eine automatische Segmentierung die Möglichkeit,
objektive Parameter, wie z. B. Läsionsvolumina, direkt zu erfassen. Daher befassen
sich viele Studien damit, diese Läsionen entweder besser zu visualisieren oder sogar
direkt zu segmentieren. Eine Strategie zum Vergleich zweier Untersuchungen ist die
Generierung von Subtraktionskarten [10]
[11]. Hierzu werden die beiden zu vergleichenden MRT-Sequenzen koregistriert und anschließend
die Intensitätswerte voxelweise voneinander abgezogen. Angewandt auf den Vergleich
einer Verlaufs-MRT mit einer Referenzuntersuchung lassen sich so Karten erzeugen,
die neu aufgetretene Läsionen direkt visualisieren ([Abb. 1]). Mit dieser Technik kann einerseits die Sensitivität in der Detektion neuer Läsionen
deutlich erhöht werden, andererseits wird die Zeit, die zum Vergleich der beiden Untersuchungen
benötigt wird, bis um den Faktor 3 reduziert [11]. Subtraktionskarten, als Beispiel konventioneller Tools, demonstrieren, dass bereits
verhältnismäßig einfache Computeralgorithmen den radiologischen Alltag erheblich unterstützen
können. In Projekten, die unmittelbar auf dieser Technologie basieren, konnte gezeigt
werden, dass eine Kontrastmittelgabe nicht mehr zu einer weiteren Sensitivitätssteigerung
in der Detektion neu aufgetretener Läsionen im Verlauf beitragen kann [12]. Außerdem wurden Subtraktionskarten verwendet, um die Gleichwertigkeit einer neuartig
beschleunigten Double-Inversion-Recovery (DIR) -Sequenz mit einer konventionell akquirierten
DIR-Sequenz zu zeigen [13].
Abb. 1 Beispiel einer Subtraktionskarte anhand der DIR-Sequenz. a DIR-Sequenz der MRT-Nachsorgeuntersuchung. b DIR-Sequenz der Ausgangsuntersuchung. c Berechnete Subtraktionskarte zwischen den beiden MRT-Untersuchungen. Hier lassen
sich auf einen Blick die neuen Läsionen (z. B. die auffälligen periventrikulär an
den Vorderhörnern) als helle Strukturen erkennen.
Die Aufgabe der Läsionssegmentierung wird bereits seit vielen Jahren mittels verschiedener
Techniken bearbeitet, eine Zusammenstellung über frühere Publikationen findet sich
z. B. bei Schmidt et al. [14]. In dieser Arbeit wurde ebenfalls ein eigenes Tool zur Segmentierung von MS-Läsionen
vorgestellt. Dieses, wie auch die dort aufgeführten Arbeiten, fußen auf konventionellen
Programmiermethoden. Eine neuere Übersichtsarbeit, die sich speziell dem Thema Läsionssegmentierung
widmet und auch KI-Studien berücksichtigt, legten Danelakis et al. vor [15]. Ein Beispiel einer solchen aktuellen Studie stammt von Li et al. [16]. Diese basiert auf einem sogenannten U-Net [17]. Dies ist eine bestimmte Art eines Deep-Learning-Netzwerks, die sich als besonders
leistungsfähig für Segmentierungsaufgaben erwiesen hat. Die Arbeit von Li et al. widmet
sich der Segmentierung von Hyperintensitäten der weißen Substanz im Zusammenhang mit
zerebraler Mikroangiopathie. Da die Segmentierung von mikroangiopathischen Läsionen
und von MS-Läsionen sehr ähnliche Aufgaben sind, lässt sich dieser Algorithmus bei
angepassten Trainingsdaten auch auf MRT-Untersuchungen bei MS anwenden. Ein Beispiel
einer so gewonnenen Segmentierung zeigt [Abb. 2]. Eine kürzlich erschienene Arbeit von Gabr et al. [18] nutzte ebenfalls ein U-Net zur Segmentierung von MS-Datensätzen. Das Besondere an
dieser Arbeit ist das große Kollektiv von über 1000 MRT-Untersuchungen, die aus einer
multizentrischen Phase-III-Studie stammen. Außerdem wird in dieser Arbeit auch die
Segmentierung des Hirnvolumens mittels eines U-Nets vorgestellt, wodurch auch Atrophieraten
automatisiert bestimmt werden können.
Abb. 2 Beispiel einer automatisiert erstellten Segmentierung. a FLAIR-Sequenz einer MRT-Untersuchung bei einer 27-jährigen Patientin mit bekannter
schubförmiger MS. b Das gleiche Bild mit rot markierter Überlagerung der berechneten Läsionssegmentierung.
Die Segmentierung wurde mittels eines von Li et al. [17] entwickelten Deep-Learning-Netzwerks generiert.
Integration klinischer Daten
Die bislang beschriebenen Verfahren sind bildgebungsimmanenten Fragestellungen gewidmet.
Viele Studien verfolgen demgegenüber aber auch das Ziel, mithilfe von Maschinenlernverfahren
Informationen in Bilddaten zu erfassen, die einer radiologisch-visuellen Auswertung
nicht unmittelbar zugänglich sind und so die Beantwortung neuer Fragestellungen ermöglichen
[19]. MRT-Bildgebung kann dazu beitragen, sehr früh (je nach Konstellation bereits zum
Erstereignis) eine verlässliche Diagnose zu treffen [2]. Dennoch gibt es häufig die Situation, dass zwar ein klinisches Ereignis als möglicher
erster Schub einer MS angesehen wird, sich jedoch noch keine definitive Diagnose stellen
lässt. Diese Konstellation wird als klinisch isoliertes Syndrom (KIS) bezeichnet [20]. Häufig geht ein solches KIS in eine definitive MS über [21]. Patienten mit einem hohen Konversionsrisiko sollten zumindest engmaschig überwacht
und gegebenenfalls auch schon sehr frühzeitig immunmodulatorisch behandelt werden
[22]
[23]. Daher ist die Vorhersage des individuellen Konversionsrisikos klinisch hochrelevant.
In mehreren Studien wurde untersucht, ob sich mithilfe von KI-Verfahren bereits anhand
der initialen Bildgebung bei KIS-Patienten die spätere Konversion oder Nichtkonversion
vorhersagen lässt. Zhang et al. [24] nutzten hierzu ein Random-Forest-Modell, das auf Helligkeits- und Form-Features
der Läsionen in der initialen MRT-Untersuchung basiert. Dabei trugen nur Form-Eigenschaften
der Läsionen zu einer Verbesserung der Prädiktion bei, insbesondere solche, die direkt
oder indirekt die Ovalität der Läsionen beschreiben. Auf der Intensitätsverteilung
der Läsionen basierende Features konnten die Vorhersagegenauigkeit hingegen nicht
verbessern. Berndfeldt et al. [25] untersuchten die gleiche Fragestellung mithilfe eines SVM-Verfahrens, wobei neben
der Läsionsgeometrie auch klinische und demografische Daten sowie Angaben zum Volumen
der grauen Substanz miteinbezogen wurden. Auch diese Arbeit zeigte einen wesentlichen
Beitrag der Läsionsgeometrie zur Klassifikationsgenauigkeit. Diese Ergebnisse spiegeln
wider, dass MS-Läsionen häufig ovoid erscheinen („Dawson-Finger“). Damit korreliert
die Entscheidungsfindung dieser Werkzeuge mit bereits bekannten Läsionseigenschaften,
wodurch das Verhalten der Algorithmen transparent nachvollziehbar wird.
Andere bereits bearbeitete Fragestellungen für Radiomics-Arbeiten waren die Differenzierung
von MS und Erkrankungen aus dem Neuromyelitis-Optica-Spektrum [28]
[29]
[30] und die Abgrenzung von MS-Patienten von gesunden Kontrollprobanden. Zum letztgenannten
Thema existieren auch auf Deep Learning beruhende Studien [31]
[32]
[33]. Eitel et al. [34] untersuchten hierbei auch, welche Merkmale der Algorithmus zur Klassifikation heranzieht,
und konnten so zeigen, dass neben den typischen Läsionen in geringerem Maß auch normal
erscheinende Areale, wie z. B. die Thalami, zur Entscheidung des Algorithmus beitragen
können. Auch in anderen Studien wie von Weygandt et al. [35] und Yoo et al. [31] konnte ein Beitrag gesund erscheinender Bereiche zur Vorhersage des Algorithmus
gefunden werden. Eine frühere, auf einem SVM-Verfahren basierende Studie von Hackmack
et al. [36] untersuchte den Nutzen sehr komplexer und damit abstrakter Features, die durch sog.
Wavelet-Transformationen gewonnen werden. Diese Ergebnisse belegen eindrucksvoll,
dass KI-Bilddaten auch jenseits der visuell-radiologisch interpretierbaren Informationen
nutzbar gemacht werden können. In einer anderen Studie konnten Hackmack et al. eine
Korrelation der räumlichen Information von MRT-Untersuchungen zur Symptomausprägung
bei MS-Patienten zeigen [37]. Die visuell-radiologische Auswertung von MS-Läsionen steht hingegen vor dem sog.
„kliniko-radiologischen Paradox“, nämlich der Erfahrung, dass Läsionslast und -verteilung,
so wie sie konventionell erfasst wird, keine Aussage über die Krankheitsschwere zulässt.
Synthetische Bilderzeugung
Eine neuere Anwendung Künstlicher Intelligenz ist die Erzeugung synthetischer Sequenzen,
die mittels neuronaler Netzwerke anhand bestehender Bildgebung vorhergesagt werden
[38]. Finck et al. nutzten einen solchen Ansatz, um eine Double-Inversion-Recovery-Sequenz
(DIR) aus einer FLAIR- (FLuid Attenuated Inversion Recovery), einer T2-gewichteten
und einer T1-gewichteten Sequenz zu generieren [39]. DIR-Sequenzen zeigen einen besonders hohen Läsion-zu-Parenchym-Kontrast und stellen
kortikale Läsionen besser dar, als konventionelle Sequenzen [40]
[41]
[42]. Nachteile der DIR-Sequenz sind ein hoher technischer Aufwand und eine gewisse Artefaktanfälligkeit,
sodass sie mit Ausnahme weniger Zentren keinen Eingang in Routine-MRT-Protokolle gefunden
hat. Eine synthetische Generierung aus Standardsequenzen könnte diese Nachteile umgehen
und damit DIR-Sequenzen zu einer größeren Verbreitung verhelfen. In der genannten
Studie zeigte sich, dass die synthetische Sequenz zwar etwas hinter der real akquirierten
DIR-Sequenz zurückblieb, jedoch signifikant besser MS-Läsionen darstellte als die
(real akquirierte) FLAIR-Sequenz. In einer Art „Turing-Test“ waren Neuroradiologen
nicht in der Lage, zwischen einer real akquirierten und einer synthetischen DIR-Sequenz
zu unterscheiden [38]. [Abb. 3] zeigt ein Beispiel einer synthetischen DIR-Sequenz.
Abb. 3 Beispiel einer synthetisch generierten DIR-Sequenz. a Mithilfe eines Deep-Learning-Netzwerks generiertes synthetisches DIR-Bild (basierend
auf real gemessenen FLAIR-, T1- und T2-gewichteten Sequenzen). b Real gemessene DIR-Sequenz aus der gleichen MRT-Untersuchung. c Korrespondierende FLAIR-Sequenz.
Diskussion und Ausblick
Die Anwendung von KI bei MS wird durch mehrere Punkte begünstigt: MS ist eine häufige
Erkrankung und Betroffene erhalten regelmäßige MRT-Untersuchung. Daher werden insbesondere
an Zentren große Zahlen an MRT-Untersuchungen durchgeführt. Eine ausreichende Anzahl
an Datensätzen ist aber für Maschinenlernen unerlässlich, um ein effektives Lernen
zu gewährleisten. So ist es nicht verwunderlich, dass zwar für die Läsionsdiagnostik
eine Vielzahl an Arbeiten existiert, jedoch keine für die Erkennung von relativ seltenen
Therapiekomplikationen wie PML (progressive multifokale Leukenzephalopathie).
Dabei kann die Bereitstellung eines großen Datensatzes die Entwicklung Künstlicher
Intelligenz maßgeblich beeinflussen: Besonders prominent ist hier die Alzheimers-Disease-Neuroimaging-Initiative
(ADNI), auf deren Datenbank eine Vielzahl von Maschinenlernstudien zu degenerativen
Erkrankungen basiert.
Von den vorstehenden Themen ist die Läsionssegmentierung das am intensivsten untersuchte.
Hier sind die eingesetzten Algorithmen weit gereift, teilweise sogar als kommerzielles
Produkt CE-zertifiziert bzw. von der FDA zugelassen. Damit stehen Tools zur Verfügung,
die prinzipiell bereits jetzt den radiologischen Alltag unterstützen können. Die Ergebnisse
dieser Techniken lassen sich außerdem in strukturierte Befunde [43] einbinden, sodass ein weitgehend automatisierter Workflow zur standardisierten Analyse
der MRT-Läsionslast technisch unmittelbar greifbar erscheint.
Die Prädiktion klinischer Parameter ist hingegen noch nicht so weit fortgeschritten.
Eine wichtige Aufgabenstellung für künftige Computeralgorithmen wäre etwa die Prädiktion
klinischer Verläufe. Die oben erwähnten Studien zur Vorhersage der Konversion bei
KIS-Patienten können hierfür als ein erster Schritt gesehen werden. Auch die erwähnte
Studie von Hackmack et al. zur besseren Korrelation von Bildgebung und klinischer
Krankheitsausprägung zeigt eine vielversprechende Anwendungsrichtung, die durch Computeralgorithmen
eröffnet wird.
Ein früher Therapiebeginn gilt bei MS als besonders wichtig [44]
[45], daher könnte eine zuverlässige frühe Vorhersage des zu erwartenden Verlaufs Therapieentscheidungen
beeinflussen. Angesichts eines immer breiter werdenden Arsenals an verfügbaren Medikamenten
[46] wäre es außerdem besonders interessant, inwiefern Maschinenlernen dazu beitragen
kann, für einzelne Patientinnen und Patienten die jeweils individuell am besten geeignete
Therapie zu identifizieren. Spätestens hier erscheint es aber auch zunehmend unwahrscheinlich,
dass diese Aufgabe von Algorithmen gelöst werden kann, die allein auf Bildgebung beruhen.
Vielmehr werden für derartige Fragestellungen zunehmend klinische Daten als weitere
Eingabeparameter in einen Algorithmus integriert werden müssen. Bei der Interpretation
von KI-Studien ist von besonderer Bedeutung, dass die Qualität eines Algorithmus maßgeblich
von der Lernkohorte abhängt. Hier ist klinische Expertise insbesondere bezüglich der
Qualität der Label nötig. Beispielsweise beziehen sich mehrere der oben vorgestellten
Projekte noch auf die McDonald-Kriterien in der Fassung von 2010. Würde man hingegen
die aktualisierte Fassung (2017) als Label heranziehen, würden einige zuvor mit einem
KIS diagnostizierte Patienten bereits zum Baseline-Zeitpunkt als definitive MS gewertet
werden (insbesondere aufgrund der Einbeziehung der Liquordiagnostik). Diese Algorithmen
können damit nicht problemlos zur Prädiktion entsprechend der aktuellen McDonald-Kriterien
herangezogen werden.
Mit der Generierung von DIR-Sequenzen wurde ein Beispiel vorgestellt, wie synthetische
Bildgebung genutzt werden kann, um real akquirierte Daten effizient zu nutzen. MRT-Protokolle
weisen hinsichtlich der Darstellung von MS-Läsionen insofern eine gewisse Redundanz
auf, als Läsionen in der Regel in mehreren Sequenzen dargestellt werden. Hier wäre
es ein wichtiger Anknüpfungspunkt zu untersuchen, wie ein „minimales“ MRT-Protokoll
aussehen könnte, also ein möglichst kleiner Satz an Sequenzen, aus dem dann andere
Bildkontraste synthetisch generiert werden könnten.
In den letzten Jahren ist der Nutzen von Kontrastmittel in der MS-Bildgebung hinsichtlich
einer möglichst hohen Sensitivität bei der Läsionsdetektion infrage gestellt worden
[12]
[47]. Gleichzeitig lässt die Diskussion um intrakranielle Gadoliniumablagerungen [48] viele Patientinnen und Patienten zunehmend skeptischer gegenüber dem Einsatz von
Kontrastmittel werden. Es gibt bereits einige Studien, die die Unterscheidung von
kontrastmittelanreichernden und nichtanreichernden Läsionen mittels anderer MRT-Parameter
(z. B. Diffusionsbildgebung) untersucht haben [49]. In diesem Kontext erscheint es als ein besonders interessantes Ziel, eine T1-gewichtete
Sequenz nach Kontrastmittelgabe basierend auf nativer Bildgebung zu synthetisieren.
Eine derartige Studie wurde kürzlich von Kleesiek et al. für Gliome vorgestellt [50].
Zusammenfassend lassen sich im Zusammenhang mit MS viele Anwendungsbeispiele von KI
in der Verarbeitung von Bildgebungsdaten identifizieren. Für Segmentierungsaufgaben
gibt es Lösungen, die bereits jetzt im radiologischen Alltag verfügbar wären. Damit
rücken neben den fachlichen auch zunehmend praktische Aspekte in den Vordergrund.
Hierzu gehört vornehmlich die Einbindung entsprechender Software in bestehende IT-Infrastrukturen
sowie der Zugang zu notwendiger Rechenkapazität. Da außerdem wohl nur kommerzielle
Produkte eine Zertifizierung zur Verwendung im klinischen Alltag erreichen können,
wird auch die Frage nach der Finanzierung solcher Programme einen wesentlichen Einfluss
auf ihre tatsächliche Verbreitung haben.