Schlüsselwörter
räumlicher Filter - event-korreliertes Potenzial - Gehirn-Computer Schnittstelle
Key words
Spatial filter - event-related potential - brain-computer interface
Einleitung
Hirn-Computer Schnittstellen (engl.: brain-computer interfaces; BCI) [1] haben das Potenzial, eine Kommunikation mit
Patienten zu ermöglichen, die eigentlich aufgrund ihrer schweren motorischen
Beeinträchtigungen nicht mehr in der Lage dazu sind. BCIs werden
häufig realisiert, indem verschiedene visuelle Reize präsentiert
werden, um zu erfassen, was Patienten ausdrücken wollen. Durch das
willentliche Ausrichten von Aufmerksamkeit auf einen bestimmten Reiz werden im
Gehirn spezifische ereigniskorrelierte Potenziale (EKPs) generiert, die vom BCI
detektiert werden. Problematisch könnte es dabei sein, dass diese EKPs erst
durch viele Messwiederholungen und Mittelung detektiert werden können, wobei
die schnelle Steuerung eines BCIs eher auf wenigen zur Verfügung stehenden
Daten beruht. Die zuverlässige Dekodierung aus dem EEG ist daher schwierig,
denn das Signal einer Einzelmessung ist schwach im Vergleich zum Rauschen. Hinzu
kommt, dass EKPs theoretisch räumlich und zeitlich gut definiert sind,
praktisch aber nicht zwingend klar ist, in welchem Kanal man welche typische
Veränderung des Oberflächenpotenzials bei individuellen Probanden
erwarten kann. Für die Dekodierung ist es aber wichtig, möglichst
informative Merkmale aus dem EEG zu extrahieren und redundante sowie irrelevante
Merkmale zu verwerfen. Häufig werden die Merkmale hypothesengetrieben
selektiert. Beispielsweise werden bekannte Charakteristika der P300 angewandt, um
den EEG-Kanal und das Intervall zu definieren, in denen ein Unterschied erwartet
wird, wenn ein Nutzer auf einen selten präsentierten Zielstimulus achtet.
Möglicherweise ist aber das EKP komplexer und enthält weitere
Charakteristika, die zu einer verlässlicheren Dekodierung führen.
Daher wird häufig eine Extraktion von Merkmalen bevorzugt, die es erlaubt,
aus den Daten zu lernen, welche Merkmale für die Dekodierung informativ
sind. Beispielsweise gibt es verschiedene Ansätze, individuelle
Kanäle zu selektieren, die vielversprechend für die Dekodierung sind
[2]
[3]
[4].
Ein anderer Ansatz, die Anzahl der Kanäle zu reduzieren, ist die Verwendung
von räumlichen Filtern. Dabei werden die Kanäle so gewichtet, dass
die Linearkombination der gemessenen Werte in den Kanälen, also die Summe
der gewichteten Messwerte, den Wert eines neuen, virtuellen Kanals ergibt. Diese
Vorgehensweise bringt verschiedene Vorteile. I) Relevante Kanäle bekommen
ein hohes Gewicht, unrelevante Kanäle bekommen sehr kleines Gewicht, was
einer Kanalselektion ähnelt. II) Common-mode Noise (Rauschen, das in allen
Kanälen auftritt) kann durch entgegengesetzte Gewichtung unrelevanter
Kanäle entfernt werden. III) Potenziale, die sich über mehrere
Kanäle verteilen, was bei Oberflächen EEG durchaus üblich
ist, können durch Superposition mehrerer Kanäle verstärkt
werden, bzw. kann unspezifische Aktivität wie Rauschen unterdrückt
werden. IV) Ein einzelner räumlicher Filter, also eine Kombination von
Kanalgewichtungen reduziert das gesamte EEG auf einen Kanal. Üblicherweise
werden einige wenige solcher, voneinander verschiedene Kanalgewichtungen angewandt,
was die Anzahl der Kanäle deutlich reduziert. Ein Beispiel für einen
räumlichen Filter ist der Laplace Filter, bei dem das Signal eines Kanals
lokal verstärkt wird, indem benachbarte Kanäle negativ gewichtet
werden, d. h. jeder Kanal wird durch einen eigenen räumlichen Filter
bereinigt.
Die Schwierigkeit, mithilfe von räumlichen Filtern ein möglichst
informatives Signal für eine Detektion zu extrahieren, ist, eine optimale
Gewichtung aller Kanäle zu bestimmen. Häufig kommen dafür
Verfahren der Stochastik zum Einsatz. Ein Beispiel ist die in BCI Anwendungen
häufig verwendete Common Spatial Pattern (CSP) Methode, bei der eine
Gewichtung der Kanäle bestimmt wird, die die Varianz unter einer ersten
Experimentalbedingung maximiert und gleichzeitig für eine zweite
Experimentalbedingung minimiert (für Details siehe [5]) und sich besonders für die Detektion
von motorischer Vorstellung bewährt hat, die häufig für die
Steuerung von BCIs verwendet wird [6].
In diesem Artikel stellen wir ein Verfahren vor, mit dem räumliche Filter
anhand gemessener EEG Daten bestimmt werden, die wir dann für die Detektion
von EKPs verwenden. Wir zeigen, dass mit diesem Verfahren eine hohe Genauigkeit bei
der Dekodierung von spezifischer Information im EEG, die für die Steuerung
eines BCIs notwendig ist, erzielt werden kann. Außerdem ist das Verfahren
geeignet, aus beliebigen anderen EKP Untersuchungen datengetrieben differentielle
EEG Komponenten zu extrahieren, was für eine Anwendung im klinischen Kontext
von großem Interesse ist.
Material und Methoden
Datenakquise
Die EEG-Daten für die hier gezeigte Analyse wurden simultan in einer MEG
(Magnetoenzephalografie) Studie erhoben, in der 19 gesunde Probanden teilnahmen.
Die Aufgabe der Probanden war es, eines von 12 mit gleichem Abstand zu einem
Fixationspunkt angeordnete Objekte zu beachten, wobei Augenbewegungen vermieden
werden sollten. Die Objekte wurden mit visuellen Stimuli in zufälliger
Reihenfolge hervorgehoben, was dazu führt, dass bei visueller
Stimulation des Objektes, das beachtet wird, als typisches EKP eine P300
hervorgerufen wird. Dieses wird in unserer Studie anhand von
Magnetfeldänderungen über dem Kopf detektiert. Das P300 Signal,
welches bei Präsentation des Zielstimulus eine erhöhte Amplitude
aufweist, wird häufig zur Steuerung von BCIs genutzt [7]. Der Ablauf des Experiments ist in [Abb. 1] dargestellt. Eine detailierte
Beschreibung findet sich in [8].
Abb. 1 Die Studienteilnehmer haben am Beginn eines Trials selbst
entschieden, welches der 12 Objekte sie mit ihrem Aufmerksamkeitsfokus
wählen wollen. Anschließend wurde innerhalb von 10
Sekunden jedes Objekt einzeln in zufälliger Reihenfolge 5-mal
mit einem visuellen Stimulus hinterlegt. An der vom BCI ermittelten
wahrscheinlichsten Position wurde ein Ring angezeigt und die Richtigkeit
des Feedbacks mittels Tastendruckes abgefragt. Bei falschem Feedback
wurde die Abfrage mit der nächstwahrscheinlichsten Position
fortgesetzt, bis die eigentliche Zielposition ermittelt wurde.
Das EEG wurde nach einem erweiterten 10–20 System mit insgesamt 29
Ag/AgCl-Elektroden abgeleitet und mit einem EPA-6 Verstärker der Firma
Sensorium bei einer Abtastfrequenz von 508,63 Hz digitalisiert. Alle
Kanäle wurden gegen Mittelwert des rechten und linken Mastoiden
referenziert. Die Impedanzen wurden unter 5 kΩ gehalten.
Außerdem wurde ein horizontales/vertikales EOG (Elektrookulogramm)
aufgezeichnet, um Augenbewegungen zu überwachen.
Datenvorverarbeitung
Die EEG Daten wurden mit einem FIR Bandpassfilter (0,25–15 Hz)
gefiltert und die Abtastrate nach der Aufzeichnung auf 254,3 Hz
reduziert. Anschließend wurden Epochen mit einer Dauer von
800 ms, beginnend nach Präsentation eines Stimulus extrahiert.
Eine Epoche ist demnach eine Matrix der Größe
n×k, wobei n die Anzahl der Abtastpunkte innerhalb des
Analyseintervalls und k die Anzahl der Kanäle ist. In jedem Trial
wurde jedes der 12 Objekte genau 5-mal durch einen Strimulus (kurzzeitiges
Aufhellen des Hintergrundes) hervorgehoben. Epochen, die einem Stimulus des
Objektes folgen, auf das der Proband seine Aufmerksamkeit gelenkt hat, nennen
wir Targetepochen, alle anderen Standardepochen. Um ein ausgeglichenes
Verhältnis der Anzahl von Target- und Standardepochen zu erreichen,
beziehen wir nur die Standardepochen ein, die dem Objektstimulus
gegenüberliegend des Zielreizes folgen.
Bestimmung optimaler räumlicher Filter
In einem datengetriebenen Dekodierungsansatz wollen wir eine optimale Gewichtung
der EEG Kanäle finden, um die Unterschiede zwischen Standard- und
Targetepochen möglichst effektiv aus einer Menge Trainingsdaten zu
lernen. Dafür verwenden wir die kanonische Korrelationsanalyse (engl.:
canonical correlation analysis; CCA) [9].
Dieses statistische Verfahren, analysiert den Zusammenhang zwischen 2
Variablenmengen X und Y, indem Gewichtsvektoren a und
b für die Variablenmengen derart bestimmt werden, dass die
resultierenden Linearkombinationen Xa und Yb maximal miteinander
korrelieren. Die CCA wurde erstmals bei BCIs eingesetzt, die darauf abzielen,
Steady-state visuell evozierte Potenziale (SSVEPs) aus dem EEG zu dekodieren
[10]. Hierfür bilden die EEG Daten
die erste Variablenmenge und eine Kombination aus Sinus- und Cosinusfunktionen,
die die Stimulationsfrequenz modellieren, die zweite Variablenmenge. Die CCA
kombiniert die Modellfunktionen so, dass eine Sinusschwingung mit an die SSVEPs
angepasster Phase resultiert. Gleichzeitig werden Kanäle, die diese
Schwingung enthalten hoch gewichtet und miteinander kombiniert, sodass die SNR
erhöht wird. Sinusschwingungen sind für EKP Analysen jedoch
wenig hilfreich, weshalb andere Modellfunktionen definiert werden
müssen.
Wir nehmen an, dass der zeitliche Verlauf eines EKPs immer an einen festen
Zeitpunkt, dem Präsentationsbeginn des Stimulus, gekoppelt ist. Wir
legen fest, dass jedem abgetasteten Zeitpunkt einer Targetepoche eine eigene
Modellfunktion zugeordnet wird, die diesen Zeitpunkt frei skalierbar macht.
Setzen wir den Wert am i-ten Abtastpunkt einer Epoche in der i-ten
Modellfunktion also 1, alle anderen Werte 0. In Matrixschreibweise entspricht
das der Einheitsmatrix In
der Größe n. Gleichermaßen setzen wir die
Menge der Modellfunktionen für eine Standardepoche auf
−In
. Die Idee dabei ist, Signale aus Standardepochen gegen Signale aus
Targetepochen zu gewichten und zu erreichen, dass Aktivierungen, die bei
Standard und Targetpräsentation gleichermaßen auftreten,
ignoriert werden. Um nun die Matrizen für die CCA zu generieren,
verketten wir alle Epochen der Trainingsmenge zu einer Matrix X mit
k Spalten und analog die zugehörigen Modellfunktionen zu
einer Matrix Y mit n Spalten. Eine interessante Eigenschaft dieser
Menge von Modellfunktionen ist, dass das Produkt X
T
Y, gewichtet mit der Anzahl der Targetepochen, den Differenzwellen aus
gemittelten Targetepochen und gemittelten Standardepochen entspricht.
Analysieren wir X undY nun mit einer CCA, bestimmt diese die
Komponenten, die den Unterschied zwischen Standard- und Targetepochen am besten
repräsentieren. Der Gewichtsvektor a, der X linear
kombiniert, entspricht einem räumlichen Filter, den wir im Sinne der
Korrelation mit Yb als optimal betrachten können. Die kanonische
Komponente wird direkt durch den Gewichtsvektor b repräsentiert,
da dessen Linearkombination mit den Modellfunktionen der Targetepochen
Inb=b ergibt. Die CCA ermittelt sukzessiv
weitere Komponenten, bis eine der Variablenmengen keine Restvarianz mehr
aufweist. Für das weitere Vorgehen der Dekodierung von EKPs benutzen wir
nur Komponenten mit signifikanten kanonischen Korrelationen (p<0,05),
mindestens aber 2 Komponenten.
Dekodierung mittels optimaler räumlicher Filter
Die optimalen räumlichen Filter haben wir aus einer Menge von
Trainingsdaten bestimmt. Nun werden die Gewichtsvektoren a und b
auf EEG Daten angewandt, die nicht im Trainingsdatensatz enthalten waren.
Mithilfe des resultierenden Signals ermitteln wir, auf welches von 12 Objekten
der Proband seine Aufmerksamkeit gelenkt hat. Dafür werden alle 5
Epochen, die auf den Stimulus eines potenziellen Zielreizes innerhalb eines
Trials folgen, miteinander zu einer Matrix mit k Spalten verkettet und
mit a multipliziert. Gleichermaßen wird die Menge der
Modellfunktionen für Targetepochen In
fünffach zu einer Matrix mit n Spalten verkettet.
Anschließend wird die Produkt-Moment Korrelation der resultierenden
Vektoren der Länge 5n berechnet. Dies wird für alle
Komponenten, die in der CCA das Signifikanzniveau erreicht haben, wiederholt und
der Mittelwert aller Korrelationskoeffizienten bestimmt. Das Objekt, das den
höchsten mittleren Korrelationskoeffizienten bewirkt, wird als Objekt
des Zielstimulus klassifiziert.
Um die Performanz dieses Dekodierungsalgorithmus zu testen, bedienen wir uns der
Kreuzvalidierung, bei der jeweils ein Durchgang (12 Trials) als Testdatensatz
verwendet wird und alle anderen Durchgänge als Trainingsdatenmenge
dienen.
Ergebnisse
Die Dekodierung der EEG Signale, die es ermöglicht zu bestimmen, auf welches
von 12 Objekten ein Proband seine Aufmerksamkeit lenkt, ergab eine Genauigkeit von
durchschnittlich 89,3% (σ=9,2%). Die
Dekodierungsgenauigkeit aller Probanden lag deutlich über dem Rateniveau von
8,3% und bei 7 Probanden sogar über 95%. Mit einem
Permutationstest, bei dem wir die Klassifikation 500 mal pro Proband mit
zufälliger Zuordnung des Zielreizes zu den Trials wiederholt haben, haben
wir außerdem das Konfidenzintervall bestimmt, das angibt, welche
Dekodierungsgenauigkeit man mit diesem Klassifikationsschema durch Zufall erreichen
kann. Die Analyse ergab, dass die Wahrscheinlichkeit, Dekodierungsgenauigkeiten
über 12,7% zu erreichen, unter 5% liegt,
Dekodierungsgenauigkeiten über 16,5% zu erreichen, unter
0,1%.
In [Abb. 2] sind beispielhaft die ersten 2
kanonischen Komponenten dargestellt, die hauptsächlich zur Dekodierung der
EKPs beitragen. Wir vergleichen die beiden Komponenten mit den Differenzwellen an
Cz
und PO7. Es fällt auf, dass die ersten beiden kanonischen Komponenten mit
der Differenzwelle an Cz, wo typischerweise das P300 Potenzial gemessen wird, und
an
PO7, wo typischerweise für Diskriminierungsprozesse relevante N1/N2
Komponenten zu finden sind, signifikant korrelieren. Die Komponente mit dem
höchsten kanonischen Korrelationskoeffizienten (1. kanonische Komponente)
korreliert nicht notwendigerweise mit dem P300 Potenzial. Man beachte, dass die
kanonischen Komponenten individuell sehr unterschiedlich aussehen können und
hier nur einzelne Beispiele dargestellt sind.
Abb. 2 Die Diagramme zeigen die ersten 2 kanonischen Komponenten und
die Differenzwelle zwischen Target- und Standardepochen an PO7 und Cz. Die
Korrelationskoeffizienten ρ geben die Produkt-Moment
Korrelation zwischen den gezeigten Zeitreihen an. Die Topografien zeigen die
Verteilung der Differenzwellen über dem Kopf zu dem Zeitpunkt, der
im Diagramm mit einer senkrechten Strichlinie gekennzeichnet ist. a
zeigt die Gruppenanalyse, b zeigt einen Probanden mit vergleichsweise
geringer Dekodierungsgenauigkeit (70,9%) und c zeigt einen
Probanden mit vergleichsweise hoher Dekodierungsgenauigkeit
(96,1%).
Die hohe Korrelation der Komponenten mit Cz und PO7 suggeriert, dass es hinreichend
sein könnte, direkt die Signale an Cz und PO7 als Komponente zu betrachten
und mit deren Differenzwelle, die aus einer Trainingsmenge bestimmt wurde, zu
korrelieren, um den Zielreiz zu bestimmen. Dies haben wir getestet und haben eine
mittlere Dekodierungsgenauigkeit von 56,5% (σ=12,9%)
an Cz, von 47,8% (σ=15,3%) an PO7 und von
63,1% (σ=13,6%), wenn beide Kanäle als
Komponenten involviert sind, erreicht. Alle Ergebnisse unterscheiden sich
statistisch signifikant von der erreichten Dekodierungsgenauigkeit mittels optimaler
räumlicher Filter. Ein Überblick über die Ergebnisse ist in
[Tab. 1] dargestellt.
Tab. 1 Im Durchschnitt erreichte Dekodierungsgenauigkeit mit
Komponenten aus räumlicher Filterung (mittels CCA) und an
einzelnen Standardpositionen.
Herkunft des EKP
|
CCA
|
Cz
|
PO7
|
Cz & PO7
|
Mittlere Dekodierungsgenauigkeit (%)
|
89,3
|
56,5
|
47,8
|
63,1
|
Standardabweichung
|
9,2
|
12,9
|
15,3
|
13,6
|
Diskussion
Wir haben hier ein Verfahren vorgestellt, mit dem man aus dem EEG Komponenten
extrahieren kann, die den Unterschied zweier Experimentalbedingungen optimal
repräsentieren. Dabei lernt der Algorithmus aus einer Menge vieler
Messbeispiele, wie die Signale aller Elektroden kombiniert werden müssen.
Wir haben gezeigt, dass man mit den so ermittelten räumlichen Filtern
effizient Aufmerksamkeitspotenziale detektieren kann, was eine zuverlässige
Steuerung eines BCIs erlaubt. Besonders bemerkenswert ist, dass unser Ansatz
unabhängig von Augenbewegungen ist und daher für Patientengruppen
interessant, die infolge einer Motoneuron- Erkrankung auch
Beeinträchtigungen der Augenmuskeln zeigen. Wie in einem
Übersichtsartikel über BCIs, die unabhängig von
Augenbewegungen sind, berichtet wurde, erreichen andere Ansätze oft deutlich
geringere Dekodierungsraten [11]. Ein Ansatz, der
auf zentral schnell präsentierte, visuelle Stimuli setzt, erreicht zwar eine
Erkennungsrate von über 95%, aber die Stimulationszeit ist hier
deutlich länger [12]. Nicht nur
für betroffene Patienten und deren Angehörige kann ein BCI-basiertes
Kommunikationssystem eine wichtige Erleichterung sein, auch Ärzte
könnten davon profitieren, Symptomatiken einer Krankheit zu erfahren, die
sonst unmöglich mitzuteilen sind.
Mithilfe der relevantesten aus Beispieldaten geschätzten räumlichen
Filter konnten wir neue Komponenten extrahieren, deren Verlauf den
größten Unterschied der unterliegenden Hirnprozesse kennzeichnet. Es
hat sich gezeigt, dass die für die Unterscheidung von Target- und
Standardtrials relevantesten Komponenten hohe Korrelationen mit den Differenzwellen
an den Standardelektrodenpositionen Cz, mit dem typischen Verlauf des P300
Potenzials, und PO7, mit einer Modulation der N1/N2 zeigt. Das P300
Potenzial, das typischerweise nach Wahrnehmung eines abweichenden Stimulus am Vertex
gemessen werden kann, wurde vor mehr als 30 Jahren erstmals für eine
Kommunikation mittels BCI eingesetzt [13]. Die
Relevanz der parieto-okzipitalen N1/N2 Komponenten lässt sich nicht
nur durch Studien der visuellen Aufmerksamkeit erklären, die diesem
Potenzial eine Beteiligung an frühen Selektionsprozessen [14] und Diskriminationsprozessen [15] zuschreiben. Sie wurden auch in anderen
P300-basierten BCI Studien als relevantes Merkmal identifiziert [12]
[16].
Das hier vorgestellte Verfahren ist also in der Lage, selbständig die
Elektroden so zu gewichten, dass Unterschiede in den Hirnantworten zweier
experimenteller Bedingungen als neue Komponente hervorgehen. Prinzipiell
könnte diese Komponete das Signal einer Quelle im Gehirn darstellen, denn
auch die Rekonstruktion von Quellen kann als räumlicher Filter betrachtet
werden, bei der eine spezielle Montage, also Gewichtung von Kanälen
für die Transformation in den Quellenraum verwendet wird [17]. Allerdings werden hier keine anatomischen
Gegebenheiten berücksichtigt, sodass jede Komponente auch aus einer
Kombination mehrerer Quellen bestehen kann und somit räumlich-zeitlich
unterschiedliche Hirnprozesse reflektieren kann. Sofern also nicht die genaue
Lokalisation eines Hirnprozesses, sondern die Existenz event-korrelierter Potenziale
untersucht werden soll, ist dieses Verfahren durchaus auch für klinische
Anwendungen geeignet. Beispielsweise stellt die Dekodierungsgenauigkeit eine einfach
interpretierbare Evaluierungsgröße dar, mit der man die
Präsenz einer Hirnantwort auf einen Reiz quantitativ bewerten
könnte.
Mit der hier vorgestellten Methode haben wir gezeigt, wie
Gehirnaktivität, die sich als event-korreliertes Potenzial im EEG
widerspiegelt, mit statistischen Lernmethoden entschlüsselt werden kann.
Die erlernten Zusammenhänge haben wir genutzt, um effizient aus dem EEG
die Aufmerksamkeit auf einen in der Peripherie des visuellen Feldes
präsentierten, visuellen Stimulus mit hoher Genauigkeit zu erkennen.
Unser Ansatz ermöglicht eine von Augenbewegungen unabhängige
Steuerung eines BCIs, wovon Patienten mit schweren motorischen Defiziten
profitieren können. Die datengetriebene Analyse von
Gehirnaktivität ist nicht nur bei der Steuerung eines BCIs anderen
Ansätzen überlegen, man kann damit auch Fragestellungen des
klinischen EEGs adressieren.