Article
Bestimmung des Signal-Rausch-Abstands zur Sprachverstehensschwelle aus EEG-Daten mittels Deep Learning
Search Medline for
Authors
Published: | March 5, 2024 |
---|
Outline
Text
Fragestellung: Die Bestimmung der Sprachverstehensschwelle (SVS) im Oldenburger Satztest (OlSa) [1], definiert als Signal-Rausch-Abstand, welcher zu 50%-igem Sprachverstehen von Zufallssätzen in Rauschen führt, bedarf aktiver Teilnahme der getesteten Person. In [2] wurde bereits, während des Hörens von Sprache in Rauschen, mittels Berechnung der Transferfunktion aus Elektroenzephalogramm (EEG) und gehörter Sprache, gezeigt, dass eine Sortierung verschiedener gehörter Rauschpegel aus objektiven Daten möglich ist (maximales Spearmans ρ=0,81, p<0,001 bei Elektrode CP3). In dieser Arbeit wird nun keine Sortierung des Rauschniveaus anhand von EEG-Daten mehr vorgenommen, sondern, mittels Deep Learning, alleinstehende Rauschniveaus relativ zur SVS vorhergesagt.
Methoden: Für jeden der 39 Probanden wird mittels eines adaptiven Verfahrens die individuelle SVS bestimmt [1]. Daraus werden pro Proband 7 individuelle Rauschniveaus (-4dB, -2dB,-0,5dB, +0,5dB, +2dB, +4 dB und „ohne Rauschen“) relativ zur SVS abgeleitet. Für jedes der 7 individuellen Rauschniveaus werden dem Probanden 150 verrauschte OlSa-Zufallssätze vorgespielt. Währenddessen wird die neuronale Reaktion auf die Sätze mittels 32 EEG-Kanälen aufgezeichnet. Der daraus generierte Datensatz wird gereinigt, herabgetaktet und beschädigte Aufnahmen (ca. 8% aller Aufnahmen) werden entfernt. Abschließend werden, bei gleichbleibendem Probanden und Rauschpegel, die einzelnen Aufnahmen zu zufälligen Durschnitten von 50 Aufnahmen neu kombiniert und zum Trainieren eines Convolutional Neural Network (CNN) genutzt. Das Bilden der Durchschnitte normalisiert die Daten und erschwert das Auswendiglernen des Datensatzes durch das CNN. Zum Trainieren und Evaluieren wird 4-fold Cross-validation genutzt, wobei die Probanden viermal in Trainings- und Evaluationsprobanden unterteilt werden.
Ergebnisse: Das CNN erreicht bei 4-fold Crossvalidation in 35% der Fälle eine korrekte Zuordnung der 7 Rauschparadigma, auf Probanden, welche nicht teil des Trainingsprozesse waren. Fasst man die 7 Gruppen weiter zusammen zu starkem Rauschen (-4dB, -2dB), SVS (-0,5dB, 0,5dB), wenig Rauschen (2dB, 4dB) und keinem Rauschen, so ergibt sich eine durchschnittliche Klassifikationsgenauigkeit von 58% (siehe Abbildung 1 [Abb. 1] für Details).
Schlussfolgerungen: Bereits ein relativ kleines Netz mit ca. 1,6×104 Parametern erlaubt auf dem relativ kleinen Datensatz bereits eine Klassifikation. Besonders das rauschfreie Paradigma kann gut erkannt werden.
Literatur
- 1.
- Kollmeier B, Warzybok A, Hochmuth S, Zokoll MA, Uslar V, Brand T, Wagener KC. The multilingual matrix test: Principles, applications, and comparison across languages: A review. Int J Audiol. 2015;54 Suppl 2:3-16. DOI: 10.3109/14992027.2015.1020971
- 2.
- Muncke J, Kuruvila I, Hoppe U. Prediction of Speech Intelligibility by Means of EEG Responses to Sentences in Noise. Front Neurosci. 2022 Jun 1;16:876421. DOI: 10.3389/fnins.2022.876421