Article
Einkanalige DNN-Störgeräuschunterdrückung mit niedriger Latenz: Effekt auf das Sprachverstehen
Search Medline for
Authors
Published: | March 5, 2024 |
---|
Outline
Text
Im Gegensatz zu mehrkanaligen Störgeräuschunterdrückungsverfahren, die eine räumliche Trennung zwischen Ziel- und Störschall nutzen, steht einkanaligen Verfahren nur ein Monosignal zur Identifizierung und Abschwächung des Störgeräuschanteils zur Verfügung. „Klassische“ Algorithmen wie Spektrale Subtraktion oder Wiener-Filter, die seit vielen Jahren auch in Hörgeräten eingesetzt werden, ermöglichen dort zwar eine Erhöhung des Hörkomforts und der Akzeptanz in Störschall, aber keine substantielle Verbesserung der Sprachverständlichkeitsschwelle (SVS).
Für modernere Verfahren, die auf tiefen neuronalen Netzen (DNN) basieren, wurden dagegen signifikante Verbesserungen der SVS bei hörbeeinträchtigten Versuchspersonen erzielt. Viele dieser Verfahren arbeiten im Frequenzbereich, so dass eine blockweise Verarbeitung erforderlich ist, um die notwendige Frequenzauflösung zu erreichen. Die damit einhergehenden Verzögerungen von typischerweise 20 ms und mehr behindern den zukünftigen Einsatz in Hörgeräten, da hier eine Gesamtverzögerung von ca. 10 ms unterschritten werden sollte.
Für die hier vorgestellte Studie wird eine im Zeitbereich arbeitende, vortrainierte einkanalige DNN-Störgeräuschunterdrückung (Conv-TasNet) mit einer Verzögerung von lediglich 4 ms eingesetzt, so dass ein Einsatz in Hörgeräten prinzipiell möglich wäre. Die SVS von 20 Normal- und 19 Schwerhörenden wurde mit dem Oldenburger Satztest im Störschall (OlSa-Rauschen) mit und ohne Störgeräuschunterdrückung gemessen. Zusätzlich wurden objektive Maße (PESQ, STOI) eingesetzt, um das Sprachverstehen und die Sprachqualität in verschiedenen SNRs vorherzusagen.
Resultate: Während die Störgeräuschunterdrückung bei normalhörenden Versuchspersonen zu einer Verschlechterung der SVS um 0,8 dB (Median) führte, erreichten die schwerhörenden Versuchspersonen eine signifikante Verbesserung um 0,8 dB. In SNRs die höher als ca. -5 dB liegen, sagen PESQ und STOI ein mit Störgeräuschunterdrückung verbessertes Sprachverstenen und -qualität voraus.