Article
KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten
Search Medline for
Authors
Published: | March 18, 2025 |
---|
Outline
Text
Fragestellung: Das Cocktail-Party-Problem beschreibt die Schwierigkeit, eine einzelne Sprachquelle in einer Umgebung mit mehreren Sprechern und Hintergrundgeräuschen zu isolieren. Für Menschen mit Hörbeeinträchtigungen ist dies eine besonders große Herausforderung, da traditionelle Hörgeräte Probleme mit diesem Szenario haben. Das Poster zeigt, wie „Single-Channel Blind Source Separation“ mit Hilfe von KI-Modellen (SepFormer [1] und TDANet [2]) das Sprachverständnis verbessern kann.
Methoden: Für die Separation von Sprachquellen wurden die neuronalen Netzwerkmodelle SepFormer und TDANet angewendet, die speziell für die Trennung von mehreren Sprecherstimmen aus einem einzigen Audiokanal entwickelt wurden. Die Algorithmen wurden mit englischsprachigen Datensätzen trainiert und auf deutschsprachige Testdaten angewandt, was sehr gute Ergebnisse lieferte. Die Leistung der Modelle wurde anhand von Metriken wie Short-Time Objective Intelligibility (STOI) und Perceptual Evaluation of Speech Quality (PESQ) evaluiert, um eine objektive Vergleichbarkeit zu gewährleisten.
Ergebnisse: Die Ergebnisse zeigen, dass beide Modelle in der Lage sind, zwei Sprachquellen mit hoher Genauigkeit aus einem einkanaligen Eingangssignal zu trennen, auch unter schwierigen akustischen Bedingungen mit zusätzlichen Störgeräuschen. Obwohl das SepFormer-Modell mit 20 Millionen Parametern die zehnfache Größe hat, werden mit dem TDANet (2 Millionen Parameter) bessere STOI- und PESQ-Werte erzielt. Die Separierung zweier deutschsprachiger Sprecher aus einem 16 kHz Monosignal gelingt mit einem PESQ von bis zu 2,7 und einem STOI von bis zu 0,96. In der subjektiven Wahrnehmung verbessern beide Modelle das Sprachverständnis deutlich. Aus technischer Sicht ist das TDANet wegen der geringeren Parameteranzahl zu bevorzugen.
Schlussfolgerungen: Die Anwendung von KI-basierten Ansätzen wie SepFormer und TDANet bietet vielversprechende Lösungen für das Cocktail-Party-Problem, insbesondere für hörbeeinträchtigte Menschen. Diese Technologien könnten in zukünftigen Hörgeräten Anwendung finden, welche durch ein besseres Hörerlebnis die Lebensqualität der Betroffenen erheblich steigern könnten. Weitere Untersuchungen sind erforderlich, um die Echtzeitfähigkeit und Integration in tragbare Geräte zu realisieren.
Abbildung 1 [Abb. 1]
Literatur
- 1.
- Subakan C, Ravanelli M, Cornell S, Bronzi M, Zhong J. Attention is all you need in speech separation. arxiv. 2021. Verfügbar unter: https://arxiv.org/abs/2010.13154
- 2.
- Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv. 2022. Verfügbar unter: https://arxiv.org/abs/2209.15200