gms | German Medical Science

27. Jahrestagung der Deutschen Gesellschaft für Audiologie
und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen

Deutsche Gesellschaft für Audiologie e. V. und ADANO

19. - 21.03.2025, Göttingen

KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten

Meeting Abstract

  • presenting/speaker Tom Berner - Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland
  • Niki K. Vavatzanidis - Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland
  • Tobias Reichenbach - Friedrich-Alexander-Universität Erlangen-Nürnberg, Professur für Sensorische Neurotechnologie, Erlangen, Deutschland
  • Anja Hahne - Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

Deutsche Gesellschaft für Audiologie e. V. und ADANO. 27. Jahrestagung der Deutschen Gesellschaft für Audiologie und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen. Göttingen, 19.-21.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc195

doi: 10.3205/25dga195, urn:nbn:de:0183-25dga1952

Veröffentlicht: 18. März 2025

© 2025 Berner et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Fragestellung: Das Cocktail-Party-Problem beschreibt die Schwierigkeit, eine einzelne Sprachquelle in einer Umgebung mit mehreren Sprechern und Hintergrundgeräuschen zu isolieren. Für Menschen mit Hörbeeinträchtigungen ist dies eine besonders große Herausforderung, da traditionelle Hörgeräte Probleme mit diesem Szenario haben. Das Poster zeigt, wie „Single-Channel Blind Source Separation“ mit Hilfe von KI-Modellen (SepFormer [1] und TDANet [2]) das Sprachverständnis verbessern kann.

Methoden: Für die Separation von Sprachquellen wurden die neuronalen Netzwerkmodelle SepFormer und TDANet angewendet, die speziell für die Trennung von mehreren Sprecherstimmen aus einem einzigen Audiokanal entwickelt wurden. Die Algorithmen wurden mit englischsprachigen Datensätzen trainiert und auf deutschsprachige Testdaten angewandt, was sehr gute Ergebnisse lieferte. Die Leistung der Modelle wurde anhand von Metriken wie Short-Time Objective Intelligibility (STOI) und Perceptual Evaluation of Speech Quality (PESQ) evaluiert, um eine objektive Vergleichbarkeit zu gewährleisten.

Ergebnisse: Die Ergebnisse zeigen, dass beide Modelle in der Lage sind, zwei Sprachquellen mit hoher Genauigkeit aus einem einkanaligen Eingangssignal zu trennen, auch unter schwierigen akustischen Bedingungen mit zusätzlichen Störgeräuschen. Obwohl das SepFormer-Modell mit 20 Millionen Parametern die zehnfache Größe hat, werden mit dem TDANet (2 Millionen Parameter) bessere STOI- und PESQ-Werte erzielt. Die Separierung zweier deutschsprachiger Sprecher aus einem 16 kHz Monosignal gelingt mit einem PESQ von bis zu 2,7 und einem STOI von bis zu 0,96. In der subjektiven Wahrnehmung verbessern beide Modelle das Sprachverständnis deutlich. Aus technischer Sicht ist das TDANet wegen der geringeren Parameteranzahl zu bevorzugen.

Schlussfolgerungen: Die Anwendung von KI-basierten Ansätzen wie SepFormer und TDANet bietet vielversprechende Lösungen für das Cocktail-Party-Problem, insbesondere für hörbeeinträchtigte Menschen. Diese Technologien könnten in zukünftigen Hörgeräten Anwendung finden, welche durch ein besseres Hörerlebnis die Lebensqualität der Betroffenen erheblich steigern könnten. Weitere Untersuchungen sind erforderlich, um die Echtzeitfähigkeit und Integration in tragbare Geräte zu realisieren.

Abbildung 1 [Abb. 1]


Literatur

1.
Subakan C, Ravanelli M, Cornell S, Bronzi M, Zhong J. Attention is all you need in speech separation. arxiv. 2021. Verfügbar unter: https://arxiv.org/abs/2010.13154 Externer Link
2.
Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv. 2022. Verfügbar unter: https://arxiv.org/abs/2209.15200 Externer Link