GMS | 27. Jahrestagung der Deutschen Gesellschaft für Audiologie und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen | KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten

27. Jahrestagung der Deutschen Gesellschaft für Audiologie
und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen

Deutsche Gesellschaft für Audiologie e. V. und ADANO

19. - 21.03.2025, Göttingen

Article

XML version

Send article

KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten

Meeting Abstract

Search Medline for

Tom Berner - Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland
Niki K. Vavatzanidis - Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland
Tobias Reichenbach - Friedrich-Alexander-Universität Erlangen-Nürnberg, Professur für Sensorische Neurotechnologie, Erlangen, Deutschland
Anja Hahne - Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

Deutsche Gesellschaft für Audiologie e. V. und ADANO. 27. Jahrestagung der Deutschen Gesellschaft für Audiologie und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen. Göttingen, 19.-21.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc195

doi: 10.3205/25dga195, urn:nbn:de:0183-25dga1952

Published:	March 18, 2025

© 2025 Berner et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.

Outline

Text

Fragestellung: Das Cocktail-Party-Problem beschreibt die Schwierigkeit, eine einzelne Sprachquelle in einer Umgebung mit mehreren Sprechern und Hintergrundgeräuschen zu isolieren. Für Menschen mit Hörbeeinträchtigungen ist dies eine besonders große Herausforderung, da traditionelle Hörgeräte Probleme mit diesem Szenario haben. Das Poster zeigt, wie „Single-Channel Blind Source Separation“ mit Hilfe von KI-Modellen (SepFormer [1] und TDANet [2]) das Sprachverständnis verbessern kann.

Methoden: Für die Separation von Sprachquellen wurden die neuronalen Netzwerkmodelle SepFormer und TDANet angewendet, die speziell für die Trennung von mehreren Sprecherstimmen aus einem einzigen Audiokanal entwickelt wurden. Die Algorithmen wurden mit englischsprachigen Datensätzen trainiert und auf deutschsprachige Testdaten angewandt, was sehr gute Ergebnisse lieferte. Die Leistung der Modelle wurde anhand von Metriken wie Short-Time Objective Intelligibility (STOI) und Perceptual Evaluation of Speech Quality (PESQ) evaluiert, um eine objektive Vergleichbarkeit zu gewährleisten.

Ergebnisse: Die Ergebnisse zeigen, dass beide Modelle in der Lage sind, zwei Sprachquellen mit hoher Genauigkeit aus einem einkanaligen Eingangssignal zu trennen, auch unter schwierigen akustischen Bedingungen mit zusätzlichen Störgeräuschen. Obwohl das SepFormer-Modell mit 20 Millionen Parametern die zehnfache Größe hat, werden mit dem TDANet (2 Millionen Parameter) bessere STOI- und PESQ-Werte erzielt. Die Separierung zweier deutschsprachiger Sprecher aus einem 16 kHz Monosignal gelingt mit einem PESQ von bis zu 2,7 und einem STOI von bis zu 0,96. In der subjektiven Wahrnehmung verbessern beide Modelle das Sprachverständnis deutlich. Aus technischer Sicht ist das TDANet wegen der geringeren Parameteranzahl zu bevorzugen.

Schlussfolgerungen: Die Anwendung von KI-basierten Ansätzen wie SepFormer und TDANet bietet vielversprechende Lösungen für das Cocktail-Party-Problem, insbesondere für hörbeeinträchtigte Menschen. Diese Technologien könnten in zukünftigen Hörgeräten Anwendung finden, welche durch ein besseres Hörerlebnis die Lebensqualität der Betroffenen erheblich steigern könnten. Weitere Untersuchungen sind erforderlich, um die Echtzeitfähigkeit und Integration in tragbare Geräte zu realisieren.

Abbildung 1 [Abb. 1]

Outline

Literatur

1.: Subakan C, Ravanelli M, Cornell S, Bronzi M, Zhong J. Attention is all you need in speech separation. arxiv. 2021. Verfügbar unter: https://arxiv.org/abs/2010.13154
2.: Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv. 2022. Verfügbar unter: https://arxiv.org/abs/2209.15200

gms | German Medical Science

27. Jahrestagung der Deutschen Gesellschaft für Audiologie
und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen

Article

KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten

Search Medline for

Authors

Outline

Text

Literatur

gms | German Medical Science

27. Jahrestagung der Deutschen Gesellschaft für Audiologieund Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen

Article

KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten

Search Medline for

Authors

Outline

Text

Literatur

27. Jahrestagung der Deutschen Gesellschaft für Audiologie
und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen