gms | German Medical Science

22. Jahrestagung der Deutschen Gesellschaft für Audiologie

Deutsche Gesellschaft für Audiologie e. V.

06.03. - 09.03.2019, Heidelberg

Tiefes maschinelles Lernen zur Modellierung der Hörwahrnehmung: white, gray, or black boxes?

Meeting Abstract

Suche in Medline nach

  • presenting/speaker Bernd T. Meyer - Universität Oldenburg, Oldenburg, Deutschland

Deutsche Gesellschaft für Audiologie e.V.. 22. Jahrestagung der Deutschen Gesellschaft für Audiologie. Heidelberg, 06.-09.03.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. Doc024

doi: 10.3205/19dga024, urn:nbn:de:0183-19dga0243

Veröffentlicht: 28. November 2019

© 2019 Meyer.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Die Verwendung von tiefem maschinellem Lernen hat zu großen Verbesserungen in der Musterkennung geführt, auch im Bereich der automatischen Spracherkennung, deren Robustheit durch Deep Neural Networks (DNNs) teilweise erheblich gesteigert werden konnte. Ein Kritikpunkt an diesem Ansatz ist eine Leistungssteigerung, die allein auf großen Datenmengen und vielen Ebenen in den Netzwerken beruht; die Frage warum ein System besser funktioniert ist scheinbar nicht relevant. In diesem Vortrag stelle ich Ansätze basierend auf aktuellen Spracherkennungssystemen vor, die als Modell für Sprachverständlichkeit, für subjektiv empfundene Höranstrengung und die Sprachqualität dienen. Obwohl diesen Modellen nur die verrauschte oder auf anderem Wege gestörte Sprache zugänglich ist, produzieren sie oftmals genauere Ergebnisse als etablierte Modelle, die sowohl die ungestörte Sprache als auch ein Störgeräusch als Eingangssignal verwenden. Die besten Vorhersagen werden mit akustisch plausiblen Modulationsmerkmalen erzielt. Zudem können die Eigenschaften der Modelle mit verschiedenen Methoden analysiert werden: Zum Beispiel kann die Wichtigkeit bestimmter Zeit-Frequenz-Muster, die in korrekter Klassifikation resultieren, bestimmt werden. So lässt sich zeigen, dass die künstlichen Netzwerke im modulierten Störgeräusch Strategien wie listening in the dips anwenden und damit ähnliche Merkmale wie normalhörende Menschen nutzen.