gms | German Medical Science

23. Jahrestagung der Deutschen Gesellschaft für Audiologie

Deutsche Gesellschaft für Audiologie e. V.

03.09. - 04.09.2020, Cologne (online conference)

Automatische Erkennung von Eigensprache zur Detektion von Kommunikationssituationen

Meeting Abstract

Search Medline for

  • presenting/speaker Jule Pohlhausen - Jade Hochschule Oldenburg, Oldenburg, Deutschland
  • Jörg Bitzer - Jade Hochschule Oldenburg, Oldenburg, Deutschland
  • Inga Holube - Jade Hochschule, Institut für Hörtechnik und Audiologie,, Oldenburg, Deutschland; Excellenzcluster Hearing4All

Deutsche Gesellschaft für Audiologie e.V.. 23. Jahrestagung der Deutschen Gesellschaft für Audiologie. Köln, 03.-04.09.2020. Düsseldorf: German Medical Science GMS Publishing House; 2020. Doc190

doi: 10.3205/20dga190, urn:nbn:de:0183-20dga1904

Published: September 3, 2020

© 2020 Pohlhausen et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Für Menschen, die auf eine Versorgung mit einem Hörgerät angewiesen sind, ist es essentiell wichtig, dass das Hörgerät nicht nur in der standardisierten Laborumgebung die gewünschte Unterstützung liefert, sondern insbesondere im Alltag eine zuverlässige Hilfe darstellt. Der Alltag umfasst dabei viele, unterschiedlich komplexe Kommunikationssituationen, mal ein Gespräch unter vier Augen in ruhiger Wohnumgebung, mal eine Gruppendiskussion im vollbesetzten Restaurant. Um diesen individuell geprägten Anforderungen gerecht zu werden, ist ein besseres Verständnis des Höralltags notwendig. Die Methode des Ecological Momentary Assessment (EMA) ermöglicht subjektive Bewertungen und objektive akustische Merkmale an Ort und Stelle aufzuzeichnen. In dieser Studie erfolgte die Datenerfassung mit dem Smartphone-basierten System olMEGA unter Verwendung von zwei in der Nähe der Ohren getragenen Mikrofonen. Die akustischen Merkmale wurden unter Berücksichtigung von § 201 StGB (Verletzung der Vertraulichkeit des Wortes) so entworfen, dass die Privatsphäre aller beteiligten Personen erhalten bleibt d.h. aus den aufgezeichneten Merkmalen keine verständliche Sprache rekonstruiert werden kann [1]. Die verwendeten Merkmale bestehen aus zeitlich geglätteten Auto- und Kreuzleistungsdichtespektren, der Nulldurchgangsrate und dem Kurzzeit-Pegel. Für eine robuste und exakte Analyse der aufgezeichneten Daten, z.B. für die Bestimmung des Pegels des Hintergrundgeräuschs während einer Kommunikationssituation, ist eine zuverlässige Erkennung der Eigensprache notwendig. Eigensprache sind diejenigen Zeitabschnitte, in denen der olMEGA-Träger selbst spricht. Die Detektion dieser Signalabschnitte erfolgt durch die Analyse der Kohärenz zwischen den Mikrofonsignalen, des Pegels und der harmonischen Struktur im Sprachbereich. Um das Set an charakteristischen Merkmalen zu verknüpfen, wurde aus dem Bereich des maschinellen Lernens das sogenannte Random-Forest-Verfahren bestehend aus mehreren Entscheidungsbäumen trainiert. Die Ergebnisse zeigen im Vergleich mit händisch annotierten Zeitsegmenten eine Eigensprachdetektionsrate für im Labor erstellte und im Alltag aufgezeichnete Daten von ca. 90 %. Das trainierte Random-Forest-Verfahren kann zudem zur Untersuchung von nicht annotierten Alltagsaufnahmen verwendet werden, um die Häufigkeit von Kommunikationssituationen im Alltag abzuschätzen.

Eine Langfassung des Beitrags erhalten Sie hier:

https://dga.cloud/s/yKMz5mc7M4aQH6d


Literatur

1.
Bitzer J, Kisser S, Holube I. Privacy-Aware Acoustic Assessments of Everyday Life. AES: Journal of the Audio Engineering Society. 2016; 64(6): 395–404. DOI: 10.17743/jaes.2016.0020 External link