Article
Automatische Erkennung von Eigensprache zur Detektion von Kommunikationssituationen
Search Medline for
Authors
Published: | September 3, 2020 |
---|
Outline
Text
Für Menschen, die auf eine Versorgung mit einem Hörgerät angewiesen sind, ist es essentiell wichtig, dass das Hörgerät nicht nur in der standardisierten Laborumgebung die gewünschte Unterstützung liefert, sondern insbesondere im Alltag eine zuverlässige Hilfe darstellt. Der Alltag umfasst dabei viele, unterschiedlich komplexe Kommunikationssituationen, mal ein Gespräch unter vier Augen in ruhiger Wohnumgebung, mal eine Gruppendiskussion im vollbesetzten Restaurant. Um diesen individuell geprägten Anforderungen gerecht zu werden, ist ein besseres Verständnis des Höralltags notwendig. Die Methode des Ecological Momentary Assessment (EMA) ermöglicht subjektive Bewertungen und objektive akustische Merkmale an Ort und Stelle aufzuzeichnen. In dieser Studie erfolgte die Datenerfassung mit dem Smartphone-basierten System olMEGA unter Verwendung von zwei in der Nähe der Ohren getragenen Mikrofonen. Die akustischen Merkmale wurden unter Berücksichtigung von § 201 StGB (Verletzung der Vertraulichkeit des Wortes) so entworfen, dass die Privatsphäre aller beteiligten Personen erhalten bleibt d.h. aus den aufgezeichneten Merkmalen keine verständliche Sprache rekonstruiert werden kann [1]. Die verwendeten Merkmale bestehen aus zeitlich geglätteten Auto- und Kreuzleistungsdichtespektren, der Nulldurchgangsrate und dem Kurzzeit-Pegel. Für eine robuste und exakte Analyse der aufgezeichneten Daten, z.B. für die Bestimmung des Pegels des Hintergrundgeräuschs während einer Kommunikationssituation, ist eine zuverlässige Erkennung der Eigensprache notwendig. Eigensprache sind diejenigen Zeitabschnitte, in denen der olMEGA-Träger selbst spricht. Die Detektion dieser Signalabschnitte erfolgt durch die Analyse der Kohärenz zwischen den Mikrofonsignalen, des Pegels und der harmonischen Struktur im Sprachbereich. Um das Set an charakteristischen Merkmalen zu verknüpfen, wurde aus dem Bereich des maschinellen Lernens das sogenannte Random-Forest-Verfahren bestehend aus mehreren Entscheidungsbäumen trainiert. Die Ergebnisse zeigen im Vergleich mit händisch annotierten Zeitsegmenten eine Eigensprachdetektionsrate für im Labor erstellte und im Alltag aufgezeichnete Daten von ca. 90 %. Das trainierte Random-Forest-Verfahren kann zudem zur Untersuchung von nicht annotierten Alltagsaufnahmen verwendet werden, um die Häufigkeit von Kommunikationssituationen im Alltag abzuschätzen.
Eine Langfassung des Beitrags erhalten Sie hier: