gms | German Medical Science

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28.09. - 01.10.2023, Köln

Machine Learning gestützte Analyse des Auditiven Motokontrollsystems der Sprache bei schwerhörigen Sprechern

Poster

  • corresponding author presenting/speaker Benjamin Peschel - Universitätsklinikum Erlangen, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • Tony Schelhorn - Universitätsklinikum Erlangen, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Abteilung für Audiologie, Erlangen, Deutschland
  • Michael Döllinger - Universitätsklinikum Erlangen, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • Defne Abur - University of Groningen, Center for Language and Cognition, Groningen, Niederlande
  • Elmar Noeth - Friedrich-Alexander-Universität Erlangen-Nürnberg, Department für Informatik, Lehrstuhl für Pattern Recognition, Erlangen, Deutschland
  • Ulrich Hoppe - Universitätsklinikum Erlangen, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Abteilung für Audiologie, Erlangen, Deutschland

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Köln, 28.09.-01.10.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP6

doi: 10.3205/23dgpp14, urn:nbn:de:0183-23dgpp140

Veröffentlicht: 20. September 2023

© 2023 Peschel et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: In dem von der DFG geförderten Projekt wird nicht nur untersucht wie sich Schwerhörigkeit (55-80db Hörverlust) auf das Einarbeiten gestörten auditiven Feedbacks während der Stimmproduktion auswirkt, sondern auch, ob die Störung dieses Feedbacks sich auf andere Teile des Motorkontrollsystem der Sprache (MdS) auswirkt.

Material und Methoden: Wir planen das MdS der Stimme mithilfe des Pitch Shift Reflexes (PSR) zu untersuchen. In diesem Experiment phonieren Teilnehmende (40 schwerhörig, 40 normalhörig) einen Model Laut, während ihnen ihre Stimme über schallisolierende Kopfhörer mit 70dB SPL vorgespielt wird. Das somit erzeugte künstliche Signal überschattet das über Luft- und Knochenleitung übertragene auditive Feedback. Anschließend wird in zufälligen Intervallen das Spektrum des Signals um 200cents angehoben. Die Reaktion, PSR, wurde für Normalhörige bereits, sowohl in Tonhöhe (Shift folgend oder entgegengesetzt), EEG (Mismatch Negativity [MMN]) als auch endoskopischen Hochgeschwindigkeitsaufnahmen (HSV) der Glottis (Glottal Area Waveform [GAW]) experimentell beobachtet. Anschließend werden aus den Aufnahmen signalspezifische Parameter (SP), z.B. Cepstral Peak Prominence für die Stimme, MMN für EEG und GAW für HSV, berechnet. Anschließend werden die SP auf ihren Zusammenhang mit probandenspezifischen Parametern (PP), namentlich Grad, Fortschritt und Hörbereich der Schwerhörigkeit, Alter, Sprachverständlichkeit und differentielle Wahrnehmbarkeitsschwelle, durch lineare Regression, Korrelationsanalyse und Boosted Decision Stumps untersucht. Darüber hinaus werden Encoder-Decodernetzwerke angewandt um die Aufnahmen auf abstrakte Features (AF) zu reduzieren. Diese werden ebenfalls mit den PP korreliert um komplexere Zusammenhänge offen zu legen.

Ergebnisse: Wir werden nach Durchführung der Studie den Einfluss jedes PP auf die bekannten und unbekannten Aspekte des MdS, dargestellt durch SP und AF, genau quantifizieren können.

Diskussion: Die für das MdS als besonders einflussreich quantifizierten PP bieten somit neue Ziele für Hörversorgung und die SP für Sprachtherapie.

Fazit: Die hohe Teilnehmerzahl von 80 Probanden, welche je 20-mal den Pitch Shift in einem Zeitfenster von 3,5s durchlaufen gepaart mit einer temporalen Auflösung von 20kHz wird zu einem umfangreichen Datensatz von hoher wissenschaftlicher Relevanz vor allem in Bezug auf maschinelles Lernen führen.


Text

Hintergrund

In dem von der DFG geförderten Projekt wird der Einfluss von mittel- bis hochgradiger Schwerhörigkeit (55-80 dB) auf das Motorkontrollsystem der Sprechfunktion (MdS) untersucht. Ein negativer Einfluss wird z.B. von den theoretischen Modellen Libermans vorhergesagt [1] und durch empirische Studien bei Menschen mit prälingual eingesetzter Schwerhörigkeit in allen Untersystemen der Stimme belegt [2]. Auch postlingual erworbene Schwerhörige beschreiben ihre eigene Stimme mit und ohne Hörversorgung häufiger als „metallisch“ und „fremd“ [3]. Dennoch ist das MdS Schwerhöriger wenig verstanden. So ist uns z.B. keine Untersuchung von Kompensationseffekten durch somatosensorisches Feedback, welche sich z.B. durch veränderte Kontrolle des Larynx manifestieren würden, bekannt. Ein multimodaler Messaufbau wird somit die Hypothese überprüfen, dass Schwerhörigkeit sich auf die neuronale Verarbeitung auditiven Feedbacks, die kinästhetische Kontrolle der Stimmlippen und die Phonierleistung der Probanden auswirkt. Darüber hinaus wird die These überprüft, dass probandenspezifische Parameter, i.e. Grad, Fortschritt und Hörbereich der Schwerhörigkeit, Alter, Sprachverständlichkeit und differentielle Wahrnehmbarkeitsschwelle, Art und Stärke dieses Einflusses genau definieren.

Material und Methoden

Wir planen das MdS mithilfe des Pitch Shift Reflexes (PSR) zu untersuchen. In diesem Experiment phonieren 80 Teilnehmende (40 schwerhörig, 40 normalhörig) einen Modellaut, während ihnen ihre Stimme über schallisolierende Kopfhörer laut (70dB) und mit rosa Rauschen unterlegt vorgespielt wird. Das somit erzeugte künstliche Signal überschattet das über Luft- und Knochenleitung übertragene auditive Feedback. Anschließend wird in zufälligen Intervallen mit Länge 2s das Frequenzspektrum des Signals digital um 200 Cents (zwei Halbtönen entsprechend) angehoben. Die Reaktion auf die manipulierte Rückkopplung wird als PSR bezeichnet. Die zeitlich genaue Anregung des MdS in Form des PSR erlaubt somit eine Quantifizierung der Unterschiede zwischen Schwerhörenden und Normalhörenden. Da der PSR bei Normalhörigen bereits in [4], sowohl in Tonhöhe (dem Shift folgend oder diesem entgegengesetzt), EEG (Mismatch Negativity [MMN]) als auch endoskopischen Hochgeschwindigkeitsaufnahmen (HSV) der Glottis (Glottal Area Waveform [GAW]) experimentell beobachtet wurde, werden wir diese drei Signalmodalitäten untersuchen (siehe Abbildung 1 [Abb. 1]). Anschließend werden aus den Aufnahmen signalspezifische Parameter, welche das MdS beschreiben, berechnet, wie die Cepstral Peak Prominence für die Stimme, MMN für EEG und GAW für HSV. Anschließend werden die signalspezifischen Parameter auf ihren Zusammenhang mit probandenspezifischen Parametern untersucht. Dies geschieht mit Hilfe linearer Regression, Korrelationsanalyse und Boosted Decision Stumps. Darüber hinaus werden Encoder-Decodernetzwerke angewandt um die Aufnahmen zu komprimieren und somit eine niedrigdimensionale Repräsentation zu erhalten. Die niedrigdimensionalen Repräsentationen werden ebenfalls mittels Korrelationsanalyse in Zusammenhang mit den probandenspezifischen Parametern gebracht, um komplexere Zusammenhänge zwischen Signalanomalien und probandenspezifischen Parametern offen zu legen.

Ergebnisse

Wir werden nach Durchführung der Studie den Einfluss jedes probandenspezifischen Parameters auf die bekannten und unbekannten Aspekte des MdS, jeweils dargestellt durch signalspezifische Parameter und niedrigdimensionalen Repräsentationen, genau quantifizieren können. Wir erwarten einen Abschluss der Studie im ersten Quartal des Jahres 2026.

Diskussion

Die hohe Teilnehmerzahl von 80 Probanden, welche je 20-mal den Pitch Shift in einem Zeitfenster von 3,5s durchlaufen gepaart mit einer temporalen Auflösung von 20kHz wird zu einem umfangreichen Datensatz von hoher wissenschaftlicher Relevanz vor allem in Bezug auf Machine Learning führen.

Fazit

Die für das MdS als besonders einflussreich quantifizierten probandenspezifischen Parameter bieten somit neue Ziele für Hörversorgung und die signalspezifischen Parameter für Sprech- und Stimmtherapie.

Förderung

Diese Arbeit wird von der Deutsche Forschungsgemeinschaft (DFG) unter Num. DO 1247/25-1 und Num. HO 2177/9-1 gefördert.


Literatur

1.
Liberman AM, Mattingly IG. The motor theory of speech perception revised. Cognition. 1985 Oct;21(1):1-36.
2.
Higgins MB, Carney AE, Schulte L. Physiological assessment of speech and voice production of adults with hearing loss. J Speech Hear Res. 1994 Jun;37(3):510-21.
3.
Hengen J, Hammarström IL, Stenfelt S. Perceived Voice Quality and Voice-Related Problems Among Older Adults With Hearing Impairments. J Speech Hear Res. 2018 Sep 19;61(9):2168-2178.
4.
Petermann S, Döllinger M, Kniesburges S, Ziethe A. Analysis Method for the Neurological and Physiological Processes Underlying the Pitch-Shift Reflex. Acta Acustica united with Acustica. 2016 Mar;102:284-297.