gms | German Medical Science

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28.09. - 01.10.2023, Köln

Quantitative Bewertung von Heiserkeit mittels Machine Learning auf Basis von gehaltenen Vokalen

Vortrag

  • corresponding author presenting/speaker Tobias Schraut - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Anne Schützenberger - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Melda Kunduk - Department of Communication Sciences and Disorders, Louisiana State University, Baton Rouge, Vereinigte Staaten
  • Matthias Echternach - Abteilung Phoniatrie und Pädaudiologie, Klinik für Hals-Nasen-Ohrenheilkunde, LMU-Klinikum München, München, Deutschland
  • Michael Döllinger - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Köln, 28.09.-01.10.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV7

doi: 10.3205/23dgpp13, urn:nbn:de:0183-23dgpp138

Veröffentlicht: 20. September 2023

© 2023 Schraut et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Zusammenfassung

Hintergrund: Ziel des DFG-Projekts „Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie (HSV)“ ist die quantitative Bewertung funktioneller Stimmstörungen auf Basis von synchronen Video- und Audioaufnahmen während der gehaltenen Phonation. In dieser Studie wurden gewöhnliche sowie HSV-synchrone Akustikaufnahmen zur Graduierung von Heiserkeit eingesetzt und hinsichtlich der Qualität der resultierenden Modelle verglichen.

Material und Methoden: Im Rahmen der Analyse wurden drei Datensätze erstellt. Die Datensätze D1 und D2 beinhalten jeweils 635 akustische Aufnahmen des gehaltenen Vokals /a/ mit einer Phonationsdauer von 1 s bzw. 250 ms. Datensatz D3 umfasst 453 HSV-synchrone akustische Aufnahmen des gehaltenen Vokals /i/ mit einer Dauer von 250 ms. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H < 2 bzw. H ≥ 2 aufweisen. Zur Ermittlung relevanter Parameter wurde auf Grundlage von Datensatz D1 zunächst eine Parameterselektion durchgeführt. Anschließend wurde für jeden Datensatz ein separates Klassifikationsmodell (Logistische Regression) trainiert. Die resultierenden Modelle wurden im Hinblick auf ihre Korrelation mit den auditiv ermittelten Heiserkeitsstufen evaluiert.

Ergebnisse: Im Zuge der Parameterselektion wurde aus 50 extrahierten Parametern eine relevante Teilmenge von 5 Parametern bestimmt. Die Klassifikationsmodelle erreichen eine Korrelation von 0,805 (D1), 0,752 (D2) sowie 0,561 (D3) mit den tatsächlichen Heiserkeitsstufen H Element [0,1,2,3] der Probanden.

Diskussion: Während eine Reduktion der Phonationsdauer zu einer leichten Abnahme der Korrelation führte, resultierte die Verwendung von HSV-Stimmaufnahmen in einem deutlichen Verlust an Vorhersagegenauigkeit. Dieser Qualitätsverlust ist auf die Messbedingungen der HSV-Untersuchung zurückzuführen. Das eingesetzte starre Endoskop kann die Probanden in ihrer Phonation einschränken, wodurch resultierende Aufnahmen die Stimme bzw. Heiserkeit womöglich nicht akkurat widerspiegeln. Darüber hinaus können Hintergrundgeräusche des Equipments (z.B. Kamera, Lichtquelle) die Qualität der Aufnahmen und somit auch der extrahierten Parameter beeinträchtigen.

Fazit: Die vorliegenden Ergebnisse zeigen, dass eine quantitative Bewertung von Heiserkeit mittels gehaltener Phonation realisiert werden kann. Die Anwendung HSV-synchroner Akustikaufnahmen wird unter Einsatz verschiedener Post-Processing Methoden (z.B. Denoising, Outlier-Removal) weiter untersucht.


Text

Hintergrund

Ziel des DFG-Projekts „Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie (HSV)“ ist die quantitative Bewertung funktioneller Stimmstörungen auf Basis von synchronen Video- und Audioaufnahmen während der gehaltenen Phonation. In dieser Studie wurden gewöhnliche sowie HSV-synchrone Akustikaufnahmen zur Graduierung von Heiserkeit eingesetzt und hinsichtlich der Qualität der resultierenden Modelle verglichen.

Material und Methoden

Im Rahmen der Analyse wurden drei Datensätze erstellt. Die Datensätze D1 und D2 beinhalten jeweils 635 akustische Aufnahmen des gehaltenen Vokals /a/ mit einer Phonationsdauer von 1s bzw. 250ms. Datensatz D3 umfasst 453 HSV-synchrone akustische Aufnahmen des gehaltenen Vokals /i/ mit einer Dauer von 250ms. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H < 2 bzw. H ≥ 2 aufweisen. Zur Ermittlung relevanter Parameter wurde auf Grundlage von Datensatz D1 zunächst eine Parameterselektion durchgeführt. Anschließend wurde für jeden Datensatz ein separates Klassifikationsmodell (Logistische Regression) trainiert. Die resultierenden Modelle wurden im Hinblick auf ihre Korrelation mit den auditiv ermittelten Heiserkeitsstufen evaluiert.

Ergebnisse

Im Zuge der Parameterselektion wurde aus 50 extrahierten Parametern eine relevante Teilmenge von 5 Parametern bestimmt. Abbildung 1 [Abb. 1] zeigt den Einfluss der Parameterselektion auf die Güte der Vorhersage. Die Klassifikationsmodelle erreichen eine Korrelation von 0,805 (D1), 0,752 (D2) sowie 0,561 (D3) mit den tatsächlichen Heiserkeitsstufen H Element [0, 1, 2, 3] der Probanden. Die Verteilungen der Vorhersagen über den Heiserkeitsstufen sind in Abbildung 2 [Abb. 2] dargestellt.

Diskussion

Während eine Reduktion der Phonationsdauer zu einer leichten Abnahme der Korrelation führte, resultierte die Verwendung von HSV-Stimmaufnahmen in einem deutlichen Verlust an Vorhersagegenauigkeit. Dieser Qualitätsverlust ist auf die Messbedingungen der HSV-Untersuchung zurückzuführen. Das eingesetzte starre Endoskop kann die Probanden in ihrer Phonation einschränken, wodurch resultierende Aufnahmen die Stimme bzw. Heiserkeit womöglich nicht akkurat widerspiegeln. Darüber hinaus können Hintergrundgeräusche des Equipments (z.B. Kamera, Lichtquelle) die Qualität der Aufnahmen und somit auch der extrahierten Parameter beeinträchtigen.

Fazit

Die vorliegenden Ergebnisse zeigen, dass eine quantitative Bewertung von Heiserkeit mittels gehaltener Phonation realisiert werden kann. Die Anwendung HSV-synchroner Akustikaufnahmen wird unter Einsatz verschiedener Post-Processing Methoden (z.B. Denoising, Outlier-Removal) weiter untersucht.

Danksagung

Deutsche Forschungsgemeinschaft (DFG) – DO 1247/8-2 und SCHU 3441/3-2.