gms | German Medical Science

38. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

29.09. - 02.10.2022, Leipzig

Objektive Analyse des akustischen Signals auf Basis gehaltener Vokale

Poster

  • corresponding author presenting/speaker Tobias Schraut - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Anne Schützenberger - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Tomás Arias-Vergara - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Stephan Dürr - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Melda Kunduk - Department of Communication Sciences and Disorders, Louisiana State University, Louisiana, Vereinigte Staaten
  • Matthias Echternach - Abteilung Phoniatrie und Pädaudiologie, Klinik für Hals-Nasen-Ohrenheilkunde, Klinikum der Universität München (LMU), München, Deutschland
  • Michael Döllinger - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland

38. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Leipzig, 29.09.-02.10.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. DocP3

doi: 10.3205/22dgpp10, urn:nbn:de:0183-22dgpp104

Veröffentlicht: 26. September 2022

© 2022 Schraut et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Zusammenfassung

Hintergrund: Ziel des DFG-Projekts „Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie“ ist die objektive Graduierung funktioneller Dysphonie auf Basis synchroner Video- und Audioaufnahmen während der gehaltenen Phonation. Im Rahmen einer Voruntersuchung wurden Parameter aus Akustikaufnahmen des gehaltenen Vokals /a/ extrahiert und zur Unterscheidung von normalen und gestörten Stimmen eingesetzt. Hierbei lag besonders die Bestimmung relevanter quantitativer Parameter im Vordergrund.

Material und Methoden: Insgesamt wurden 610 Aufnahmen von jeweils unterschiedlichen Probanden (366 normal, 244 gestört) verwendet. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H<2 bzw. H≥2 aufweisen. Aus jeder Aufnahme wurden insgesamt 60 Parameter extrahiert, welche u.a. die Periodizität der Grundfrequenz, Signalamplitude und -energie (z.B. Mean Jitter), wie auch das Signal-Rausch-Verhältnis (z.B. CPPS) beschreiben. Zur Bestimmung relevanter Parameter wurde eine Parameterselektion unter Verwendung eines Logistischen Regressors als Klassifikationsmodell durchgeführt. Die verbliebenen Features wurden anschließend mit dem vollständigen Parametersatz hinsichtlich der Klassifikationsgüte verglichen.

Ergebnisse: Im Rahmen der Selektion konnte die Anzahl der Parameter von 60 auf 9 verringert werden. Der reduzierte Parametersatz besteht nahezu vollständig aus spektralen/cepstralen Größen, darunter u.a. die Smoothed Cepstral Peak Prominence und die spektrale Amplitudendifferenz H1A2. Durch die Reduktion der akustischen Parameter wurde ein Anstieg der Klassifikationsgenauigkeit von 78,3% (vollständig) auf 82,6% (reduziert) erreicht.

Diskussion: Das Ergebnis der Parameterreduktion zeigt, dass viele der geläufigen Akustikparameter keinen Mehrwert für die Unterscheidung gesunder und gestörter Stimmen bieten. Grund dafür ist häufig eine hohe Korrelation zwischen den einzelnen Parametern. Die erreichte Klassifikationsgenauigkeit von 82,6% stellt hinsichtlich der objektiven Bewertung funktioneller Dysphonie ein vielversprechendes Ergebnis dar.

Fazit: Bereits mit wenigen akustischen Parametern kann eine hohe Genauigkeit in der objektiven Unterscheidung von normalen und gestörten Stimmen erreicht werden. Vor allem die Berücksichtigung weiterer spektraler/cepstraler Parameter sowie die Kombination akustischer Parameter mit Features aus HSV-Aufnahmen bieten hohes Potential, um die Klassifikationsgenauigkeit weiter zu steigern und eine Graduierung der Stimmstörung zu ermöglichen.


Text

Hintergrund

Ziel des DFG-Projekts „Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie“ ist die objektive Graduierung funktioneller Dysphonie auf Basis synchroner Video- und Audioaufnahmen während der gehaltenen Phonation. Im Rahmen einer Voruntersuchung wurden Parameter aus Akustikaufnahmen des gehaltenen Vokals /a/ extrahiert und zur Unterscheidung von normalen und gestörten Stimmen eingesetzt. Hierbei lag besonders die Bestimmung relevanter quantitativer Parameter im Vordergrund.

Material und Methoden

Insgesamt wurden 610 Aufnahmen von jeweils unterschiedlichen Probanden (366 normal, 244 gestört) verwendet. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H<2 bzw. H≥2 aufweisen. Aus jeder Aufnahme wurden insgesamt 60 Parameter extrahiert, welche u.a. die Periodizität der Grundfrequenz, Signalamplitude und -energie (z.B. Mean Jitter), wie auch das Signal-Rausch-Verhältnis (z.B. CPPS) beschreiben. Zur Bestimmung relevanter Parameter wurde eine Parameterselektion unter Verwendung eines Logistischen Regressors als Klassifikationsmodell durchgeführt. Die verbliebenen Features wurden anschließend mit dem vollständigen Parametersatz hinsichtlich der Klassifikationsgüte verglichen.

Ergebnisse

Im Rahmen der Selektion konnte die Anzahl der Parameter von 60 auf 9 verringert werden (vgl. Abbildung 1 [Abb. 1]). Der reduzierte Parametersatz besteht nahezu vollständig aus spektralen/cepstralen Größen, darunter u.a. die Smoothed Cepstral Peak Prominence und die spektrale Amplitudendifferenz H1A2. Abbildung 2 [Abb. 2] stellt die Klassifikationsgüte des Modells unter Verwendung des vollständigen und reduzierten Parametersatzes anhand verschiedener Metriken dar. Durch die Reduktion der akustischen Parameter wurde u.a. ein Anstieg der Klassifikationsgenauigkeit von 78,3% (vollständig) auf 82,6% (reduziert) erreicht.

Diskussion

Das Ergebnis der Parameterreduktion zeigt, dass viele der geläufigen Akustikparameter keinen Mehrwert für die Unterscheidung gesunder und gestörter Stimmen bieten. Grund dafür ist häufig eine hohe Korrelation zwischen den einzelnen Parametern. Die erreichte Klassifikationsgenauigkeit von 82,6% stellt hinsichtlich der objektiven Bewertung funktioneller Dysphonie ein vielversprechendes Ergebnis dar.

Fazit

Bereits mit wenigen akustischen Parametern kann eine hohe Genauigkeit in der objektiven Unterscheidung von normalen und gestörten Stimmen erreicht werden. Vor allem die Berücksichtigung weiterer spektraler/cepstraler Parameter sowie die Kombination akustischer Parameter mit Features aus HSV-Aufnahmen bieten hohes Potential, um die Klassifikationsgenauigkeit weiter zu steigern und eine Graduierung der Stimmstörung zu ermöglichen.

Förderung

Deutsche Forschungsgemeinschaft (DFG) – DO 1247/8-2