gms | German Medical Science

37. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

17.09. - 18.09.2021, digital

Projektfortsetzung: Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie

Poster

  • corresponding author presenting/speaker Tobias Schraut - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Anne Schützenberger - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Tomás Arias-Vergara - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Stephan Dürr - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Melda Kunduk - Department of Communication Sciences and Disorders, Louisiana State University, Baton Rouge, LA, Vereinigte Staaten
  • Matthias Echternach - Abteilung Phoniatrie und Pädaudiologie, Klinik für Hals-Nasen-Ohrenheilkunde, Klinikum der Universität München (LMU), München, Deutschland
  • Michael Döllinger - Abteilung für Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland

37. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). sine loco [digital], 17.-18.09.2021. Düsseldorf: German Medical Science GMS Publishing House; 2021. DocP7

doi: 10.3205/21dgpp13, urn:nbn:de:0183-21dgpp133

Veröffentlicht: 28. Oktober 2021

© 2021 Schraut et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Die Highspeed-Videoendoskopie (HSV) ist eine vielversprechende Methode zur quantitativen Analyse funktioneller Dysphonien. Basierend auf HSV-Aufnahmen können horizontale Stimmlippenschwingungen durch die Segmentation der Glottisfläche quantifiziert werden. Die zeitliche Änderung dieser Fläche wird anschließend z.B. durch die glottale Flächenfunktion oder das Phonovibrogramm abgebildet. Aus diesen Signalen berechnete Parameter weisen z.T. klare Zusammenhänge mit funktionellen Stimmstörungen auf und bieten in Kombination mit akustischen und klinischen Parametern hohes Potential zur objektiven Graduierung funktioneller Dysphonie.

Material und Methoden: Ziele dieses DFG-geförderten Projekts sind die Bestimmung eines Parametersatzes zur objektiven Graduierung funktioneller Stimmstörungen sowie die Analyse kausaler Zusammenhänge der zugrundeliegenden akustischen und HSV-Signale. Für die Graduierung werden sowohl berechnete Parameter aus HSV-Aufnahmen und synchron aufgezeichneten Audiosignalen als auch konventionelle klinische Merkmale berücksichtigt. Die gesammelten Parameter werden u.a. hinsichtlich ihrer klinischen Relevanz reduziert und anschließend mithilfe von Methoden des Maschinellen Lernens (z.B. Boosted Decision Trees) zur Bestimmung des Schweregrads funktioneller Dysphonie eingesetzt.

Ergebnisse: Das erwartete klinische Ergebnis des Projekts ist die Realisierung einer quantitativen Bewertung funktioneller Dysphonien zur Ermöglichung einer objektiven Therapiebegleitung und -beurteilung.

Diskussion: In Phase I des DFG-Projekts konnte im Rahmen vorläufiger Klassifizierungen sowohl auf Basis von 4 klinischen Merkmalen (>91%) als auch mittels 12 HSV-Parametern (>74%) eine hohe Genauigkeit in der Unterscheidung von gesunden Probanden und Patienten mit funktioneller Dysphonie erreicht werden. Die Berücksichtigung weiterer HSV-Merkmale, die Hinzunahme von Parametern aus synchronen akustischen Aufnahmen sowie deren Kombination mit gängigen klinischen Parametern zu einer multimodalen Datengrundlage ist somit vielversprechend.

Fazit: Die innovativen wissenschaftlichen Aspekte des Projekts beinhalten: (1) den Einsatz von State-of-the-Art Deep Learning Methoden auf einen multimodalen Datensatz zur Quantifizierung funktioneller Dysphonien; (2) die Untersuchung von HSV- und Akustikparametern bezüglich ihrer Robustheit und klinischen Relevanz; (3) Einblicke in die Kausalitäten des Phonationsprozesses mittels zeitlicher Korrelations- und Kohärenzanalyse der gemessenen Signale.


Text

Hintergrund

Die Highspeed-Videoendoskopie (HSV) ist eine vielversprechende Methode zur quantitativen Analyse funktioneller Dysphonien. Basierend auf HSV-Aufnahmen können horizontale Stimmlippenschwingungen durch die Segmentation der Glottisfläche quantifiziert werden. Die zeitliche Änderung dieser Fläche wird anschließend z.B. durch die glottale Flächenfunktion (GAW) oder das Phonovibrogramm (PVG) abgebildet (Abbildung 1 [Abb. 1]). Aus diesen Signalen berechnete Parameter weisen z.T. klare Zusammenhänge mit funktionellen Stimmstörungen auf und bieten in Kombination mit akustischen und klinischen Parametern hohes Potential zur objektiven Graduierung funktioneller Dysphonie.

Material und Methoden

Ziele dieses DFG-geförderten Projekts sind die Bestimmung eines Parametersatzes zur objektiven Graduierung funktioneller Stimmstörungen sowie die Analyse kausaler Zusammenhänge der zugrundeliegenden akustischen und HSV-Signale. Für die Graduierung werden sowohl berechnete Parameter aus HSV-Aufnahmen und synchron aufgezeichneten Audiosignalen (Abbildung 1 [Abb. 1]) als auch konventionelle klinische Merkmale berücksichtigt. Die gesammelten Parameter werden u.a. hinsichtlich ihrer klinischen Relevanz reduziert und anschließend mithilfe von Methoden des Maschinellen Lernens (z.B. Boosted Decision Trees) zur Bestimmung des Schweregrads funktioneller Dysphonie eingesetzt.

Ergebnisse

Das erwartete klinische Ergebnis des Projekts ist die Realisierung einer quantitativen Bewertung funktioneller Dysphonien zur Ermöglichung einer objektiven Therapiebegleitung und -beurteilung (Abbildung 2 [Abb. 2]).

Diskussion

In Phase I des DFG-Projekts konnte im Rahmen vorläufiger Klassifizierungen sowohl auf Basis von 4 klinischen Merkmalen (>91%) als auch mittels 12 HSV-Parametern (>74%) eine hohe Genauigkeit in der Unterscheidung von gesunden Probanden und Patienten mit funktioneller Dysphonie erreicht werden [1], [2]. Die Berücksichtigung weiterer HSV-Merkmale, die Hinzunahme von Parametern aus synchronen akustischen Aufnahmen sowie deren Kombination mit gängigen klinischen Parametern zu einer multimodalen Datengrundlage ist somit vielversprechend.

Fazit

Die innovativen wissenschaftlichen Aspekte des Projekts beinhalten: (1) den Einsatz von State-of-the-Art Deep Learning Methoden auf einen multimodalen Datensatz zur Quantifizierung funktioneller Dysphonien; (2) die Untersuchung von HSV- und Akustikparametern bezüglich ihrer Robustheit und klinischen Relevanz; (3) Einblicke in die Kausalitäten des Phonationsprozesses mittels zeitlicher Korrelations- und Kohärenzanalyse der gemessenen Signale.

Deutsche Forschungsgemeinschaft (DFG) – DO 1247/8-2


Literatur

1.
Schlegel P, Kist AM, Semmler M, Dollinger M, Kunduk M, Dürr S, Schützenberger A. Determination of Clinical Parameters Sensitive to Functional Voice Disorders Applying Boosted Decision Stumps. IEEE J Transl Eng Health Med. 2020;8:2100511. DOI: 10.1109/JTEHM.2020.2985026 Externer Link
2.
Schlegel P, Kniesburges S, Dürr S, Schützenberger A, Döllinger M. Machine learning based identification of relevant parameters for functional voice disorders derived from endoscopic high-speed recordings. Sci Rep. 2020;10(1):10517. DOI: 10.1038/s41598-020-66405-y Externer Link