gms | German Medical Science

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28.09. - 01.10.2023, Köln

Neuronale Netzwerke zur Parameteridentifikation bei biomechanischen Stimmlippenmodellen

Vortrag

  • corresponding author presenting/speaker Jonas Donhauser - Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Bogac Tur - Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Anne Schützenberger - Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Michael Döllinger - Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Köln, 28.09.-01.10.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV8

doi: 10.3205/23dgpp15, urn:nbn:de:0183-23dgpp152

Veröffentlicht: 20. September 2023

© 2023 Donhauser et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Durch technische Errungenschaften digitaler Kameratechnologien können Stimmlippenschwingungen während der Phonation mittels High-Speed Video Endoskopie (HSV) präzise aufgezeichnet werden. Für die quantitative Bestimmung anatomischer Veränderungen wie Masseveränderungen oder Muskelspannung der Stimmlippen, die nicht direkt über HSV Aufnahmen bestimmt werden können, werden biomechanische Feder-Masse-Modelle verwendet, die die Stimmlippenschwingung nachbilden. Das zugehörige inverse Problem der Modelparameterbestimmung wird klassischerweise durch mathematische Optimierungsverfahren gelöst, dies ist aber wegen des hohen Rechenaufwandes für eine Echtzeitdiagnose nur bedingt geeignet. Aufgrund des hohen Rechenaufwandes komplexerer Modelle, ist deshalb in der Forschung das sogenannte Zwei-Massen-Modell (2MM) verbreitet.

Material und Methoden: Für das 2MM wurde die Vorhersagbarkeit des subglottalen Druckes durch ein Neuronales Netzwerk bereits gezeigt. Im Rahmen dieser Arbeit wurde untersucht, ob Neuronale Netzwerke auch für das komplexere und physiologisch korrektere Sechs-Massen-Modell (6MM) geeignet sind. Hierzu wurde ein Convolutional Recurrent Neural Network (CRNN) anhand der Trajektorien verschiedener Konfigurationen des 6MMs trainiert und der gemessene subglottale Druck von 288 HSV ex-vivo Schweinekehlkopfaufnahmen mit der Ausgabe des Netzwerks verglichen. Als Verbesserung zu vorherigen Arbeiten, wurde das Netzwerk auf die Ausgabe des kompletten 6MM Zustandes trainiert, um die komplette Berechnung des Modells zu ermöglichen.

Ergebnisse: Das in dieser Arbeit beschriebene CRNN eignet sich zur Echtzeit-Vorhersage des 6MM. Der Schätzungsfehler des subglottalen Drucks (1.66 cm H2O) wurde im Vergleich zu dem 2MM basierten Vorgängernetzwerk (1.98 cm H2O) um 16% reduziert.

Diskussion: Für das initiale Training des Netzwerkes anhand des 6MMs waren deutlich mehr synthetische Daten notwendig, als für das das weniger komplexe 2MM. Allgemein ließ sich feststellen, dass eine erhöhte Anzahl von Freiheitsgraden im Modell das Training des Neuronalen Netzwerks deutlich erschwert. Verglichen mit klassischer Optimierung des 2MMs liefert das Netzwerk für das 6MM ähnlich gute Ergebnisse bei vernachlässigbar kleinem Rechenaufwand.

Fazit: Durch die verbesserte Netzwerkarchitektur und das Training anhand des physiologischeren 6MM ist das beschriebene CRNN ein weiterer Schritt hin zu klinischer Anwendbarkeit biomechanischer Stimmlippenmodelle.


Text

Hintergrund

Durch technische Errungenschaften digitaler Kameratechnologien können Stimmlippenschwingungen während der Phonation mittels High-Speed Video Endoskopie (HSV) präzise aufgezeichnet werden. Für die quantitative Bestimmung anatomischer Veränderungen wie Masseveränderungen oder Muskelspannung der Stimmlippen, die nicht direkt über HSV Aufnahmen bestimmt werden können, werden biomechanische Feder-Masse-Modelle verwendet, die die Stimmlippenschwingung nachbilden. Das zugehörige inverse Problem der Modelparameterbestimmung wird klassischerweise durch mathematische Optimierungsverfahren gelöst, dies ist aber wegen des hohen Rechenaufwandes für eine Echtzeitdiagnose nur bedingt geeignet. Aufgrund des hohen Rechenaufwandes komplexerer Modelle, ist deshalb in der Forschung das sogenannte Zwei-Massen-Modell (2MM) [1] verbreitet.

Material und Methoden

Für das 2MM wurde die Vorhersagbarkeit des subglottalen Druckes durch ein Neuronales Netzwerk bereits gezeigt. Im Rahmen dieser Arbeit wurde untersucht, ob Neuronale Netzwerke auch für das komplexere und physiologisch korrektere Sechs-Massen-Modell (6MM) [2] geeignet sind. Hierzu wurde ein Convolutional Recurrent Neural Network (CRNN) anhand der Trajektorien verschiedener Konfigurationen des 6MMs trainiert und der gemessene subglottale Druck von 288 HSV ex-vivo Schweinekehlkopfaufnahmen [3] mit der Ausgabe des Netzwerks verglichen. Als Verbesserung zu vorherigen Arbeiten, wurde das Netzwerk auf die Ausgabe des kompletten 6MM Zustandes trainiert, um die komplette Berechnung des Modells zu ermöglichen.

Ergebnisse

Das in dieser Arbeit beschriebene CRNN eignet sich zur Echtzeit-Vorhersage des 6MM. Der Schätzungsfehler des subglottalen Drucks (1.66 cm H2O) wurde im Vergleich zu dem 2MM basierten Vorgängernetzwerk (1.98 cm H2O) [3] um 16% reduziert.

Diskussion

Für das initiale Training des Netzwerkes anhand des 6MMs waren deutlich mehr synthetische Daten notwendig, als für das das weniger komplexe 2MM. Allgemein ließ sich feststellen, dass eine erhöhte Anzahl von Freiheitsgraden im Modell das Training des Neuronalen Netzwerks deutlich erschwert. Verglichen mit klassischer Optimierung des 2MMs [4] liefert das Netzwerk für das 6MM ähnlich gute Ergebnisse bei vernachlässigbar kleinem Rechenaufwand.

Fazit

Durch die verbesserte Netzwerkarchitektur und das Training anhand des physiologischeren 6MM ist das beschriebene CRNN ein weiterer Schritt hin zu klinischer Anwendbarkeit biomechanischer Stimmlippenmodelle.


Literatur

1.
Steinecke I, Herzel H. Bifurcations in an asymmetric vocal-fold model. The Journal of the Acoustical Society of America. 1995;97(3):1874-84. DOI: 10.1121/1.412061 Externer Link
2.
Schwarz R, Döllinger M, Wurzbacher T, Eysholdt U, Lohscheller J. Spatio-temporal quantification of vocal fold vibrations using high-speed videoendoscopy and a biomechanical model. The Journal of the Acoustical Society of America. 2008;123(5):2717-32. DOI: 10.1121/1.2902167 Externer Link
3.
Gómez P, Schützenberger A, Semmler M, Döllinger M. Laryngeal Pressure Estimation With a Recurrent Neural Network. IEEE Journal of Translational Engineering in Health and Medicine. 2019;7:2000111. DOI: 10.1109/JTEHM.2018.2886021 Externer Link
4.
Gómez P, Schützenberger A, Kniesburges S, Bohr C, Döllinger M. Physical parameter estimation from porcine ex vivo vocal fold dynamics in an inverse problem framework. Biomechanics and Modeling in Mechanobiology. 2018;17:777-92. DOI: 10.1007/s10237-017-0992-5 Externer Link