Article
Neuronale Netzwerke zur Parameteridentifikation bei biomechanischen Stimmlippenmodellen
Search Medline for
Authors
Published: | September 20, 2023 |
---|
Outline
Zusammenfassung
Hintergrund: Durch technische Errungenschaften digitaler Kameratechnologien können Stimmlippenschwingungen während der Phonation mittels High-Speed Video Endoskopie (HSV) präzise aufgezeichnet werden. Für die quantitative Bestimmung anatomischer Veränderungen wie Masseveränderungen oder Muskelspannung der Stimmlippen, die nicht direkt über HSV Aufnahmen bestimmt werden können, werden biomechanische Feder-Masse-Modelle verwendet, die die Stimmlippenschwingung nachbilden. Das zugehörige inverse Problem der Modelparameterbestimmung wird klassischerweise durch mathematische Optimierungsverfahren gelöst, dies ist aber wegen des hohen Rechenaufwandes für eine Echtzeitdiagnose nur bedingt geeignet. Aufgrund des hohen Rechenaufwandes komplexerer Modelle, ist deshalb in der Forschung das sogenannte Zwei-Massen-Modell (2MM) verbreitet.
Material und Methoden: Für das 2MM wurde die Vorhersagbarkeit des subglottalen Druckes durch ein Neuronales Netzwerk bereits gezeigt. Im Rahmen dieser Arbeit wurde untersucht, ob Neuronale Netzwerke auch für das komplexere und physiologisch korrektere Sechs-Massen-Modell (6MM) geeignet sind. Hierzu wurde ein Convolutional Recurrent Neural Network (CRNN) anhand der Trajektorien verschiedener Konfigurationen des 6MMs trainiert und der gemessene subglottale Druck von 288 HSV ex-vivo Schweinekehlkopfaufnahmen mit der Ausgabe des Netzwerks verglichen. Als Verbesserung zu vorherigen Arbeiten, wurde das Netzwerk auf die Ausgabe des kompletten 6MM Zustandes trainiert, um die komplette Berechnung des Modells zu ermöglichen.
Ergebnisse: Das in dieser Arbeit beschriebene CRNN eignet sich zur Echtzeit-Vorhersage des 6MM. Der Schätzungsfehler des subglottalen Drucks (1.66 cm H2O) wurde im Vergleich zu dem 2MM basierten Vorgängernetzwerk (1.98 cm H2O) um 16% reduziert.
Diskussion: Für das initiale Training des Netzwerkes anhand des 6MMs waren deutlich mehr synthetische Daten notwendig, als für das das weniger komplexe 2MM. Allgemein ließ sich feststellen, dass eine erhöhte Anzahl von Freiheitsgraden im Modell das Training des Neuronalen Netzwerks deutlich erschwert. Verglichen mit klassischer Optimierung des 2MMs liefert das Netzwerk für das 6MM ähnlich gute Ergebnisse bei vernachlässigbar kleinem Rechenaufwand.
Fazit: Durch die verbesserte Netzwerkarchitektur und das Training anhand des physiologischeren 6MM ist das beschriebene CRNN ein weiterer Schritt hin zu klinischer Anwendbarkeit biomechanischer Stimmlippenmodelle.
Text
Hintergrund
Durch technische Errungenschaften digitaler Kameratechnologien können Stimmlippenschwingungen während der Phonation mittels High-Speed Video Endoskopie (HSV) präzise aufgezeichnet werden. Für die quantitative Bestimmung anatomischer Veränderungen wie Masseveränderungen oder Muskelspannung der Stimmlippen, die nicht direkt über HSV Aufnahmen bestimmt werden können, werden biomechanische Feder-Masse-Modelle verwendet, die die Stimmlippenschwingung nachbilden. Das zugehörige inverse Problem der Modelparameterbestimmung wird klassischerweise durch mathematische Optimierungsverfahren gelöst, dies ist aber wegen des hohen Rechenaufwandes für eine Echtzeitdiagnose nur bedingt geeignet. Aufgrund des hohen Rechenaufwandes komplexerer Modelle, ist deshalb in der Forschung das sogenannte Zwei-Massen-Modell (2MM) [1] verbreitet.
Material und Methoden
Für das 2MM wurde die Vorhersagbarkeit des subglottalen Druckes durch ein Neuronales Netzwerk bereits gezeigt. Im Rahmen dieser Arbeit wurde untersucht, ob Neuronale Netzwerke auch für das komplexere und physiologisch korrektere Sechs-Massen-Modell (6MM) [2] geeignet sind. Hierzu wurde ein Convolutional Recurrent Neural Network (CRNN) anhand der Trajektorien verschiedener Konfigurationen des 6MMs trainiert und der gemessene subglottale Druck von 288 HSV ex-vivo Schweinekehlkopfaufnahmen [3] mit der Ausgabe des Netzwerks verglichen. Als Verbesserung zu vorherigen Arbeiten, wurde das Netzwerk auf die Ausgabe des kompletten 6MM Zustandes trainiert, um die komplette Berechnung des Modells zu ermöglichen.
Ergebnisse
Das in dieser Arbeit beschriebene CRNN eignet sich zur Echtzeit-Vorhersage des 6MM. Der Schätzungsfehler des subglottalen Drucks (1.66 cm H2O) wurde im Vergleich zu dem 2MM basierten Vorgängernetzwerk (1.98 cm H2O) [3] um 16% reduziert.
Diskussion
Für das initiale Training des Netzwerkes anhand des 6MMs waren deutlich mehr synthetische Daten notwendig, als für das das weniger komplexe 2MM. Allgemein ließ sich feststellen, dass eine erhöhte Anzahl von Freiheitsgraden im Modell das Training des Neuronalen Netzwerks deutlich erschwert. Verglichen mit klassischer Optimierung des 2MMs [4] liefert das Netzwerk für das 6MM ähnlich gute Ergebnisse bei vernachlässigbar kleinem Rechenaufwand.
Fazit
Durch die verbesserte Netzwerkarchitektur und das Training anhand des physiologischeren 6MM ist das beschriebene CRNN ein weiterer Schritt hin zu klinischer Anwendbarkeit biomechanischer Stimmlippenmodelle.
Literatur
- 1.
- Steinecke I, Herzel H. Bifurcations in an asymmetric vocal-fold model. The Journal of the Acoustical Society of America. 1995;97(3):1874-84. DOI: 10.1121/1.412061
- 2.
- Schwarz R, Döllinger M, Wurzbacher T, Eysholdt U, Lohscheller J. Spatio-temporal quantification of vocal fold vibrations using high-speed videoendoscopy and a biomechanical model. The Journal of the Acoustical Society of America. 2008;123(5):2717-32. DOI: 10.1121/1.2902167
- 3.
- Gómez P, Schützenberger A, Semmler M, Döllinger M. Laryngeal Pressure Estimation With a Recurrent Neural Network. IEEE Journal of Translational Engineering in Health and Medicine. 2019;7:2000111. DOI: 10.1109/JTEHM.2018.2886021
- 4.
- Gómez P, Schützenberger A, Kniesburges S, Bohr C, Döllinger M. Physical parameter estimation from porcine ex vivo vocal fold dynamics in an inverse problem framework. Biomechanics and Modeling in Mechanobiology. 2018;17:777-92. DOI: 10.1007/s10237-017-0992-5