gms | German Medical Science

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28.09. - 01.10.2023, Köln

Bildbasierte Berechnung der Grundfrequenz für den Einsatz in der Videostroboskopie

Vortrag

  • corresponding author presenting/speaker Andreas M. Kist - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Anna-Maria Wölfl - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Katharina Breininger - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Anne Schützenberger - Universitätsklinikum Erlangen, Erlangen, Deutschland

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Köln, 28.09.-01.10.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV6

doi: 10.3205/23dgpp11, urn:nbn:de:0183-23dgpp117

Veröffentlicht: 20. September 2023

© 2023 Kist et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Zusammenfassung

Hintergrund: Die Videostroboskopie wird als Goldstandard in der Diagnostik der Stimmlippenschwingungen eingesetzt. Die Bestimmung des Lichtblitzabstandes durch das Audiosignal ist allerdings anfällig gegenüber Störgeräuschen, wie beispielsweise verbale Instruktionen des Untersuchenden. Dies erlaubt nur eingeschränkt die Grundfrequenzbestimmung. Diese ist jedoch essentiell für den optimalen Lichtblitzabstand. Wir erforschen einen neuen, in Echtzeit laufenden und KI-basierten Ansatz, der ausschließlich auf den Endoskopiebildern basiert.

Material und Methoden: Die entwickelte KI-gestützte Methode nutzt Bildmaterial von Hochgeschwindigkeitskameras, um die Grundfrequenz der Stimmlippenschwingung auf endoskopischen Bildern zu bestimmen. Für jedes Bild berechnen wir durch ein tiefes neuronales Netz den relativen Öffnungsgrad der glottalen Fläche. Durch zufällig aufgenommene Bilder, sowie den daraus berechneten relativen Öffnungsgrad, können wir durch mathematische Verfahren („compressed sensing“) die Grundfrequenz berechnen. Unsere Methode wurde an gesunden Proband:innen getestet.

Ergebnisse: Wir können zeigen, dass unser KI- und Bildbasierter Ansatz bei einer Aufnahmedauer von unter 600 ms die Grundfrequenz in über 95% der Fälle exakt berechnen kann. Die Datenanalyse unserer KI-Methode benötigt unter 75 ms und kann somit in Echtzeit bereitgestellt werden. Weiterhin wird beobachtet, dass die Aufnahme von Endoskopiebildern nicht strukturiert geschehen darf, so dass die Grundfrequenz adäquat bestimmt werden kann.

Diskussion: Unsere Methode ist in der Lage sehr genau die Grundfrequenz zu bestimmen und stellt somit eine schnelle Alternative zur klassischen audiobasierten Videostroboskopie dar. Die Funktionsweise unserer Methode in pathophysiologischen Fällen wird in zukünftigen Studien untersucht werden.

Fazit: Die laryngeale Videostroboskopie benötigt nicht per se Zugang zu fehlerfreien Audiodaten. Die einzigartige KI-gestützte Analyse einzelner Bilder erlaubt die Berechnung der Grundfrequenz und erlaubt eine neue, bildbasierte Videostroboskopie-Technologie.


Text

Hintergrund

Die Videostroboskopie wird als Goldstandard in der Diagnostik der Stimmlippenschwingungen eingesetzt. Die Bestimmung des Lichtblitzabstandes durch das Audiosignal ist allerdings anfällig gegenüber Störgeräuschen, wie beispielsweise verbale Instruktionen des Untersuchenden. Dies erlaubt nur eingeschränkt die Grundfrequenzbestimmung. Diese ist jedoch essentiell für den optimalen Lichtblitzabstand. Wir erforschen einen neuen, in Echtzeit laufenden und KI-basierten Ansatz, der ausschließlich auf den Endoskopiebildern basiert.

Material und Methoden

Die entwickelte KI-gestützte Methode nutzt Bildmaterial von Hochgeschwindigkeitskameras, um die Grundfrequenz der Stimmlippenschwingung auf endoskopischen Bildern zu bestimmen. Für jedes Bild berechnen wir durch ein tiefes neuronales Netz den relativen Öffnungsgrad der glottalen Fläche. Dieser relative Öffnungsgrad kann Werte zwischen 0 (ganz geschlossene Glottis) und 1 (maximal geöffnete Glottis während gehaltener Phonation) annehmen. Durch zufällig aufgenommene Bilder, sowie den daraus berechneten relativen Öffnungsgrad, können wir durch mathematische Verfahren („compressed sensing“) das eigentliche Schwingungssignal rekonstruieren. Dieses rekonstruierte Schwingungssignal erlaubt es uns anschließend die Grundfrequenz zu berechnen. Unsere Methode wurde auf Bildmaterial von gesunden Proband:innen getestet und evaluiert. Der Ablauf im geplanten Vollsystem ist in Abbildung 1 [Abb. 1] visualisiert.

Ergebnisse

Wir können zeigen, dass unser KI- und bildbasierter Ansatz bei einer Aufnahmedauer von unter 600 ms die Grundfrequenz in über 95% der Fälle exakt berechnen kann. Die Datenanalyse unserer KI-Methode benötigt unter 75 ms und kann somit in Echtzeit bereitgestellt werden. Weiterhin wird beobachtet, dass die Aufnahme von Endoskopiebildern nicht strukturiert geschehen darf, so dass die Grundfrequenz adäquat bestimmt werden kann.

Diskussion

Unsere Methode ist in der Lage sehr genau die Grundfrequenz zu bestimmen und stellt somit eine schnelle Alternative zur klassischen audiobasierten Videostroboskopie dar. Die Funktionsweise unserer Methode in pathophysiologischen Fällen wird in zukünftigen Studien untersucht werden.

Fazit

Die laryngeale Videostroboskopie benötigt nicht per se Zugang zu fehlerfreien Audiodaten. Die einzigartige KI-gestützte Analyse einzelner Bilder erlaubt die Berechnung der Grundfrequenz und erlaubt eine neue, bildbasierte Videostroboskopie-Technologie.