gms | German Medical Science

36. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

19.09. - 22.09.2019, Göttingen

Entwicklung eines neuen High-Speed-Videoendoskopie-Systems

Vortrag

  • corresponding author presenting/speaker Andreas M. Kist - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Erlangen, Deutschland
  • author Pablo Gómez - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Erlangen, Deutschland
  • Patrick Schlegel - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Erlangen, Deutschland
  • Matthias König - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Erlangen, Deutschland
  • Ingolf Franke - WEVOSYS medical technology GmbH, Baunach, Deutschland
  • Aline Schollbach - WEVOSYS medical technology GmbH, Baunach, Deutschland
  • Anne Schützenberger - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Erlangen, Deutschland
  • Michael Döllinger - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie an der Hals-, Nasen- und Ohrenklinik, Kopf- und Halschirurgie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 36. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Göttingen, 19.-22.09.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. DocV22

doi: 10.3205/19dgpp31, urn:nbn:de:0183-19dgpp316

Veröffentlicht: 13. September 2019

© 2019 Kist et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Die High-Speed-Videoendoskopie (HSV) ist ein Verfahren um die Schwingungen der Stimmlippen räumlich und zeitlich genau aufzulösen. Allerdings sind zurzeit keine aktuellen HSV-Systeme kommerziell erhältlich. Eingesetzte Systeme verwenden veraltete Soft- und Hardware. In einer vom BMWi geförderten Industriekooperation entwickeln wir ein innovatives HSV-System mit neuester Hardware und computerbasierten Analysemethoden.

Material und Methoden: Wir haben eine Marktanalyse der Hauptkomponenten eines HSV-Systems durchgeführt und uns auf Kameras fokussiert, die eine räumliche Auflösung von mindestens einem Megapixel und eine zeitliche Auflösung von mindestens 4000 Bildern pro Sekunde ermöglichen. Für die Analyse der HSV-Daten haben wir state-of-the-art Deep Learning Methoden (u.a. ein U-Net) eingesetzt.

Ergebnisse: Erste Versuche mit der neuen Hardware zeigen eine starke qualitative Steigerung der Bildqualität im direkten Vergleich mit etablierten Systemen, speziell bei Farbkameras. Eine neue Haltevorrichtung für Mikrofone wurde erprobt. Unsere implementierten neuronalen Netze segmentieren vorhandene und neue HSV-Daten vollautomatisch (Intersection of the Union – IoU mit Testdaten =0.731) und übertreffen qualitativ derzeitig etablierte Methoden, wie beispielsweise das semi-automatisch Threshold-basierte Region Growing.

Diskussion: Die hohe Sensitivität der Hochgeschwindigkeitskamera sowie die hoch qualitative Optik von Endoskop und Videoadapter beweisen eine hohe Bildqualität, insbesondere bei Farbaufnahmen. Ein weiteres Ziel ist die einfache Synchronisation von Video- und Audioaufnahmen, um ein ganzheitliches Bild der Stimme zu erhalten.

Die Funktionalität, Qualität und Verarbeitungsgeschwindigkeit der neu entwickelten voll automatischen Segmentierung ist signifikant verbessert. Um die Anwendbarkeit der Analysesoftware weiteren Instituten zur Verfügung zu stellen, erweitern wir den Funktionsbereich, so dass auch sehr heterogene Daten voll automatisiert werden.

Fazit: Durch die sorgfältige Auswahl der Hardware und die neuentwickelte, anwenderfreundliche Software mit integrierter voll automatischer Segmentierung präsentieren wir einen Prototypen, der eine große klinische Akzeptanz verspricht. Wir erwarten, dass unser HSV-System im Verlauf des Projekts die klinische Reife erlangt.


Text

Hintergrund

Die High-Speed-Videoendoskopie (HSV) ist ein Verfahren um die Schwingungen der Stimmlippen räumlich und zeitlich genau aufzulösen [1]. Allerdings sind zurzeit keine aktuellen HSV-Systeme kommerziell erhältlich. Eingesetzte Systeme verwenden veraltete Soft- und Hardware. In einer vom BMWi geförderten Industriekooperation entwickeln wir ein innovatives HSV-System mit neuester Hardware und computerbasierten Analysemethoden.

Material und Methoden

Wir haben eine Marktanalyse der Hauptkomponenten eines HSV-Systems durchgeführt und uns auf Kameras fokussiert, die eine räumliche Auflösung von mindestens einem Megapixel und eine zeitliche Auflösung von mindestens 4000 Bildern pro Sekunde ermöglichen. Für die Analyse der HSV-Daten haben wir state-of-the-art Deep Learning Methoden (u.a. ein U-Net, [2]) eingesetzt.

Ergebnisse

Erste Versuche mit der neuen Hardware zeigen eine starke qualitative Steigerung der Bildqualität im direkten Vergleich mit etablierten Systemen, speziell bei Farbkameras. Eine neue Haltevorrichtung für Mikrofone wurde erprobt. Unsere implementierten neuronalen Netze segmentieren vorhandene und neue HSV-Daten vollautomatisch (Intersection of the Union – IoU mit Testdaten =0.731) und übertreffen qualitativ derzeitig etablierte Methoden, wie beispielsweise das semi-automatisch Threshold-basierte Region Growing [3].

Diskussion

Die hohe Sensitivität der Hochgeschwindigkeitskamera sowie die hoch qualitative Optik von Endoskop und Videoadapter beweisen eine hohe Bildqualität, insbesondere bei Farbaufnahmen. Ein weiteres Ziel ist die einfache Synchronisation von Video- und Audioaufnahmen, um ein ganzheitliches Bild der Stimme zu erhalten.

Die Funktionalität, Qualität und Verarbeitungsgeschwindigkeit der neu entwickelten voll automatischen Segmentierung ist signifikant verbessert. Um die Anwendbarkeit der Analysesoftware weiteren Instituten zur Verfügung zu stellen, erweitern wir den Funktionsbereich, so dass auch sehr heterogene Daten voll automatisiert verarbeitet werden können.

Fazit

Durch die sorgfältige Auswahl der Hardware und die neuentwickelte, anwenderfreundliche Software mit integrierter voll automatischer Segmentierung präsentieren wir einen Prototypen, der eine große klinische Akzeptanz verspricht. Wir erwarten, dass unser HSV-System im Verlauf des Projekts die klinische Reife erlangt.

Finanzierung

Diese Studie wurde finanziell unterstützt durch das Bundesministerium für Wirtschaft und Energie (ZF4010105BA8). P. Schlegel wurde von der Deutschen Forschungsgemeinschaft (DFG) finanziell unterstützt (DO1247/8-1).

Abbildung 1 [Abb. 1]

Abbildung 2 [Abb. 2]


Literatur

1.
Ziethe A, Patel R, Kunduk M, Eysholdt U, Graf S. Clinical analysis methods of voice disorders. Current Bioinformatics. 2011;6(3):270-85.
2.
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation. In: International Conference on Medical image computing and computer-assisted intervention. Cham: Springer; 2015. p. 234-41.
3.
Lohscheller J, Toy H, Rosanowski F, Eysholdt U, Döllinger M. Clinically evaluated procedure for the reconstruction of vocal fold vibrations from endoscopic digital high-speed videos. Medical image analysis. 2007;11(4):400-13.