gms | German Medical Science

4. Dreiländertagung D-A-CH
35. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

20.09. - 23.09.2018, Innsbruck, Österreich

Vollautomatische Segmentierung der Glottis in endoskopischen Hochgeschwindigkeitsaufnahmen

Vortrag

  • corresponding author presenting/speaker Mona Kirstin Fehling - Hochschule Trier, Trier, Deutschland
  • Yves Marc Pierre Schmit - Hochschule Trier, Trier, Deutschland
  • Maria Elke Schuster - Klinikum der Universität München, München, Deutschland
  • Bernhard Schick - Universitätsklinikum des Saarlandes, Homburg/Saar, Deutschland
  • author Jörg Lohscheller - Hochschule Trier, Trier, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. Sektion Phoniatrie der Österreichischen Gesellschaft für Hals-, Nasen- und Ohrenheilkunde, Kopf- und Halschirurgie. Schweizerische Gesellschaft für Phoniatrie. 4. Dreiländertagung D-A-CH, 35. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Innsbruck, Österreich, 20.-23.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. DocV7

doi: 10.3205/18dgpp08, urn:nbn:de:0183-18dgpp087

Published: September 14, 2018

© 2018 Fehling et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Die computergestützte Analyse der Stimmlippen-(SL-)dynamik aus endoskopischen Hochgeschwindigkeits-(HG)-videos erfordert initial eine Extraktion der zeitveränderlichen glottalen Fläche. Bei der Entwicklung vollautomatischer Segmentierungsverfahren stellt die große Variabilität der Bilddatenqualität eine der wesentlichen Herausforderungen dar, weswegen eine zuverlässige Segmentierung häufig eine manuelle Benutzerinteraktion erfordert. In dieser Arbeit wird ein auf künstlichen Neuronalen Netzen basierendes Verfahren vorgestellt, das eine vollautomatische und präzise Segmentierung der glottalen Fläche ohne Benutzerinteraktion ermöglicht.

Material und Methoden: Die verwendete U-Net-Architektur wird den Convolutional Neural Networks (CNN) zugordnet, die zur semantischen Segmentierung von Bilddaten entwickelt wurden. Die Adaption der Netzarchitektur (Grauwertbilder, Auflösung 256x256 Pixel) wurde unter Verwendung des Frameworks TensorFlow realisiert. Das Training erfolgt anhand von 10000 Einzelbildern mit den dazugehörigen Referenzsegmentierungen, die zuvor durch ein semiautomatisches Verfahren gewonnen wurden. Zur Fehlerminimierung wurde die Kreuz-Entropie sowie das Batch-Backpropagation-Verfahren (Batchgröße 10, 20 Epochen, 1000 Iterationen) verwendet. Die Segmentierungsqualität des trainierten Netzes wurde an einem separaten Datensatz aus 1.500 Bildern evaluiert.

Ergebnisse: In allen HG-Videos konnte der zeitliche Verlauf der Glottis sowie die Stimmlippenkanten zuverlässig segmentiert werden. Lediglich in einzelnen Aufnahmen zeigten sich zusätzlich kleine, fälschlich segmentierte Bildbereich, die sich mit Methoden der Bildnachverarbeitung eliminieren lassen. Im Vergleich zu den Referenzdaten konnte unter Berücksichtigung des gesamten Evaluierungsdatensatzes die Glottis mit einer Sensitivität von 82.98%±15.37% korrekt identifiziert werden (Spezifität: 99.91%±0,13%).

Diskussion: Obwohl das Netz lediglich auf die Segmentierung von Einzelbildern trainiert ist und trotz der erheblichen Änderung der glottalen Geometrie über mehrere Schwingungszyklen hinweg, zeigt sich eine hohe Übereinstimmung zwischen der zeitlichen Struktur der segmentierten Glottisfläche und den Referenzergebnissen. Die beobachteten Unterschiede betreffen nicht Form der segmentierten Glottis, sondern vornehmlich dessen absolute Größe.

Fazit: Die Verwendung der U-Net-Architektur ermöglicht eine vollautomatische und präzise Segmentierung der Glottis. Eine weitere Optimierung des Verfahrens kann durch eine Erhöhung der Trainingsmenge und durch Anpassung der Netzarchitektur erzielt werden.


Text

Hintergrund

Die computergestützte Analyse der Stimmlippen-(SL-)dynamik aus endoskopischen Hochgeschwindigkeits-(HG)-videos erfordert initial eine Extraktion der zeitveränderlichen glottalen Fläche. Bei der Entwicklung vollautomatischer Segmentierungsverfahren stellt die große Variabilität der Bilddatenqualität eine der wesentlichen Herausforderungen dar, weswegen eine zuverlässige Segmentierung häufig eine manuelle Benutzerinteraktion erfordert. In dieser Arbeit wird ein auf künstlichen Neuronalen Netzen basierendes Verfahren vorgestellt, das eine vollautomatische und präzise Segmentierung der glottalen Fläche ohne Benutzerinteraktion ermöglicht.

Material und Methoden

Die hier verwendete U-Net-Architektur wird den Convolutional Neural Networks (CNN) zugordnet, die zur semantischen Segmentierung von Bilddaten entwickelt wurden [1]. Die Adaption der Netzarchitektur (Grauwertbilder, Auflösung 256x256 Pixel) wurde unter Verwendung des Frameworks TensorFlow realisiert [2], [3]. Das Training erfolgte anhand von 10.000 Einzelbildern mit den dazugehörigen Referenzsegmentierungen, die zuvor durch ein semiautomatisches Verfahren gewonnen wurden [4]. Als Maß zur Fehlerminimierung wurde die Kreuzentropie sowie das Batch-Backpropagation-Verfahren (Batchgröße 10, 20 Epochen, 1000 Iterationen) verwendet. Die erreichte Segmentierungsqualität des trainierten Netzes wurde abschließend an einem separaten Datensatz bestehend aus 1.500 Bildern (15 HG-Videos; 3 Gesunde, 12 Pathologien; Sequenzlänge: 100 Bilder je Video) evaluiert. Die Quantifizierung der Segmentierungsgenauigkeit erfolgte in Anlehnung an Lohscheller et al. [4] über die Bestimmung von Abweichungen DPi zwischen Referenz- und Netzsegmentierung an vier charakteristischen Punkten der Stimmlippen (P1&P2: dorsales bzw. ventrales SL-Ende, P3&P4: mediale Position der rechten bzw. linken SL, Abbildung 1a [Abb. 1]). Die Lage der Punkte wurde über die Schnittpunkte der Glottiskontur mit den in Abbildung 1a [Abb. 1] gezeigten Geraden ermittelt.

Ergebnisse

Exemplarisch sind in Abbildung 2 [Abb. 2] für jeweils ein HG-Einzelbild zweier Probanden die Referenz- sowie die korrespondierende Segmentierung mittels Neuronalem Netz gezeigt. In allen HG-Videos konnte der zeitliche Verlauf der glottalen Fläche als auch die Stimmlippenkanten zuverlässig segmentiert werden. Lediglich in einzelnen Aufnahmen zeigten sich zusätzlich kleine, fälschlich segmentierte Bildbereiche (Abbildung 2b [Abb. 2], Pfeil), die sich jedoch mit Methoden der Bildnachverarbeitung problemlos eliminieren lassen.

Verglichen mit den medialen Positionen P3 und P4 ist die Abweichung der Segmentierungen an den Punkten P1 und P2 stärker ausgeprägt (vgl. Abbildung 1b [Abb. 1]). Die mittleren Abweichungen in Pixel (px) des gesamten Evaluierungsdatensatzes an den Punkten P1P4 betragen Formel1 = 2,4 ± 1,4 px, Formel2 = 2,4 ± 1,3 px, Formel3 = 0,6 ± 1,0 px und Formel4 = 0,7 ± 1,2 px.

Diskussion

Obwohl das Netz lediglich auf die Segmentierung von Einzelbildern trainiert ist und trotz der erheblichen Änderung der glottalen Geometrie über mehrere Schwingungszyklen hinweg, zeigt sich eine hohe Übereinstimmung zwischen der zeitlichen Struktur der segmentierten Glottisfläche und den Referenzergebnissen. Für alle durch das Neuronale Netz bestimmten Punkte P1P4 beträgt die mittlere Abweichung der Segmentierungsergebnisse Formel5 weniger als 3 Pixel. Dies ist im Vergleich deutlich geringer als die mittleren Abweichungen manuell vorgenommener Mehrfachsegmentierungen der Punkte P1P4 (Abbildung 1b [Abb. 1]), welche in einer Arbeit von Lohscheller et al. [4] ermittelt wurden und als Genauigkeit einer manuell vorgenommenen Segmentierung (Goldstandard) angesehen werden können. Für die medialen Punkte P3 und P4 beträgt die mittlere Abweichung sogar weniger als 20% gegenüber der Variabilität bei einer manuell vorgenommenen Segmentierung.

Im Unterschied zu rechenintensiven Segmentierungsverfahren, beispielsweise aktiven oder geodätischen Konturen, welche ebenfalls zur Segmentierung der Stimmlippen genutzt werden, wird mit einem trainierten Neuronalen Netz ein hoher Datendurchsatz erreicht, so dass dieses Verfahren auch gut für den klinischen Einsatz geeignet ist.

Fazit

Die Verwendung eines Neuronalen Netzes ermöglicht eine vollautomatische und präzise Segmentierung der glottalen Fläche, die bezüglich Genauigkeit der Güte manueller Segmentierungen (Goldstandard) entspricht bzw. sogar übertrifft. Eine weitere Verbesserung des Verfahrens kann durch eine Erhöhung der Trainingsmenge sowie durch Optimierung der Netzarchitektur erzielt werden.


Literatur

1.
Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. Springer International Publishing; 2015. (LNCS; 9351). p. 234-41.
2.
Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, Corrado GS, Davis A, Dean J, Devin M, Ghemawat S, Goodfellow I, Harp A, Irving G, Isard M, Jozefowicz R, Jia Y, Kaiser L, Kudlur M, Levenberg J, Mané D, Schuster M, Monga R, Moore S, Murray D, Olah C, Shlens J, Steiner B, Sutskever I, Talwar K, Tucker P, Vanhoucke V, Vasudevan V, Viégas F, Vinyals O, Warden P, Wattenberg M, Wicke M, Yu Y, Zheng X. TensorFlow: Large-scale machine learning on heterogeneous systems. 2015. Software verfügbar unter https://www.tensorflow.org/ External link
3.
Akeret J, Chang C, Lucchi A, Refregier A. Radio frequency interference mitigation using deep convolutional neural networks. arXiv:1609.09077v2 [Preprint]. 2017. Available from: https://arxiv.org/abs/1609.09077 External link
4.
Lohscheller J, Toy H, Rosanowski F, Eysholdt U, Döllinger M. Clinically evaluated procedure for the reconstruction of vocal fold vibrations from endoscopic digital high-speed videos. Medical Image Analysis. 2007 Aug;11(4):400-13.