gms | German Medical Science

38. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

29.09. - 02.10.2022, Leipzig

Klassifikation der Stimmlippendynamik mittels Deep Learning

Vortrag

  • corresponding author presenting/speaker Mona Kirstin Fehling - Universitätsmedizin Mannheim, Medizinische Fakultät Mannheim der Universität Heidelberg, Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- und Halschirurgie, Mannheim, Deutschland
  • Maximilian Linxweiler - Universitätsklinikum des Saarlandes, Klinik für Hals-, Nasen- und Ohrenheilkunde, Homburg/Saar, Deutschland
  • Bernhard Schick - Universitätsklinikum des Saarlandes, Klinik für Hals-, Nasen- und Ohrenheilkunde, Homburg/Saar, Deutschland
  • Jörg Lohscheller - Hochschule Trier, Fachbereich Informatik, Trier, Deutschland

38. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Leipzig, 29.09.-02.10.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. DocV3

doi: 10.3205/22dgpp03, urn:nbn:de:0183-22dgpp031

Published: September 26, 2022

© 2022 Fehling et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Die Hochgeschwindigkeits-(HG-)Videolaryngoskopie erlaubt es, das Schwingungsverhalten der Stimmlippen (SL) in Echtzeit quantitativ zu erfassen. Die dabei anfallenden großen Datenmengen machen die Bewertung der HG-Videos jedoch sehr zeitaufwendig und erschweren den Einsatz im klinischen Alltag. Das Phonovibrogramm (PVG) bietet eine kompakte Repräsentation des so erfassten Schwingungsverhaltens und kodiert physiologisches sowie pathologisches Schwingungsverhalten durch charakteristische räumliche und zeitliche Muster. Im Rahmen dieser Arbeit soll basierend auf diesen charakteristischen PVG-Mustern und Verfahren der künstlichen Intelligenz (Deep Learning) eine vollautomatische Klassifizierung verschiedener Stimmstörungen realisiert werden.

Material und Methoden: Zur Klassifikation der PVGs wird eine Deep Convolutional-Neural-Network-Architektur (Deep CNN) verwendet, welches mittels einer k-fold cross-validation-Strategie trainiert und evaluiert wurde. Der verwendete Datensatz umfasst PVGs, die aus klinischen HG-Sequenzen von insgesamt 220 Probanden erzeugt wurden und beinhaltet die vier Klassen „gesund“ (N=100), „funktionelle Dysphonie“ (N=40), „Parese“ (N=40) und „Polyp“ (N=40). Aus jedem der PVGs wurden drei vollständige Schwingungszyklen extrahiert und anschließend normiert.

Ergebnisse: In dieser Arbeit wird erstmalig eine vollautomatische Klassifizierung von Phonovibrogrammen mittels eines Neuronalen Netzes vorgestellt. Das trainierte Neuronale Netz erzielte eine mittlere Klassifikationsgenauigkeit von mehr als 70% über alle Klassen.

Diskussion: Die visuelle Bewertung der mittels HG-Videos erfassten SL-Dynamik ist zeitaufwendig und erfordert einen erfahrenen Anwender. In dieser Arbeit wird eine Klassifizierung des SL-Schwingungsverhaltens anhand von PVGs mittels eines neuronalen Netzes präsentiert. Basierend auf der PVG-Repräsentation differenziert der vorgestellte Ansatz zuverlässig verschiedene Arten von Stimmstörungen, ohne die Notwendigkeit von Benutzerinteraktion. Eine Steigerung der Leistungsfähigkeit des Verfahrens erfordert zukünftig eine Vergrößerung der Menge an Trainingsdaten.


Text

Einleitung/Hintergrund

Die Hochgeschwindigkeits-(HG-)Videolaryngoskopie erlaubt es, das Schwingungsverhalten der Stimmlippen (SL) in Echtzeit quantitativ zu erfassen. Die dabei anfallenden großen Datenmengen machen die Bewertung der HG-Videos jedoch sehr zeitaufwändig und erschweren den Einsatz im klinischen Alltag. Das Phonovibrogram (PVG) bietet eine kompakte und klinisch relevante Repräsentation des in den HG-Aufnahmen erfassten SL-Schwingungsverhaltens, indem es physiologisches sowie pathologisches Schwingungsverhalten durch charakteristische geometrische Repräsentationen kodiert [1], [2]. Basierend auf diesen charakteristischen PVG-Mustern und Verfahren der künstlichen Intelligenz (Deep Learning) wurde im Rahmen dieser Arbeit eine vollautomatische Klassifizierung verschiedener Stimmstörungen realisiert.

Material und Methoden

Der verwendete Datensatz umfasst 220 PVGs, die aus klinischen HG-Sequenzen von 220 Probanden erzeugt wurden und beinhaltet entsprechend der klinischen Diagnose die vier Klassen „gesund“ (N=100), „funktionelle Dysphonie“ (N=40), „Parese“ (N=40) und „Polyp“ (N=40). Zu jeder HG-Sequenz wurde ein PVG von drei vollständigen Schwingungszyklen erzeugt und anschließend normiert (64px * 64px * [0;1]). In Abbildung 1 [Abb. 1] ist in (a) die Zusammensetzung des verwendeten Datensatz, sowie in (b) schematisch Training und Evaluation der zur Klassifikation der PVGs verwendeten und auf dem LeNet-5 [3] basierenden Deep Convolutional-Neural-Network-Architektur (Deep CNN) gezeigt.

Im Rahmen dieser Arbeit wurde das CNN mittels einer 10-fachen Kreuzvalidierung trainiert und evaluiert. Das Training erfolgte dabei mit der ReLU als Aktivierungsfunktion für die Faltungsschichten sowie einem Softmaxlayer mit der Kreuzentropie als Zielfunktion zur Klassifikation der PVGs. In einem train-validation-split Vorexperiment mit 198 zufällig gewählten PVGs als Trainings- und 22 PVGs als Validierungsdaten hat sich ein Training über jeweils 100 Epochen als vielversprechend für stabile Resultate erwiesen. Dementsprechend wurde das CNN über jeweils 100 Epochen mit einer batch-size von 32 und einer Lernrate von 0.0005 trainiert. Die Klassifikationsleistung wurde anschließend anhand der Parameter Genauigkeit, Sensitivität und Spezifität evaluiert.

Es wurden zwei verschiedene Szenarien betrachtet: (a) Zunächst wurde ein CNN zur Klassifikation des in den PVGs abgebildeten Schwingungsverhaltens als „physiologisch“ oder „pathologisch“ trainiert (2-Klassen-Problem). (b) Anschließend wurde analog ein CNN zur Klassifikation der PVGs entsprechend der klinischen Diagnose (gesund, funktionell, Parese, Polyp) trainiert (4-Klassen-Problem).

Ergebnisse

In dieser Arbeit wird erstmalig eine vollautomatische Klassifizierung von PVGs mittels eines CNN vorgestellt. Abbildung 2 [Abb. 2] zeigt für beide betrachteten Fälle die Klassifikationsresultate als Konfusionsmatrix sowie tabellarisch die klassenindividuellen Resultate für die Sensitivität, die Spezifität und die Genauigkeit.

Mit einer Genauigkeit von 0.82 ± 0.07 (Median: 0.81) konnte das in den PVGs kodierte Schwingungsverhalten als physiologisch beziehungsweise pathologisch klassifiziert werden. Für dieses 2-Klassen-Problem betrug die Sensitivität 0.81 ± 0.12 (0.80) bei einer Spezifität von 0.82 ± 0.12 (0.81).

In einem zweiten Schritt wurde analog ein CNN zur Klassifikation der PVGs für den 4-Klassenfall trainiert. Hier ergab sich eine Genauigkeit von 0.85 ± 0.07 (0.84), mit einer Sensitivität über alle Klassen von 0.71 ± 0.19 (0.76) bei einer Spezifität von 0.91 ± 0.07 (0.92). Die in Abbildung 2 (b) [Abb. 2] dargestellte Konfusionsmatrix zeigt, dass Fehlklassifikationen vor allem zwischen den Klassen „gesund“/„funktionell“ sowie „funktionell“/„Parese“ auftreten.

Diskussion

In dieser Arbeit wird eine Klassifizierung des SL-Schwingungsverhaltens anhand von Phonovibrogrammen mittels eines CNN präsentiert. Basierend auf der PVG-Repräsentation differenziert der vorgestellte Ansatz zuverlässig verschiedene Arten von Stimmstörungen, ohne die Notwendigkeit von Benutzerinteraktion. Bei der Klassifikation der PVGs entsprechend der vier betrachteten Diagnosen konnte der hier vorgestellte Deep Learning basierte Ansatz mit einer Genauigkeit von 0.85 ± 0.07 den bisherigen Ansatz von Unger et al. übertreffen, welcher mittels einer Support-Vector-Maschine für das 4-Klassen-Problem eine Genauigkeit von 0.69 ± 0.02 erzielte [4]. Beide Arbeiten beruhen auf dem identischen Datensatz und sind damit direkt miteinander vergleichbar.

Fazit

Die vollautomatische Klassifikation der PVGs mittels eines CNN hat vielversprechende Resultate gezeigt. Eine weitere Steigerung der Leistungsfähigkeit des Verfahrens erfordert zukünftig eine Vergrößerung der Menge an Trainingsdaten, um auch komplexere und damit noch leistungsfähigere Netzstrukturen realisieren zu können.

Anmerkung

Der Beitrag – Text und Abbildungen – wurde gegenüber der Druckpublikation (Phoniatrisch-pädaudiologische Aspekte 2022; Band 29) aktualisiert.


Literatur

1.
Lohscheller J, Eysholdt U, Toy H, Dollinger M. Phonovibrography: mapping high-speed movies of vocal fold vibrations into 2-D diagrams for visualizing and analyzing the underlying laryngeal dynamics. IEEE Trans Med Imaging. 2008;27(3):300-9. DOI: 10.1109/TMI.2007.903690. External link
2.
Lohscheller J, Toy H, Rosanowski F, Eysholdt U, Döllinger M. Clinically evaluated procedure for the reconstruction of vocal fold vibrations from endoscopic digital high-speed videos. Med Image Anal. 2007;11(4):400-13. DOI: 10.1016/j.media.2007.04.005 External link
3.
LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE. 1998;86(11):2278-324. DOI: 10.1109/5.726791 External link
4.
Unger J, Schuster M, Hecker DJ, Schick B, Lohscheller J. A multiscale product approach for an automatic classification of voice disorders from endoscopic high-speed videos. Annu Int Conf IEEE Eng Med Biol Soc. 2013;2013:7360-3. DOI: 10.1109/EMBC.2013.6611258 External link