gms | German Medical Science

29. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

21.09. - 23.09.2012, Bonn

Ein waveletbasiertes Verfahren zur kontinuierlichen Analyse von Phonovibrogrammen

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 29. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Bonn, 21.-23.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12dgppV5

doi: 10.3205/12dgpp06, urn:nbn:de:0183-12dgpp068

Veröffentlicht: 6. September 2012

© 2012 Unger et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Die Phonovibrogramm (PVG)-Darstellung [1] erlaubt neben der Visualisierung der Schwingungsdynamik der Stimmlippen (SL) eine computergestützte Analyse der individuellen Schwingungsform aus Hochgeschwindigkeitsvideos. Bisherige Ansätze zur objektiven PVG-Analyse basieren auf der Zerlegung eines PVGs in einzelne Schwingungszyklen, was jedoch bei geringer Periodizität der SL-Dynamik zu einer fehlerhaften Interpretation führt.

Material und Methoden: Mittels einer Wavelet-Analyse wurden Eigenschaften von Glottisöffnung und -schluss zeitlich und räumlich identifiziert, ohne Zyklen individuell zu markieren. Darauf aufbauend wurden Merkmale der Schwingungsform, der Symmetrie und der Stabilität abgeleitet. An 50 stimmgesunden Patienten und 50 Patienten mit unilateraler Stimmbandparese wurde untersucht, inwieweit sich diese PVG-Waveletmerkmale für eine automatische Klassifikation von Pathologien eignen.

Ergebnisse: Die waveletbasierte PVG-Analyse erlaubt die Beschreibung der SL-Dynamik auch anhand stark irregulärer PVGs mit nur wenigen Parametern. Ein mehrfach durchgeführtes Kreuzvalidierungsverfahren zeigte eine hohe Klassifikationsgüte von 93,2% ±0,63% mit geringer Varianz.

Diskussion: Die Ergebnisse zeigen das Potential der neu entwickelten PVG-Analyse für die klinische Praxis. Durch den niederdimensionalen Merkmalsraum und die Anwendbarkeit auf irreguläre Schwingungen verbessert das Verfahren bisherige Ansätze [2] und ist auch auf nichtstationäre Phonation übertragbar.


Text

Hintergrund

Die digitale Hochgeschwindigkeits-Videoendoskopie (HSV) ist derzeit die einzige Technik, die das intrazyklische Schwingungsmuster entlang der gesamten Stimmlippenlänge erfasst. Da auf diese Weise kleinste Irregularitäten der Schwingungsmuster erkannt werden können, kommt der HSV eine bedeutende Rolle bei der Stimmdiagnostik zu. Zur quantitativen Analyse der Bewegungsmuster wurde die Phonovibrogramm (PVG)-Darstellung [1] entwickelt, die neben der Visualisierung der Schwingungsdynamik der Stimmlippen eine computergestützte Analyse der individuellen Schwingungsform erlaubt. Bisherige Ansätze zur objektiven PVG-Analyse basieren auf der Zerlegung eines PVGs in einzelne Schwingungszyklen [2], was jedoch bei geringer Periodizität der SL-Dynamik zu einer fehlerhaften Interpretation führen kann. In der vorliegenden Studie wird ein Wavelet-basiertes Verfahren verwendet, um die PVG-Schwingungsmuster zu analysieren. Dabei lassen sich Merkmale der Schwingungsform, -Symmetrie und -Stabilität ableiten ohne die Notwendigkeit einzelne Zyklen identifizieren zu müssen.

Material und Methoden

Zur Bestimmung der Schwingungsform aus dem zugrundeliegenden PVG wird zunächst für jede Position entlang der glottalen Achse eine Wavelet-Transformation mit verschiedenen Faltungskernen durchgeführt (Abbildung 1 [Abb. 1]). Auf diese Weise lässt sich das PVG in verschiedene Frequenzbänder unterteilen. Durch ein komplexwertiges Wavelet wird ein Phasensignal approximiert, welches eine eindeutige Unterscheidung zwischen Öffnungs- und Schlussinstanz ermöglicht. Die Multiplikation der verschiedenen Frequenzbänder liefert ein stark ausgeprägtes Maximum bei der Stimmlippenöffnung und ein weniger stark ausgeprägtes beim Stimmlippenschluss und bildet somit das Schwingungsmuster ab ohne einzelne Zyklen identifizieren zu müssen [3].

Durch eine anschließende Hauptkomponentenanalyse (PCA) der Öffnungs- und Schlussinstanzen lässt sich die Charakterisierung des Schwingungstyps auf bis zu zwei skalare Merkmale reduzieren. Da sich die Bewegungsmuster beider Stimmlippen im PVG getrennt auswerten lassen, repräsentiert der Abstand der linken und rechten Schwingung im PCA Unterraum ein Maß der Schwingungssymmetrie. Aus der Energieverteilung der Eigenwerte lassen sich zudem Merkmale der Schwingungsperiodizität ableiten.

Basierend auf den PVG-Waveletmerkmalen wurde untersucht inwieweit eine automatische Klassifikation von Pathologien erreicht werden kann. Dazu wurden 50 stimmgesunde Patienten (20 Männer, Alter: 53,6 ±15,00, 30 Frauen, Alter: 45,5 ±18,65) und 50 Patienten mit unilateraler Recurrensparese (22 Männer, Alter: 56,4 ±12,81, 28 Frauen, Alter: 48,8 ±18,43) mit Hilfe der HSV (Endocam 5562, Richard-Wolf-GmbH, 4000 Bildern pro Sekunde) bei gehaltener Phonation untersucht und mittels einer Support-Vector-Machine automatisch klassifiziert.

Ergebnisse und Diskussion

Abbildung 2 [Abb. 2] zeigt den PCA-Unterraum, der von den zwei betragsmäßig größten Eigenwerten der Hauptkomponentenanalyse aufgespannt wird. Exemplarisch wurden jeweils das Schwingungsmuster der linken und rechten Stimmlippe eines stimmgesunden Patienten (männlich, 60 Jahre) und eines Patienten mit Stimmlippenparese (weiblich, 54 Jahre) in den PCA-Unterraum projiziert. Der große Abstand zwischen den Projektionen des linken und rechten Schwingungsmusters weist auf eine ausgeprägte Schwingungsasymmetrie hin.

Bei der Klassifikation wurde durch ein mehrfach durchgeführtes Kreuzvalidierungsverfahren eine hohe Klassifikationsgüte von 93,2% ± 0,63% erreicht. Die geringe Standardabweichung von 0,63% belegt dabei die Konsistenz und Stabilität des waveletbasierten Verfahrens. Die Ergebnisse übertreffen damit bisherige Ansätze [2], was vor allem auf die geringe Anzahl und Korrelation der Waveletmerkmale zurückzuführen ist.

Die Klassifikationsergebnisse zeigen das Potential des Verfahrens zur Identifikation von pathologischen Stimmlippenschwingungen. In weiteren Studien werden die Schwingungsmuster nichtstationärer Phonationssequenzen als Trajektorie durch den Merkmalsraum charakterisiert und in Merkmalen quantifiziert. Weiterhin wird die Klassifikation um weitere Befundklassen erweitert, um die Trennfähigkeit der Merkmale im Mehrklassenproblem zu evaluieren.


Literatur

1.
Lohscheller J, Eysholdt U, Toy H, Dllinger M. Phonovibrography: mapping high-speed movies of vocal fold vibrations into 2-D diagrams for visualizing and analyzing the underlying laryngeal dynamics. IEEE Trans Med Imag. 2008 Mar;27(3):300-9.
2.
Voigt D, Dllinger M, Braunschweig T, Yang A, Eysholdt U, Lohscheller J. Classification of functional voice disorders based on phonovibrograms. Artif Intell Med. 2010 May;49(1):51-9.
3.
Unger J, Meyer T, Dllinger M, Hecker DJ, Schick B, Lohscheller J. A wavelet-based approach for a continuous analysis of phonovibrograms. Engineering in Medicine and Biology Society 2012, San Diego, USA. (Beitrag angenommen)