gms | German Medical Science

25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12.09. - 14.09.2008, Düsseldorf

Merkmalsbasierte Analyse von Phonovibrogrammen zur Beschreibung von Stimmlippenschwingungen

Describing Vocal Fold Dynamics by a Quantiative Analysis of Phonovibrograms

Vortrag

  • corresponding author presenting/speaker Jörg Lohscheller - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Daniel Voigt - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Anxiong Yang - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Ulrich Eysholdt - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Michael Döllinger - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie. Düsseldorf, 12.-14.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08dgppV44

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/dgpp2008/08dgpp57.shtml

Published: August 27, 2008

© 2008 Lohscheller et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Die quantitative Auswertung endoskopischer Hochgeschwindigkeits(HG)-Aufnahmen schwingender Stimmlippen besitzt große klinische Relevanz. Durch eine Analyse der in den HG-Aufnahmen erfassten Stimmlippenschwingungen lassen sich Aussagen über die Art und das Ausmaß einer Stimmerkrankung ziehen. Bei der Durchführung einer HG-Aufnahme werden Datensätze von mehreren 100 MByte erzeugt, deren Auswertung in der klinischen Routine zwingend moderne Analyseverfahren erfordern. Die kürzlich eingeführte Phonovibrographie kombiniert ein Segmentierungsverfahren mit einem intuitiven Visualisierungsansatz, der das gesamte Schwingungsmuster der Stimmlippen in einem Bild, dem Phonovibrogramm (PVG), darstellt. Neben der visuellen Darstellung der Schwingungsmuster eignet sich das PVG für eine quantitative Beschreibung der Schwingungsdynamik.

In dieser Arbeit stellen wir ein Verfahren vor, mit dem sich die charakteristischen Eigenschaften von Stimmlippenschwingungen aus einem PVG ableiten lassen. Dazu werden die individuellen Schwingungszyklen identifiziert und die zeitlich-räumliche Bewegung der Stimmlippen durch Konturlinien repräsentiert. Die Lage, der Verlauf und die zeitliche Stabilität der extrahierten Konturlinien werden in einem Merkmalsvektor zusammengefasst, der in einer neuartigen Art und Weise die Stimmlippendynamik beschreibt. In einer Reihe von Fallbeispielen gesunder und pathologischer Stimmen wird die Anwendbarkeit des Verfahrens demonstriert und erläutert. Durch Verwendung eines Klassifikationssystems wird zudem gezeigt, dass die extrahierten Merkmale eine Trennung unterschiedlicher Schwingungsformen selbst bei gesunder Stimme ermöglichen.


Text

Einleitung

Die Schwingungseigenschaften der Stimmlippen lassen sich mittels endoskopischer Hochgeschwindigkeits(HG)-Aufnahmen sehr detailliert erfassen und hinsichtlich auftretender Störungen untersuchen. Die anfallenden Daten sind jedoch meist zu umfangreich, um im klinischen Alltag unmittelbar ausgewertet werden zu können. Daher ist eine automatische Analyse der HG-Videos anzustreben, welche die Bewegungen der Stimmlippen quantitativ beschreibt und somit Rückschlüsse auf die Art und den Umfang einer Stimmstörung ermöglicht. Mit der neu entwickelten Methode der Phonovibrographie steht ein kliniktaugliches Verfahren zur Verfügung, das die in den HG-Aufnahmen enthaltenen Schwingungsinformationen beider Stimmlippen mithilfe eines Segmentierungsverfahrens extrahiert. Die dabei ermittelten Auslenkungen der Stimmlippen werden in einem als Phonovibrogramm (PVG) bezeichneten farbkodierten Bild dargestellt [1]. In dieser Arbeit stellen wir ein vollautomatisches Analyseverfahren vor, das eine neuartige quantitative Beschreibung der Schwingungsdynamik beider Stimmlippen aus einem PVG gewinnt. Die Methodik und das klinische Potential der objektiven PVG-Analyse wird an HG-Videos gesunder und pathologischer Probanden demonstriert.

Methode

Zwei stimmgesunde Probanden (männlich/weiblich) und fünf dysphone Stimmen (2x Parese (links/rechts), 1x Polyp (rechts), 1x Hyper- und 1x Hypofunktion) dienen im Folgenden zur Erläuterung der PVG-Analyse. Für jeden Probanden wurde eine HG-Videosequenz (4000 Bilder/Sekunde, 256x256 Bildpunkte) von 50 Schwingungszyklen analysiert, die während einer gehaltenen Phonation des Vokals /a/ aufgezeichnet wurde. Dabei wurden die Bewegungen der Stimmlippenschwingungen aus den HG-Videos extrahiert und die zugehörigen PVGs berechnet. In Abbildung 1 [Abb. 1] ist exemplarisch für jeden Probanden das PVG eines einzelnen Schwingungsvorgangs dargestellt. Je nach zugrunde liegendem Schwingungsmuster zeigt der PVG-Zyklus eine individuelle charakteristische Geometrie, die durch die hervorgehobenen weißen Konturlinien repräsentiert werden kann. Diese Bewegungskonturen lassen sich mittels eines Segmentierungsverfahrens automatisch aus den PVGs extrahieren [2]. Der Verlauf der Konturlinien beschreibt Auslenkungszustände gleichen Niveaus innerhalb eines PVG-Zyklus und fasst zeitliche und räumliche Informationen entlang der gesamten Stimmlippenkante zusammen. Die linken Konturen entsprechen dabei dem Schwingungszustand, bei dem die öffnenden Stimmlippen 50% ihrer maximalen Auslenkung erreichen. Analog hierzu repräsentieren die rechten Konturen den Zustand der Stimmlippen, der bei 50% des Schließungsvorgangs auftritt. Eine quantitative Beschreibung der Schwingungsdynamik beider Stimmlippen wird erreicht, indem der örtliche Verlauf der Konturlinien für jeden Zyklus zu einem Merkmalsvektor zusammengefasst wird. Als weitere objektive Merkmale werden Symmetriemaße definiert, welche die Ähnlichkeiten zwischen den Konturen der linken und rechten Stimmlippenseite, zwischen Öffnungs- und Schließungsphase und zwischen aufeinander folgenden Zyklen beschreiben. Durch diese Merkmale werden sowohl die lokalen Veränderungen des Schwingungsvorgangs als auch dessen zeitliche Stabilität beschrieben. Zur Reduzierung des Merkmalsraums wurden die analysierten PVG-Zyklen für jede Stimmlippenseite auf eine einheitliche Bildgröße von 16x16 Pixel normiert, was einer räumlichen Auflösung von circa 1,0 mm/Pixel entspricht. Das oben beschriebene Verfahren wurde auf die PVGs der sieben Probanden angewandt.

Die beschriebenen Konturmerkmale wurden für jeden Schwingungszyklus der Probanden ermittelt. Anschließend wurde mittels eines Clusteringsverfahrens (K-Means) untersucht, inwieweit die gewonnenen Merkmalsvektoren eine Unterscheidung der zugrunde liegenden Schwingungsmuster und damit eine automatische Identifikation der jeweiligen Dysphonie ermöglichen [3].

Ergebnis und Diskussion

Wie in Abbildung 1 [Abb. 1] gezeigt, veranschaulichen die PVG-Konturen für jeden Probanden die charakteristischen Eigenschaften der Stimmlippenschwingungen. Während sich bei gesunden Stimmlippenschwingungen (Abbildung 1 a, b [Abb. 1]) die PVG-Konturen durch eine hohe Symmetrie und regelmäßige Form auszeichnen, treten bei der links- und rechtsseitigen Stimmlippenlähmung Asymmetrien auf (Abbildung 1 e, f [Abb. 1]). Die von der Parese betroffenen Stimmlippe zeigt dabei eine deutlich verbreiterte PVG-Struktur. Bei organischen Abnormalitäten (Polyp, Abbildung 1 g [Abb. 1]) treten hingegen lokale Deformationen der Konturlinien auf, die insbesondere beim Öffnungsvorgang stark ausgeprägt sind.

Die Ergebnisse, die basierend auf den geometrischen Merkmalen der Konturlinien mittels der Clusteranalyse gewonnen wurden, sind in Abbildung 2 [Abb. 2] gezeigt. Um die Lage und Abstände der Cluster im hochdimensionalen Merkmalsraum geeignet zu visualisieren, ist hier exemplarisch die Lage der ersten und vierten Hauptkomponente der PVG-Merkmale in einem 2D-Diagramm abgebildet. Für jeden Probanden variiert die Lage der einzelnen Schwingungszyklen in der 2D-Parameterebene nur geringfügig. Zwischen den verschiedenen Probanden unterscheiden sich die PVG-Merkmale deutlich voneinander und bilden so abgrenzbare Cluster aus. Durch die gefundenen Cluster lassen sich alle Zyklen eines Probanden eindeutig einem individuellen Schwingungsmuster zuordnen. Hierbei ist aufgrund der großen Ähnlichkeit zwischen den Zyklusmerkmalen eines Probanden bereits eine richtige Zuordnung anhand eines einzelnen Zyklus möglich. Da die PVG-Merkmale das Schwingungsmuster beider Stimmlippen entlang der gesamten glottalen Achse beinhalten ermöglichen sie eine Lokalisation organischer, paralytischer und auch funktioneller Dysphonien. Die PVG-Konturmerkmale lassen sich als eindeutiger „Fingerabdruck“ der Stimmlippenbewegung interpretieren, mit dem sogar eine eindeutige Unterscheidung gesunder Schwingungsmuster möglich ist. In weiteren Studien wird die objektive PVG-Analyse an umfangreichen Patientenkollektiven untersucht und validiert.


Literatur

1.
Lohscheller J, Eysholdt U. Phonovibrogram visualization of entire vocal fold dynamics. Laryngoscope. 2008;118(4):753-8.
2.
Lohscheller J, Eysholdt U, Toy H, Döllinger M. Phonovibrography: mapping high-speed movies of vocal fold vibrations into 2D-diagrams for visualizing and analyzing the underlying laryngeal dynamics. IEEE Trans Med Imaging. 2008;27(3):300-9.
3.
Alpaydin E. Maschinelles Lernen. Oldenbourg; 2004.