gms | German Medical Science

25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12.09. - 14.09.2008, Düsseldorf

Computergestützte Klassifikation von Phonovibrogrammen zur Diagnostik von Stimmstörungen

Poster

  • corresponding author presenting/speaker Daniel Voigt - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Michael Döllinger - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Anxiong Yang - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Thomas Braunschweig - Universitätsklinikum Jena, HNO-Klinik, Institut für Phoniatrie und Pädaudiologie, Jena, Deutschland
  • author Ulrich Eysholdt - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Jörg Lohscheller - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie. Düsseldorf, 12.-14.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08dgppP14

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2008/08dgpp58.shtml

Veröffentlicht: 27. August 2008

© 2008 Voigt et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Die Unterscheidung zwischen gesunden und pathologischen Stimmlippenschwingungen ist ein elementarer Bestandteil bei der Diagnostik und Therapie von Stimmstörungen. Zur Erfassung der Schwingungsdynamik eignen sich zeitlich hochauflösende Endoskopiesysteme, welche die Bewegungen der Stimmlippen während der Phonation digital aufzeichnen und eine Offline-Analyse der Bewegungsvorgänge ermöglichen. Mit der Einführung der Phonovibrographie steht ein neuartiges Verfahren zur Verfügung, das die Schwingungen der Stimmlippen aus den Videodaten extrahiert und im Phonovibrogramm (PVG) visualisiert. Das PVG repräsentiert die gesamte Schwingungscharakteristik beider Stimmlippen und eignet sich für eine weiterführende Interpretation und quantitative Analyse der laryngealen Dynamik.

In der hier vorgestellten Studie wurde die Stimmlippendynamik von 50 stimmgesunden Probanden und 50 Patienten mit Stimmstörungen mittels PVG analysiert. Mit einem kombinierten Ansatz aus domänenspezifischer Merkmalserzeugung und Methoden des maschinellen Lernens wurde aus der gesamten Trainingsmenge induktiv die prototypische Beschreibung eines verallgemeinerten Krankheitsmodells ermittelt. Unter Verwendung des resultierenden Modells lassen sich wahrscheinlichkeitsbasierte Vorhersagen über die Klassenzugehörigkeit von Probanden mit unbekanntem Befund treffen. Weiterhin erlaubte das Modell, die Beschreibungsfähigkeit verschiedener Merkmalssätze gegeneinander abzuwägen. Die Ergebnisse des Klassifikationsverfahrens belegen das Potenzial, das die Phonovibrographie bei der Charakterisierung und Identifikation pathologischer Stimmlippenschwingungen besitzt.


Text

Einleitung

Ein zentraler Aspekt bei der Diagnostik von Stimmstörungen ist die Differenzierung gesunder und pathologischer Stimmlippenschwingungen. Die Schwingungsmuster eines Patienten werden dazu während der Phonation mit zeitlich hochauflösenden Endoskopiesystemen aufgezeichnet und anschließend ausgewertet. Für die quantitative Analyse schwingender Stimmlippen wurde das Phonovibrogramm (PVG) entwickelt, das die gesamten Bewegungsinformationen in einem einzigen Bild zusammenfasst und einer Analyse zugänglich macht [1]. Mittels dieser Visualisierungstechnik lassen sich die Auslenkungen beider Stimmlippen in kompakter Form veranschaulichen und Bewegungsanomalien identifizieren. Das PVG bietet darüber hinaus die Möglichkeit, die charakteristischen Eigenschaften der zugrunde liegenden Schwingungsmuster durch numerische Bildmerkmale zu erfassen. Dazu wurde von Lohscheller et al. ein Verfahren entwickelt, mit dem die Bewegungseigenschaften der Stimmlippen durch Konturmerkmale beschrieben werden [2]. An exemplarischen Datensätzen wurde die Anwendbarkeit des Verfahrens bei der Unterscheidung von Schwingungsformen gezeigt. In der vorliegenden Studie wird die objektive PVG-Analyse erstmals zur Identifikation funktioneller Stimmstörungen eingesetzt. Um dabei gesundes von pathologischem Schwingungsverhalten abzugrenzen, wird ein maschinelles Lernverfahren verwendet, das aus den aufgenommen Daten automatisch ein Modell gestörter Schwingungen entwickelt. Mit diesem Modell lassen sich dann Probanden mit unbekannten Befund den Krankheitsklassen zuordnen. Mithilfe des Klassifikationssystems wird hierbei untersucht, wie gut sich gesunde von kranken Schwingungen unterscheiden lassen und inwieweit zwischen hyper- von hypofunktionellen Stimmstörungen getrennt werden kann. Darüber hinaus wird ein Vergleich zwischen dem neuen PVG-basierten Beschreibungsansatz und herkömmlichen Methoden gezogen.

Methode

Während einer gehaltenen Phonation wurden die Stimmlippenschwingungen von 100 Probandinnen mit einer Hochgeschwindigkeitskamera (4000 Bilder pro Sekunde, 256x256 Bildpunkte) aufgezeichnet. Bei 25 der untersuchten Frauen wurde eine hyperfunktionelle und bei 25 weiteren eine hypofunktionelle Dysphonie diagnostiziert. Als Referenzgruppe dienten endoskopische Aufnahmen von 50 stimmgesunden jungen Frauen. Aus allen Videos wurden für eine Sequenz von 1000 Bildern die Auslenkungen der Stimmlippen extrahiert und die zugehörigen PVGs erzeugt. Anschließend wurden aus den PVGs Konturmerkmale extrahiert, die äquivalente Auslenkungszustände in der öffnenden und schließenden Schwingungsphase eines Zyklus repräsentieren [2]. Um vorhandene Schwingungsasymmetrien zu quantifizieren, wurde für alle Konturen das Verhältnis zwischen linker und rechter Stimmlippenseite berechnet. Als Referenz für die PVG-Merkmale wurden außerdem für alle Aufnahmen konventionelle glottale Parameter bestimmt. Zu diesen gehörten der Öffnungs- und Geschwindigkeitsquotient, die Glottisschlussinsuffizienz und die Zeit- und Amplitudenperiodizität [3]. Für jede Probandin wurden sowohl die PVG- als auch die Glottismerkmale für jeden Zyklus der analysierten Sequenz berechnet und durch Mittelwertbildung zu jeweils einem Merkmalsvektor zusammengefasst. Zudem wurde die Standardabweichung der Merkmale erfasst, um so deren zeitliche Variabilität abzubilden. Für jede Probandin ergaben sich somit zwei unterschiedliche quantitative Merkmalsbeschreibungen der Stimmlippenschwingungen. Zur Analyse der extrahierten Merkmale wurde ein als Support-Vektor-Maschine bezeichnetes maschinelles Lernverfahren eingesetzt [4]. Dieses Analyseverfahren ist in der Lage, automatisch Regelmäßigkeiten in den Daten zu finden und in einem Klassifikationsmodell zu beschreiben. Mithilfe dieses Modells ließ sich für jeden Merkmalsdatensatz die wahrscheinlichste Krankheitsklasse bestimmen. Die Güte der Klassifikationsmodelle wurde mittels 10-facher Kreuzvalidierung abgeschätzt. Somit wurden jeweils 90% der Daten zum Aufbau des Modells und 10% zur Evaluation verwendet. Dabei wurden folgende Zweiklasseneinteilungen betrachtet: gesund und pathologisch (alle hyper- und hypofunktionellen Befunde gemeinsam), gesund vs. hyperfunktionell, gesund vs. hypofunktionell sowie ausschließlich hyper- vs. hypofunktionelle Patientinnen. Die Klassifikationen wurden einmal ausschließlich mit PVG-Merkmalen und einmal mit Glottismerkmalen durchgeführt.

Ergebnisse und Diskussion

Die in dieser Studie erreichten Klassifikationsgüten sind in Tabelle 1 [Tab. 1] dargestellt. Hierbei ist zu erkennen, dass unter Verwendung der PVG-Merkmale für alle Fragestellungen stets mehr als 73% der Datensätze richtig klassifiziert wurden. In einem Fall (gesund vs. hypofunktionell) wurde sogar die Schwelle von 80% übertroffen. Insgesamt konnte zwischen der Gruppe der gesunden und hyper- bzw. hypofunktionellen Probanden besser unterschieden werden als zwischen den gesunden und den pathologisch eingestuften Patienten. Dies mag sich damit begründen lassen, dass im einen Krankheitsbild tendenziell ein überhöhter und im anderen ein verminderter Muskeltonus vorliegt. Das als „normal“ zu bezeichnende gesunde Schwingungsverhalten ist zwischen diesen beiden Zuständen anzusiedeln. Eine Zusammenlegung dieser beiden Krankheitsbilder führt folglich dazu, dass sich die gesunde und die pathologische Klasse zu stark überlagern und die Klassengrenzen daher weniger gut vom Analyseverfahren bestimmt werden können. Die PVG-Merkmale erzielten durchweg bessere Ergebnisse als die herkömmlichen glottalen Merkmale – im Mittel betrug die Steigerung 5,4%. In nachfolgenden Studien werden weitere Krankheitsbilder wie paralytische Dysphonien, benigne und maligne organische Veränderungen bei der Klassifikation von PVG-Merkmalen berücksichtigt.

Diese Arbeit wurde unterstützt von der Deutschen Forschungsgemeinschaft (DFG) EY15/11 3-4.


Literatur

1.
Lohscheller J, Eysholdt U, Toy H, Döllinger M. Phonovibrography: Mapping high-speed movies of vocal fold vibrations into 2-D diagrams for visualizing and analyzing the underlying laryngeal dynamics. IEEE Trans Med Imaging. 2008;27(3):300-9.
2.
Lohscheller J, Voigt D, Yang A, Eysholdt U, Döllinger M. Merkmalsbasierte Analyse von Phonovibrogrammen zur Beschreibung von Stimmlippenschwingungen. 25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie DGPP. 2008. Verfügbar unter: http://www.egms.de/en/meetings/dgpp2008/08dgpp57.shtml. Externer Link
3.
Qiu Q, Schutte H K, Gu L, Yu Q. An Automatic Method to Quantify the Vibration Properties of Human Vocal Folds via Videokymography. Folia Phoniatr. 2003;55(3):128-36.
4.
Vapnik VN. The nature of statistical learning theory. Springer; 1995.