gms | German Medical Science

26. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

11.09. - 13.09.2009, Leipzig

Automatische Diagnose gesunder und paralytischer Stimmlippenschwingungen mittels PVG-Klassifikation

Vortrag

  • corresponding author presenting/speaker Daniel Voigt - Universitätsklinikum Erlangen, Phoniatrische und Pädaudiologische Abteilung, Erlangen, Deutschland
  • author Michael Döllinger - Universitätsklinikum Erlangen, Phoniatrische und Pädaudiologische Abteilung, Erlangen, Deutschland
  • author Anxiong Yang - Universitätsklinikum Erlangen, Phoniatrische und Pädaudiologische Abteilung, Erlangen, Deutschland
  • author Ulrich Eysholdt - Universitätsklinikum Erlangen, Phoniatrische und Pädaudiologische Abteilung, Erlangen, Deutschland
  • author Jörg Lohscheller - Fachhochschule Trier, Fachbereich Informatik, Medizininformatik, Trier, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 26. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Leipzig, 11.-13.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09dgppV23

DOI: 10.3205/09dgpp35, URN: urn:nbn:de:0183-09dgpp357

Published: September 7, 2009

© 2009 Voigt et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Bei der Stimmdiagnostik ist es besonders wichtig, die dynamischen Eigenschaften der zugrunde liegenden Stimmlippen(SL)-schwingungen zu betrachten. Endoskopische Hochgeschwindigkeits(HG)-kameras erfassen die Schwingungsvorgänge hierbei in ausreichend hoher zeitlicher Auflösung. Meist erfolgt die klinische Auswertung der HG-Videos durch Zeitlupenwiedergabe und subjektive Bewertung der Bewegungsabläufe. Die derart getroffenen Diagnosen weisen jedoch eine geringe Interrater-Reliabilität auf.

Mit der quantitativen Beschreibung von Phonovibrogrammen (PVG) steht nun ein Analyseverfahren zur Verfügung, das eine objektive Befundung von SL-Schwingungen ermöglicht. Durch PVG-Parametrisierung und maschinelle Lernverfahren werden dabei SL-Schwingungen automatisch einer Diagnoseklasse zugeordnet. In dieser Studie wurde ein Kollektiv von 45 weiblichen Probanden (15 gesund; 15 linke, 15 rechte Paresen) mittels PVG-Klassifikation untersucht. Zur Verifikation wurde das Verfahren mit den Ergebnissen einer Expertengruppe (n=6) verglichen, deren Aufgabe es war, die SL-Schwingungen einer der drei Diagnoseklassen zuzuordnen.

Die PVG-Klassifikation erreicht eine zuverlässige Abgrenzung gesunder und pathologischer SL-Schwingungen (Genauigkeit: 90,8% ± 13,0%). Bei der 3-Klassen-Unterscheidung ist sie den menschlichen Bewerterurteilen überlegen (Verbesserung: 7,5%). Die objektive PVG-Analyse hat somit das Potenzial, erfolgreich bei der Diagnostik von Stimmstörungen eingesetzt zu werden.


Text

Einleitung/Hintergrund

Eine tragende Rolle bei der klinischen Stimmdiagnostik spielt die Untersuchung der dynamischen Eigenschaften der Stimmlippen (SL) während der Phonation. Als besonders geeignet hat sich hierfür die digitale Hochgeschwindigkeits- (HG) Videoendoskopie erwiesen [1]. Diese Technik erlaubt es, die SL-Bewegungen in Echtzeit aufzuzeichnen und so auch irreguläre Schwingungen zu untersuchen. Meist erfolgt die klinische Auswertung der HG-Aufnahmen per Zeitlupenwiedergabe in subjektiver Form. Die resultierenden Diagnosen weisen dementsprechend nur eine geringe Interrater-Reliabilität auf.

Mit Einführung der Phonovibrographie steht nun ein automatisches Bildanalyseverfahren zur Verfügung, das die aufgezeichneten SL-Schwingungen zuverlässig detektiert und in eine anschauliche Grafik, das so genannte Phonovibrogramm (PVG), überführt [2]. Mithilfe von numerischen Merkmalen, die aus einem solchen PVG abgeleitet werden, konnte bereits eine erfolgreiche objektive Unterscheidung zwischen gesunden und funktionell gestörten SL-Schwingungen erreicht werden [3]. In dieser Studie wird das PVG-basierte Beschreibungs- und Klassifikationsverfahren erweitert und auf das Krankheitsbild der unilateralen Parese angewandt. Zusätzlich werden die erreichten Ergebnisse durch ein Expertengremium validiert.

Material

Ein Probandenkollektiv von 45 Frauen wurde untersucht (Altersmedian: 44,4 Jahre), jeweils 15 von ihnen hatten eine links- bzw. rechtsseitige Parese. Die verbleibenden 15 Frauen waren gesund und wiesen keine Anzeichen für eine Stimmstörung auf.

Methode

Mithilfe einer endoskopischen HG-Kamera (Wolf Highspeed Endocam 5542) wird von allen Probandinnen eine gehaltene Phonation des Vokals /a/ aufgezeichnet. Die resultierenden HG-Aufnahmen werden automatisch analysiert, die enthaltenen Schwingungen der beiden SL detektiert und in ein PVG transformiert [2]. Aus diesem werden konturbasierte PVG-Merkmale bestimmt, die die Regularität, die Symmetrie sowie die zeitliche Veränderlichkeit der SL-Bewegungen erfassen [3]. Um hierbei die hinsichtlich ihrer Beschreibungsfähigkeit am besten geeigneten Merkmale zu bestimmen, werden verschiedene SL-Schwingungszustände betrachtet (10%, 30%, 50%, 70% und 90% der Auslenkung). Zudem werden für alle HG-Aufnahmen konventionelle glottale Merkmale berechnet [4]. Diese quantitativen Beschreibungen der SL-Dynamik werden mit einem geeigneten maschinellen Lernverfahren, der so genannten Support Vektor Maschine [5], bezüglich ihrer Klasseneinteilung analysiert (gesund/Parese, gesund/Parese links, gesund/Parese rechts, gesund/Parese links/Parese rechts). Die dabei gefundenen Abhängigkeiten zwischen den Merkmalen werden in einem objektiven Klassifikationsmodell abgebildet. Mithilfe des Modells werden klinische Beispiele, deren Diagnosen zwar bekannt, die aber zu Evaluierungszwecken dem Klassifikationsverfahren vorenthalten werden, automatisch der wahrscheinlichsten Krankheitsklasse zugeordnet. Somit lässt sich eine Aussage über die Zuverlässigkeit der PVG-basierten Diagnose treffen.

Um den objektiven Analyseansatz mit einer subjektiven Beurteilung menschlicher Bewerter zu vergleichen, werden die 45 analysierten HG-Aufnahmen zusätzlich sechs klinisch erfahrenen Experten präsentiert. Dabei ist die SL-Dynamik der einzige diagnostische Anhalts¬punkt, da alle anderen Hinweise zuvor aus den HG-Videos entfernt wurden. Die Experten ordnen die klinischen Fälle manuell den drei möglichen Diagnoseklassen zu. Anschließend wird die Klassifikationsgüte und die Interrater-Reliabilität bestimmt. Um auch die Intrarater-Reliabilität zu ermitteln, werden sechs endoskopische HG-Aufnahmen doppelt präsentiert.

Ergebnisse

Die mittleren objektiven Klassifikationsergebnisse sind in Abbildung 1a+b [Abb. 1] dargestellt. Zwischen gesunden und pathologischen SL-Schwingungen (gemittelte 2-Klassenprobleme) konnte mit einer Zuverlässigkeit von 90,8%±13,0% unterschieden werden. Die Untersuchung des 3-Klassenproblems erreichte eine Klassifikationsgüte von 72,0%±19,9%. Mit PVG-Konturmerkmalen, die 50%-ige SL-Auslenkungen beschreiben, wurden bessere Ergebnisse erzielt als für weiter geöffnete bzw. geschlossene Auslenkungszustände. Die konventionellen Glottismerkmale lieferten eine Klassifikationsgüte von 76,4%±16,1%. Die in Abbildung 2 [Abb. 2] aufgeführten Ergebnisse der subjektiven Bewertung zeigen eine geringe Inter-/Intrarater-Reliabilität. Für das 3-Klassenproblem erreichten die Experten eine mittlere Klassifikationsgüte von 64,4%±9,8%.

Diskussion

Anhand von PVG-Konturmerkmalen wurde in dieser Studie die klinisch relevante Abgrenzung gesunder und pathologischer SL-Schwingungen mit hoher Zuverlässigkeit erreicht. Die bereits in [3] gezeigte Eignung des objektiven PVG-Analyseansatzes wurde somit auf das paralytische Krankheitsbild ausgeweitet. Eine Verbesserung um 7,5% gegenüber subjektiven Experteneinschätzungen wurde bei der Unterscheidung des 3-Klassenproblems erreicht. Zudem konnte eine hohe Variabilität innerhalb der Bewerterurteile nachge¬wiesen werden. Als besonders geeignet für die Klassifikation erwiesen sich PVG-Merkmale, die halbe SL-Auslenkungszustände beschreiben. Die Betrachtung weiter geöffneter und geschlossener Auslenkungszustände führte zu einer verschlechterten Unterscheidung gesunder und paralytischer SL-Schwingungen. Im Vergleich zu konventionellen glottalen Parametern verbesserte sich die Klassifikationsgüte um 11,2%. Der objektive PVG-Analyseansatz stellt somit eine zuverlässige Diagnoseunterstützung bei Stimmerkrankungen bereit und besitzt im klinischen Einsatz großes Potenzial. In zukünftigen Studien soll er um Merkmals¬beschreibungen des zugehörigen Stimmsignals erweitert werden.


Literatur

1.
Döllinger M. The next step in voice assessment: High-speed digital endoscopy and objective evaluation. Current Bioinformatics. 2009;4(2):101-11.
2.
Lohscheller J, Eysholdt U, Toy H, Döllinger M. Phonovibrography: mapping high-speed movies of vocal-fold vibrations into 2-D diagrams for visualizing and analyzing the underlying laryngeal dynamics. IEEE Trans Med Imaging. 2008;27(3):300-9.
3.
Voigt D, Döllinger M, Yang A, Braunschweig T, Eysholdt U, Lohscheller J. Computergestützte Klassifikation von Phonovibrogrammen zur Diagnostik von Stimmstörungen. In: Aktuelle phoniatrisch-pädaudiologische Aspekte 2008. Bd.16. 25. Wissenschaftliche Jahrestagung der DGPP; 2008; Düsseldorf. Verfügbar unter: http://www.egms.de/en/meetings/dgpp2008/08dgpp58.shtml External link
4.
Qiu Q, Schutte HK, Gu L, Yu Q. An automatic method to quantify the vibration properties of human vocal folds via videokymography. Folia Phoniatr. 2003;55(3):128-36.
5.
Duda RO, Hart PE, Stork DG. Pattern classification. 2. Aufl. New York: John Wiley & Sons; 2001.