gms | German Medical Science

Dreiländertagung D-A-CH
24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28. - 30.09.2007, Innsbruck, Österreich

Automatische Unterscheidung zwischen gesunder und dysphoner Stimmgebung anhand eines biomechanischen Stimmlippenmodells

Automatic differentiation between normal and dysphonic voice production by means of a biomechanical vocal fold model

Vortrag

  • corresponding author presenting/speaker Tobias Wurzbacher - Universitätsklinikum Erlangen, Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Raphael Schwarz - Universitätsklinikum Erlangen, Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Michael Döllinger - Universitätsklinikum Erlangen, Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Ulrich Eysholdt - Universitätsklinikum Erlangen, Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Jörg Lohscheller - Universitätsklinikum Erlangen, Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirugie. Schweizerische Gesellschaft für Phoniatrie. Dreiländertagung D-A-CH, 24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e.V.. Innsbruck, Österreich, 28.-30.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07dgppV12

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2007/07dgpp17.shtml

Veröffentlicht: 28. August 2007

© 2007 Wurzbacher et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Die Stimmlippendynamik kann mittels endoskopischer Hochgeschwindigkeitskameras (HG-Kameras) aufgezeichnet werden. Diese Aufnahmetechnik ermöglicht die korrekte Interpretation von aperiodischen und sich verändernden Schwingungsmustern. Dies bietet den Vorteil, die Stimmgebung unter variierenden, dynamischen Aspekten zu studieren (z.B. durch Stimmmanöver mit aktiver Veränderung der Tonhöhe) und somit näher am täglichen Stimmgebrauch zu sein.

Ziel einer Studie mit 40 Probanden, bestehend aus jeweils 20 Stimmgesunden und -kranken, war es, eine automatische, objektive Unterscheidung zwischen den Gruppen anhand von HG-Aufnahmen zu ermöglichen. Hierzu wurden Aufnahmen sowohl bei der Phonation eines Vokals mit konstanter Tonhöhe als auch bei einer Grundfrequenzerhöhung vorgenommen. Zunächst wurde mit Hilfe einer Bildverarbeitung der zeitliche Verlauf der Stimmlippenschwingungen aus dem dorsalen, medialen und ventralen Stimmlippendrittel extrahiert. Die so gewonnenen Bewegungskurven wurden durch ein zeitabhängiges Mehr-Massen-Modell ausgewertet, das mittels einer Optimierungsprozedur automatisch an die Bewegungskurven adaptiert wurde. Die zeitveränderlichen Modellparameter charakterisieren auftretende Asymmetrien sowohl in lateraler als auch in longitudinaler Richtung und geben Auskunft über den Asymmetriegrad. Angewandt auf die 40 Probanden konnten die regulären von den pathologischen Schwingungsformen automatisch voneinander unterschieden werden.


Text

Einleitung

Die klinische Diagnostik der Stimmlippenschwingungen basiert derzeit primär auf einem Untersuchungsparadigma bei dem der Patient eine stationär gehaltene Phonation durchführt. Zwar wird auf diese Weise die prinzipielle Funktionsweise getestet einen Ton bei konstanter Lautstärke/Grundfrequenz zu phonieren, aber eine Überprüfung der Schwingungscharakteristik unter dynamischen Bedingungen wird nicht abgedeckt. Hierfür bieten sich nicht-stationäre Phonationsparadigmen an, bei denen der Proband aktiv die Tonhöhe/Lautstärke verändert. In dieser Studie wird untersucht inwiefern sich derartige Paradigmen für eine Beurteilung der Stimmlippendynamik eignen. Laryngoskopische Hochgeschwindigkeitsaufnahmen (HG-Aufnahmen) bilden die Basis zur Aufnahme und Interpretation von sowohl periodischen als auch irregulären und nicht-stationären Stimmlippenschwingungen. Für eine objektive und quantitative Auswertung der HG-Videos wird ein biomechanisches Stimmlippenmodell verwendet, dessen Dynamik an die beobachteten Schwingungen durch Optimierung der Modellparameter angepasst wird. Anhand einer Probandenstudie wird untersucht, ob die ermittelten Modellparameter für beide Phonationsarten eine Unterscheidung zwischen gesunder und dysphoner Stimmgebung gestatten.

Methode

Es wurden 40 Probanden untersucht: 20 stimmgesunde Probanden (im Alter von 19;3 ± 1;6 Jahren) und 20 Patienten (44;3 ± 13;1 Jahre) mit verschiedenen Stimmstörungen (9x Rekurrensparese, 7x funktionelle Dysphonie, 3x Reinke-Ödem, 1x Phonationsverdickungen). Von jedem Probanden wurde eine HG-Aufnahme aufgezeichnet. Die ersten zehn Probanden aus beiden Gruppen führten eine stationär gehaltene Phonation (SGP) aus. Demgegenüber phonierten die zweiten zehn Probanden eine Grundfrequenzerhöhung (GFE) [1]. Aus den Aufnahmen wurden die Bewegungen der Stimmlippenkanten mittels Bildverarbeitung extrahiert [2]. Um neben den häufig auftretenden Links-Rechts-Asymmetrien (LR-Asymmetrien) auch Anterior-Posterior-Asymmetrien (AP-Asymmetrien) in die Untersuchung mit einfließen zu lassen [3], schloss die Auswertung Schwingungen aus dem dorsalen, medialen und ventralen Stimmlippendrittel ein. Unter der Zielsetzung, ein Maß der Schwingungsasymmetrie zu bestimmen, wurde ein biomechanischer Modellansatz für die Analyse der extrahierten Schwingungen eingesetzt. Das Verfahren motiviert sich aus den Ergebnissen früherer Studien, welche bereits erfolgreich die zeitvariante mediale 1D-Stimmlippendynamik während einer GFE durch ein Zwei-Massen-Modell klassifizieren konnten [1]. Für die synchrone Auswertung dorsaler, medialer und ventraler Schwingungseigenschaften wurde das Zwei-Massen-Modell auf ein transientes Mehr-Massen-Modell (TMM) erweitert. Das TMM besteht aus gekoppelten Feder-Masse-Oszillatoren, die durch einen subglottalen Luftdruck in Schwingungen versetzt werden. Durch Variation der Modellparameter, die als Q j zusammengefasst werden, wird die Dynamik des Modells beeinflusst. Powells Optimierungsprozedur [4] veränderte systematisch die Parameter Q j und passte abschnittsweise die TMM-Dynamik an die Stimmlippenschwingungen aus den HG-Aufnahmen an. Basierend auf den Parametern Q j wurde ein Rating der Schwingungsasymmetrie berechnet. Hierzu wurden zunächst Quotienten aus den Q j -Werten der linken und rechten Modellseite gebildet. Abweichungen der Quotientenwerte von dem Wert Eins bestimmten den Grad an LR-Asymmetrie und stellten den ersten Teil des Rating-Wertes dar. AP-Asymmetrien wurden durch die Streuung der Quotientenwerte beschrieben und machten den zweiten Teil des Rating-Wertes aus. Anhand des Ratings wurde mittels eines Random-Tree-Klassifikators [5] eine automatische Einteilung in gesunde und dysphone Stimmgebung vorgenommen.

Ergebnisse

Die angepasste TMM-Dynamik liefert Optimierungsparameter, welche die zeitvarianten LR und AP-Asymmetrien quantitativ in einer kompakten Form wiedergeben. Abbildung 1 [Abb. 1] visualisiert am Beispiel von vier unterschiedlichen HG-Aufnahmen den Zeitverlauf der Parameter in einem Diagramm, welches eine LR-Asymmetrieebene aufspannt. Längs der Winkelhalbierenden herrscht LR-Symmetrie vor. Pro HG-Aufnahme ist ein Kurventripel (dorsal, medial, ventral) abgebildet, das zur Bewertung der AP-Asymmetrie herangezogen wird: je größer die Streuung der Kurventripel untereinander, desto größer sind die Schwingungsunterschiede in longitudinaler Richtung. Die Kurven für Proband #9 sind typisch für eine gesunde Stimmgebung im SGP-Paradigma. Sie sind auf einen Punkt nahe der Winkelhalbierenden zusammengedrängt. Der Fall einer pathologischen Stimmgebung und dem SGP-Untersuchungsparadigma ist durch die Kurven des Probanden #16 illustriert, bei dem die Kurven weiter entfernt von der Winkelhalbierenden zu liegen kommen – interpretiert als LR-Asymmetrie der Stimmlippenschwingungen. Da die Kurven sich trotz der SGP nicht auf einem Punkt konzentrieren, deutet dies auf Frequenzinstabilitäten während der Phonation hin. Dahingegen müssen die Kurven für den stimmgesunden Probanden #26, der eine GFE durchführte, entlang der Winkelhalbierenden verteilt sein. Die GFE-Kurven des dysphonen Probanden #38 überstreichen ein weites Gebiet in der oberen Hälfte der Asymmetrieebene. Der verschiedenartige dorsale, medial und ventrale Verlauf weist auf AP-Asymmetrien hin.

Die unterschiedliche Ausprägung der Kurven beeinflusst den Wert des Ratings, das in Abbildung 2 [Abb. 2] für die 40 Probanden dargestellt ist. Zusätzlich sind die errechneten Schranken von 0,25 für das SGP und 0,22 für die GFE eingezeichnet. Liegt der Ratingwert unter dieser Schranke wird die Stimmlippenschwingung als normal eingestuft, wohingegen ein Wert darüber für zunehmende pathologische Schwingungen steht. Mit Hilfe der Schranken lassen sich die 40 Probanden nach gesunder und dysphoner Stimmgebung trennen.

Diskussion

Die HG-Aufnahmetechnik ist das Mittel der Wahl, um zeitlich und räumlich hochaufgelöste Videos von Stimmlippenschwingungen zu erhalten. Eine HG-Stimmuntersuchung mit dem GFE-Paradigma untersucht den Vorgang der Stimmgebung unter sich kontinuierlich verändernder Stimmlippenzustände, die auf variierender Anspannung der Kehlkopfmuskulatur beruhen. Im Gegensatz dazu wird bei der SGP nur bei einem konstanten Muskeltonus untersucht. Die quantitative Schwingungsanalyse anhand der optimierten TMM-Dynamik erfasst für beide Phonationsparadigmen LR und AP-Asymmetrien und trägt zur objektiven Bewertung des Stimmgebungsprozesses bei. Das berechnete Asymmetrie-Rating des GFE-Paradigmas kann ebenso wie das SGP-Rating für eine Klassifikation nach gesunder/dysphoner Stimmgebung genutzt werden. Somit eignet sich die GFE für eine Beurteilung der Stimmlippenschwingungsqualtität. Ob das GFE Paradigma zusammen mit der Modellierung einen Mehrwert für die klinische Diagnostik bereitstellt, muss in einer Folgestudie mit umfangreicherem Probandenkollektiv erforscht werden. Hierbei soll auch geklärt werden, inwieweit sich unterschiedliche Dysphonien anhand der SGP bzw. GFE Rating-Werte voneinander unterscheiden lassen.


Literatur

1.
Wurzbacher T, Schwarz R, Döllinger M, Hoppe U, Eysholdt U, Lohscheller J. Model-based classification of nonstationary vocal fold vibrations. J Acoust Soc Am. 2006;120:1012-27.
2.
Lohscheller J, Toy H, Rosanowski F, Eysholdt U, Döllinger M. Clinically evaluated procedure for the reconstruction of vocal fold vibrations from endoscopic digital high-speed videos. Med Image Anal. In press 2007.
3.
Neubauer J, Mergell P, Eysholdt U, Herzel H. Spatio-temporal analysis of irregular vocal fold oscillations: biphonation due to desynchronization of spatial modes. J Acoust Soc Am. 2001;110:3179-92.
4.
Brent RP. Algorithms for minimization without derivatives. Prentice-Hall; 1973.
5.
Mierswa I, Wurst M, Klinkenberg R, Schulz M, Euler T. YALE: Rapid Prototyping for Complex Data Mining Tasks. Proc Int Conf Knowledge Discovery and Data Mining; 2006.