gms | German Medical Science

27. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

17.09. - 19.09.2010, Aachen

Automatisierte Vorhersage der Behauchtheit bei stimmgestörten Patienten

Vortrag

Suche in Medline nach

  • corresponding author presenting/speaker Elena Kramer - Abt. für Phoniatrie und Pädaudiologie, Universität zu Lübeck, Deutschland
  • author Rainer Schönweiler - Abt. für Phoniatrie und Pädaudiologie, UK Schleswig-Holstein, Campus Lübeck, Deutschland
  • author Roland Linder - Technisch-Naturwissenschaftliche Fakultät der Universität zu Lübeck, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 27. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Aachen, 17.-19.09.2010. Düsseldorf: German Medical Science GMS Publishing House; 2010. Doc10dgppV28

DOI: 10.3205/10dgpp40, URN: urn:nbn:de:0183-10dgpp402

Veröffentlicht: 31. August 2010

© 2010 Kramer et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Behauchtheit entsteht durch Luftverlust während Phonation bei unvollständigem Glottisschluss („statische Schlussinsuffizienz”) oder durch zu kurze Schlussphase („dynamische Schlussinsuffizienz”). Die akustischen Konsequenzen einer behauchten Phonation sind u.a. große Amplitudenschwankungen, Energieabfall zu den höheren Frequenzen sowie Rauschanteile im mittleren und höheren Frequenzbereichen. Die bisherigen Ergebnisse der automatischen Stimmklassifikation nach dem Behauchtheitsgrad ließen vermuten, dass bei der Wahrnehmung der Behauchtheit neben spektralen Eigenschaften auch zeitliche Aspekte des Sprachsignals eine Rolle spielen könnten.

Material und Methoden: Deshalb wurden gehaltene Vokale /e/ sowie die Textpassage „Der Nordwind und die Sonne” von 145 stimmgestörten und 5 gesunden Probanden mit der Software Praat analysiert. 8 Stimmexperten klassifizierten die Behauchtheit im Rahmen einer RBH-Bewertung. Neben 7 klassischen Stimmgüteparametern, die als akustische bzw. aerodynamische Korrelate von Behauchtheit gelten, wurden 8 weitere textbezogene Parameter ausgewertet.

Ergebnisse: Durch Hinzunahme textbezogener Merkmale in die quadratische Diskriminanzfunktion verbesserte sich die mittlere Erfolgsrate „korrekter” Klassifikationen von 60% auf 80%. Gleichzeitig erhöhten sich die Erfolgsraten in den einzelnen Bewertungsstufen.

Diskussion: Wir sehen in den Ergebnissen einen Hinweis darauf, dass automatische Stimmgüteklassifikation durch Merkmale aus gesprochener Sprache verbessert werden kann. Speziell im Falle von Behauchtheit hat jedoch die automatische Erfassung von Lesegeschwindigkeit und Pausenverhalten eine geringe Validität bei Patienten mit Leseschwierigkeiten.


Text

Einleitung und Hintergrund

Die behauchte Phonation ist auf einen unvollständigen Glottisschluss oder eine zu kurze Schlussphase zurückzuführen. Sie zeichnet sich aus durch: einen Energieabfall zu den höheren Frequenzen zugunsten vermehrter Rauschanteile in mittleren und höheren Frequenzbereichen, vermehrte Amplitudenschwankungen, hohe Offenquotienten und verkürzte Tonhaltedauer. Je nach Ausprägung des „unökonomischen” Luftverbrauches ist die vermehrte Atemtätigkeit während des Sprechens für den Zuhörer wahrnehmbar. Bei Sprechern mit behauchtem Stimmklang verringert sich die Lautstärke zum Ende einer Phrase, sie haben Schwierigkeiten mit der Koordination stimmhafter Konsonanten besonders am Ende einer Phrase und zeigen häufig ein hörbares und störendes Ein- und Ausatmen. Bisherige Untersuchungen zeigten, dass sich diese subjektiv wahrnehmbaren Charakteristika nicht ausreichend allein mit spektralen Eigenschaften des Stimmsignals, allein mit dem GNE-Parameter oder allein mit Daten zu zeitlichen Aspekten des Sprechens – insbesondere Pausen – abbilden, was aber für eine objektive Heiserkeitsanalyse notwendig ist. Deshalb kombinierten wir diese Parameter zusammen mit automatisierten Verfahren, um Behauchtheit und Luftverbrauch objektiv zu klassifizieren.

Material und Methoden

Untersucht wurden die akustischen und elektroglottographischen (EGG) Aufnahmen von 145 stimmgestörten und 5 gesunden Probanden. Das Material bestand aus gehaltenen Vokalen /e/ und der Textpassage „Der Nordwind und die Sonne”. 8 Stimmexperten gaben ihre Urteile zur Behauchtheit nach dem 4-Punkte Bewertungssystem B0 bis B3 ab. Im ersten Klassifikationsversuch wurden 5 akustische und 2 aerodynamische Parameter verwendet, die als bewährte Korrelate von Behauchtheit gelten. Neben den klassischen Parametern wurden an stimmhaften Textsegmenten Shimmer, Offenquotient (ermittelt nach differenzierter EGG-Methode [1]) und Intensität gemessen. 5 weitere Parameter ergaben sich aus der Textsegmentierung in Sprechabschnitte und Pausen (Tabelle 1 [Tab. 1]). Es war zu berücksichtigen, dass die Bewertungsstufe B0 zum größten Teil aus Stimmpatienten bestand (bei denen die Rauigkeit dominiert). Daher konnten die errechneten Mittelwerte mit den geltenden Normwerten von Stimmgesunden nicht ohne Weiteres verglichen werden. Die Parameterextraktion und Textsegmentation erfolgte mit der Software Praat [2]. Als Klassifikationsmethode wurde die quadratische Diskriminanzanalyse (QDA) verwendet und Leave-one-out validiert.

Ergebnisse

Die Wahrnehmung von Behauchtheit schien von vielen Faktoren abzuhängen. Ohne Ausnahme wiesen die untersuchten Parameter niedrige bis moderate Korrelationen mit der geschätzten Behauchtheit auf. Messungen an gehalteten Vokalen in Kombination mit aerodynamischen Parametern ergaben eine mittlere Klassifikationsgenauigkeit von ca. 60% (vgl. [3]) mit einer ungleichen Verteilung der Erfolgsraten in den einzelnen Bewertungsstufen (Tabelle 2 [Tab. 2]). Mit Ausnahme der Intensität versprachen alle 4 Vokalmessungen und die 2 aerodynamischen Parameter eine gute Trennung zwischen mindestens 2 benachbarten Bewertungsstufen (Kruskal-Wallis-Test; p<0.05). Die Klassifikationsergebnisse erreichten eine mittlere Erfolgsrate von ca. 80%, wenn textbezogene Parameter in der quadratischen Diskriminanzfunktion mitberücksichtigt wurden. Das schlechteste Ergebnis mit einer Erfolgsrate von 64% (2,5-fache Ratewahrscheinlichkeit) wurde in der Bewertungsstufe B3 erzielt.

Alle Stimmen zeichneten sich durch einen hohen Offenquotienten während des Sprechens aus, der mit steigender Behauchtheit noch zunahm. Die Amplitudenschwankungen stiegen ebenfalls mit dem Grad der wahrgenommenen Behauchtheit. Der am Text gemessene Shimmer war wesentlich größer im Vergleich zu Messungen an Vokalen. Wider Erwarten zeigte sich die durchschnittliche Intensität der stimmhaften Sprechabschnitte geringfügig höher in den behauchten Stimmen B2 und B3, was durch größere Anstrengung beim Sprechen erklärt werden kann. Als weiterer Einflussfaktor trat die unterschwellige Lautstärke und Stimmhaftigkeit auf, so dass Phrasenenden häufig als stimmlos eingestuft wurden und deshalb nicht in der Mittelwertstatistik berücksichtigt wurden.

Ein behauchter Stimmklang war oft mit verlängerter Lesezeit und einem hohen prozentualen Pausenanteil verbunden. Als behaucht eingestufte Aufnahmen (B1–B3) unterschieden sich signifikant von klaren Aufnahmen (B0) durch längere Pausen. Dennoch wurde kein Unterschied in den Bewertungsstufen B1 bis B3 in der mittleren Pausendauer festgestellt. Der Ausgleich schien nicht durch längere Pausen, sondern durch öftere Sprechpausen zustande zu kommen. Auch die Sprechrate sank geringfügig mit steigender Behauchtheit. Dieser Effekt wurde durch kürzere Phrasen (verringerte Silbenanzahl zwischen 2 Pausen) aufgrund der häufigeren Pausenanbringung erreicht.

Diskussion

In dieser Arbeit wurden nur Parameter ausgewertet, die ohne hohen apparativen und personellen Aufwand weitgehend automatisch erhoben werden können, da wir eine automatisierte apparative (Screening-) Untersuchung abzielen, die eine Prophylaxe, medikolegale Absicherung oder bevölkerungs- und versorgungsmedizinische Anwendung ermöglichen. Es stellte sich heraus, dass das Verhältnis zwischen Pausenverhalten und Sprechatmung nicht eindeutig war. Daher ist mit der entwickelten Methode keine Vorhersage des Atemrhythmus möglich. Gesunde Sprecher nutzen auch nicht jede Pause zur Einatmung, sondern auch z.B. für Zäsuren. Nur in krankhaften Stimmen können Pausen stärker mit vermehrtem Einatmen korrelieren. Dennoch deuten die Ergebnisse darauf hin, dass sich klare und unterschiedlich behauchte Stimmen in zeitlichen Aspekten des Sprechens unterscheiden. Doch aufgrund von Wiederholungen, Lesefehlern und atypischen Pausen haben zeitliche Messungen bei unflüssigen Lesern leider eine geringe Validität.

Die Parametrisierung der Textpassage setzte 2 Segmentierungsebenen voraus: zum einen die Identifizierung von stimmhaften vs. stimmlosen Segmenten, zum anderen eine Trennung in Schall und Schallunterbrechungen. Die Schwellen für Stimmhaftigkeit und Intensität des Stimmsignals wurden empirisch festgelegt und an pathologische Stimmen angepasst. In nur wenigen Fällen war eine manuelle Anpassung erforderlich, um z.B. stimmhafte Atmungsgeräusche als Pause zu etikettieren. Dabei wurden nur Pausen >200 ms berücksichtigt, um Verwechselungen mit stummen Verschlussphasen im Zusammenhang mit Verschlusslauten bei automatischer Segmentierung zu vermeiden.

Die untersuchten zeitlichen Merkmale aus gesprochener Sprache verbesserten die Klassifikationsgenauigkeit in unseren Patientendaten. Mangels entsprechender Untersuchungen an Stimmgesunden kann keine Aussage darüber gemacht werden, wie sehr die Merkmalswerte bei Stimmgesunden streuen.


Literatur

1.
Henrich N, d'Alessandro C, Doval B, Castellengo M. On the use of the derivative of electroglottographic signals for characterization of nonpathological phonation. JASA. 2004;115(3):1321-32.
2.
Boersma P. Praat, a system for doing phonetics by computer. Glot International. 2001;5(9/10):341-5.
3.
Kramer E, Schönweiler R, Linder R. Akustische Stimmanalyse: Vergleich der Klassifikation durch künstliche neuronale Netze (KNN) und nichtlineare Diskriminanzanalyse (DA). In: Gross M, am Zehnhoff-Dinnesen A, editors. Aktuelle phoniatrisch-pädaudiologische Aspekte, Band 17. 2009. pp. 139-41. Available firom: http://www.egms.de/en/meetings/dgpp2009/09dgpp33.shtml Externer Link