gms | German Medical Science

29. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

21.09. - 23.09.2012, Bonn

Automatische Bewertung von Stimmstörungen aus Textaufnahmen

Vortrag

Suche in Medline nach

  • corresponding author Tino Haderlein - Lehrstuhl für Mustererkennung (Informatik 5; Pattern Recognition Lab), Erlangen; Abt. für Phoniatrie und Paedaudiologie (Dept. of Phoniatrics and Pedaudiology), Erlangen

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 29. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Bonn, 21.-23.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12dgppH1

DOI: 10.3205/12dgpp93, URN: urn:nbn:de:0183-12dgpp934

Veröffentlicht: 6. September 2012

© 2012 Haderlein.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Zur objektiven Bewertung von Stimmstörungen aus Textaufnahmen kamen automatische Spracherkennungsverfahren, prosodische Analyse und akustische Sprechermodelle zum Einsatz. Die untersuchten Evaluierungskriterien umfassten die Stimmqualität, das RBH-Schema und die Sprachverständlichkeit.

Material und Methoden: Als Testsprecher dienten 54 Totallaryngektomierte, 82 Personen nach einer Larynxteilresektion und 73 Personen mit einer chronischen Heiserkeit mit nichtmaligner Ursache. Jede Person las den „Nordwind und Sonne“-Text vor. Die Verständlichkeit wurde durch ein automatisches Spracherkennungssystem und prosodische Analyse von Laut-, Wort- und Pausendauern gemessen. Die Bestimmung der Stimmqualität erfolgte durch Messung der Grundfrequenz F0 sowie der Lautheit und deren Schwankungen. Akustische, cepstrale Sprechermodelle dienten ebenfalls diesem Zweck. Die Rauigkeit wurde durch den Anteil stimmhafter und stimmloser Bereiche ermittelt. Einzelne cepstrale Parameter wurden mit gängigen perturbationsbasierten Qualitätsmaßen, wie Jitter oder Shimmer, verglichen.

Ergebnisse: Bei der Verständlichkeitsbewertung wurden für Totallaryngektomierte Korrelationen bis zu |r|=0,87 zur perzeptiven Referenzbewertung ermittelt, für Teilresezierte bis zu r=0,79. Bei der akustischen Sprechermodellierung lag die Korrelation für die Stimmqualität bei r=0,79. Die automatische Nachbildung der RBH- und Stimmqualitätsbewertung mit einzelnen cepstralen Parametern erreichte bis zu |r|=0,73. Bisherige Perturbationsmaße erreichten |r|≤0,63.

Diskussion: Die Verwendung von Sprach- statt der bisher üblichen Vokalaufnahmen erlaubt auch die objektive Bewertung der Verständlichkeit. Für einzelne Messwerte war die Mensch-Maschine-Korrelation bei Textaufnahmen höher als bei gehaltenen Vokalen. Cepstrale Parameter sind nicht wie Jitter auf eine Detektion der F0 angewiesen und sind deshalb auch bei starken Störungen anwendbar. Die neue Entwicklung stellt eine Ergänzung zur subjektiven und herkömmlichen objektiven Stimmbewertung dar und kann im klinischen Einsatz als objektive „zweite Meinung“ dienen.


Text

Einleitung und Hintergrund

Etablierte apparative Methoden zur Evaluierung der chronisch heiseren Stimme bewerten die Stimme lediglich anhand von Aufnahmen gehaltener Vokale. Das wichtigste Sprechkriterium, die Verständlichkeit, kann durch einzelne Vokale jedoch nicht abgebildet werden. Im Rahmen dieser Habilitation wurden Methoden der automatischen Sprachanalyse zur Untersuchung von Stimmstörungen adaptiert und weiterentwickelt. Dafür kamen automatische Spracherkennungsverfahren, prosodische Analyse und akustische Sprechermodelle zum Einsatz. Die untersuchten Evaluierungskriterien umfassten die Stimmqualität [1], [2], die Rauigkeit, Behauchtheit und Heiserkeit (RBH-Schema) [1] sowie die Sprachverständlichkeit [2], [3].

Material

Sprachaufnahmen des „Nordwind und Sonne“-Textes von drei Patientengruppen mit verschiedenen Ursachen von Heiserkeit wurden ausgewertet. 82 Personen (68 Männer und 14 Frauen, Durchschnittsalter 62,3±8,8 Jahre) wurden nach einer krebsbedingten Larynxteilresektion aufgenommen [2], [3]. Weiterhin standen 54 vollständig laryngektomierte Männer (62,2±10,1 Jahre) [2] mit tracheoösophagealer Ersatzstimme und 73 chronisch Heisere (24 Männer, 49 Frauen, 48,3±16,8 Jahre) [1] ohne maligne Erkrankung zur Verfügung. Da kein objektiver Bewertungsstandard für Pathologien von Stimme und Sprache existiert, wurden die Durchschnittswerte einer Expertengruppe als Referenz für die automatische Messung definiert. Der Schwerpunkt der perzeptiven Evaluierung waren die Stimmqualität und die Sprachverständlichkeit. Bei den Heiseren mit benigner Ursache wurden auch Rauigkeit, Behauchtheit und Heiserkeit (RBH-Schema) beurteilt.

Methode

Die Verständlichkeit wurde einerseits durch die Verarbeitung der Textaufnahmen mit einem automatischen Spracherkennungssystem gemessen, das einen Zuhörer simuliert. Je mehr Erkennungsfehler es macht, desto geringer ist die Verständlichkeit des Patienten.

Bei der Verständlichkeitsanalyse durch prosodische Analyse werden Laut-, Wort- und Pausendauern kontinuierlicher Sprache gemessen, die Stimmqualität durch Messung der Grundfrequenz F0 sowie der Lautheit und deren Schwankungen bestimmt. Die Rauigkeit wurde durch die Zählung von stimmhaften und stimmlosen Bereichen ermittelt. Mithilfe eines Regressionsverfahrens wurde eine Untermenge von Merkmalen bestimmt, die gemeinsam die menschliche Bewertung nachbilden. Die Studie wurde mit Nahbesprechungs- und Telefonaufnahmen Larynxteilresezierter durchgeführt.

Die in einer Stimm- oder Sprachaufnahme enthaltenen Frequenzanteile geben Aufschluss über die Stimmqualität. Das Cepstrum stellt eine kompakte Repräsentation des geglätteten Frequenzspektrums dar. Es wird durch gewichtete Summen von Gaußschen Verteilungen beschrieben. Mit diesen Mischverteilungen wurde aus allen gesprochenen Lauten ein akustisches Modell des jeweiligen Sprechers aufgebaut. Mittelwert und Varianz der Gaußdichten der Sprechermodelle dienten als charakteristische Merkmale dieses Sprechers. Mit einer nichtlinearen Regression wurde daraus die menschliche Bewertung des Patienten nachgebildet. Die Stimmqualität und auch die Verständlichkeit von teilweise und vollständig laryngektomierten Personen wurden auf diese Weise beurteilt.

Cepstrale Parameter wurden nicht nur bei Spracherkennung und Sprechermodellierung benutzt, sondern auch als Maße für die Stimmqualität. Ihr Vorteil ist, dass sie nicht abhängig von einer korrekten Bestimmung der Grundfrequenz sind. Die cepstralen Maße wurden mit gängigen perturbationsbasierten Qualitätsmaßen, wie Jitter, Shimmer oder dem Signal-Rausch-Abstand (HNR), verglichen. In einer Kooperation mit der Universität Bonn wurde ihre Eignung zur Messung von Rauigkeit, Behauchtheit und Heiserkeit gemäß dem klinischen RBH-Schema bei Heiserkeit benigner Ursache untersucht.

Ergebnisse

Bei der Verständlichkeitsbewertung mittels automatischer Spracherkennung wurden für Totallaryngektomierte Mensch-Maschine-Korrelationen bis zu |r|=0,87 ermittelt, für Teilresezierte nur |r|=0,62. Der Grad der Stimmstörung weist bei dieser Personengruppe keine so große Variabilität auf wie bei den Kehlkopflosen. Deshalb kann ein einzelner Messwert die kleineren Unterschiede zwischen den Sprechern nicht zufriedenstellend auflösen. Die Hinzunahme der prosodischen Merkmale verbesserte die Nachbildung der menschlichen Verständlichkeitsbewertung so, dass r=0,79 erreicht wurde. Automatische Spracherkennung und prosodische Analyse können somit für verschiedene Stimmstörungen zur Verständlichkeitsbewertung eingesetzt werden.

Bei der akustischen Sprechermodellierung lag die Korrelation zwischen dem maschinell berechneten Wert und der menschlichen Durchschnittsbewertung bei r=0,79 für die Stimmqualität und r=0,73 für die Verständlichkeit. Somit kann auch ein lautbasiertes akustisches Modell zur automatischen Evaluierung der Verständlichkeit beitragen.

Die automatische Nachbildung der RBH- und Stimmqualitätsbewertung mit cepstralen Parametern (bis zu |r|=0,73) ist den bisherigen Perturbationsmaßen überlegen (|r|≤0,63). Sie weisen auch bei schwacher Heiserkeit noch eine zumindest moderate Mensch-Maschine-Korrelation auf (bis zu |r|=0,49), während eingeführte Maße (Jitter, Shimmer, HNR etc.; |r|≤0,37) versagen. Außerdem erzielte die textbasierte Bewertung bessere Ergebnisse als die vokalbasierte.

Diskussion und Fazit

Die Verwendung von Sprach- statt der bisher üblichen Vokalaufnahmen erlaubt auch die objektive Bewertung der Verständlichkeit. Für einzelne Messwerte war die Mensch-Maschine-Korrelation bei Textaufnahmen höher als bei gehaltenen Vokalen. Cepstrale Parameter sind nicht wie Jitter auf eine Detektion der F0 angewiesen und sind deshalb auch bei starken Störungen anwendbar. Die neue Entwicklung stellt eine Ergänzung zur subjektiven und herkömmlichen objektiven Stimmbewertung dar und kann im klinischen Einsatz als objektive „zweite Meinung“ dienen.

Danksagung

Diese Arbeit wurde von der Deutschen Krebshilfe (Fördernr. 107873) und der Else Kröner-Fresenius-Stiftung (Fördernr. 2011_A167) gefördert.


Literatur

1.
Moers C, Möbius B, Rosanowski F, Nöth E, Eysholdt U, Haderlein T. Vowel- and text-based cepstral analysis of chronic hoarseness. J Voice. 2012 Jul;26(4):416-24. DOI: 10.1016/j.jvoice.2011.05.001 Externer Link
2.
Bocklet T, Riedhammer K, Nöth E, Eysholdt U, Haderlein T. Automatic intelligibility assessment of speakers after laryngeal cancer by means of acoustic modeling. J Voice. 2012 May;26(3):390-7. DOI: 10.1016/j.jvoice.2011.04.010 Externer Link
3.
Haderlein T, Nöth E, Batliner A, Eysholdt U, Rosanowski F. Automatic intelligibility assessment of pathologic speech over the telephone. Logoped Phoniatr Vocol. 2011 Dec;36(4):175-81. DOI: 10.3109/14015439.2011.607470 Externer Link