gms | German Medical Science

Dreiländertagung D-A-CH
24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28. - 30.09.2007, Innsbruck, Österreich

Psychoakustische Skalierung elektroakustischer Heiserkeitsparameter

Psychoacoustic scaling of electroacoustic voice features

Poster

Search Medline for

  • corresponding author presenting/speaker Elena Kramer - Abteilung für Phoniatrie und Pädaudiologie, Universität zu Lübeck, Lübeck, Deutschland
  • author Roland Linder - Institut für Medizinische Informatik, Universität zu Lübeck, Lübeck, Deutschland
  • author Rainer Schönweiler - Abteilung für Phoniatrie und Pädaudiologie, Universität zu Lübeck, Lübeck, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirugie. Schweizerische Gesellschaft für Phoniatrie. Dreiländertagung D-A-CH, 24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e.V.. Innsbruck, Österreich, 28.-30.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07dgppP02

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/dgpp2007/07dgpp05.shtml

Published: August 28, 2007

© 2007 Kramer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Die elektroakustische Untersuchung des Stimmklangs wird in der Diagnostik von Stimmerkrankungen inzwischen als Bereicherung angesehen. Aus den verschiedenen Alternativen hat sich aber bisher kein Standard etabliert, der ausreichend mit der psychoakustischen Empfindung, z.B. nach dem RBH-Index oder nach der GRBAS-Skala, korreliert. Daher ist es schwer, aus den elektroakustisch ermittelten Stimmmerkmalen den perzipierten Schweregrad einer Heiserkeit abzuschätzen. Deshalb wurde ein neues Verfahren entwickelt, das beide Ansätze - den psychoakustischen und den elektroakustischen - kombiniert. Damit ist es in der gegenwärtigen Version bereits möglich, in etwa 80% eine korrekte Vorhersage von Gesamtheiserkeit zu treffen (Sensitivität = 63.0%, Spezifität = 93.9%, Fläche unter der ROC-Kurve = 0.854). Eine korrekte Vorhersage von Rauhigkeit und Behauchtheit gelingt in rund 65% der Fälle. Das Verfahren soll nun durch Einbeziehung elektroglottographischer Signale verbessert und zur Anwendungsreife gebracht werden. Dazu sollen mit Hilfe multivariater statistischer Verfahren und künstlicher neuronaler Netze an einem Lerndatensatz von etwa 150 normalen und kranken Stimmen die Zusammenhänge zwischen psychoakustischen und elektroakustischen Daten spezifiziert und mit etwa 150 weiteren Stimmsignalen validiert werden. Das System soll dann elektroakustische Heiserkeitsparameter in leicht verständliche RBH-Werte transformieren. Damit würden die Stimmdiagnostik und ggf. die therapeutische Verlaufskontrolle objektiviert.


Text

Einleitung

Elektroakustische Untersuchungen in der Diagnostik von Stimmerkrankungen werden heute ergänzend zur perzeptiven Beurteilung des Stimmklangs durchgeführt. Die dabei ermittelten Messgrößen können den perzipierten Schweregrad einer Heiserkeit jedoch nicht erklären. Aus den verschiedenen Alternativen hat sich bisher keine objektive Untersuchungsmethode etabliert, die ausreichend mit der psychoakustischen Empfindung, z.B. nach dem RBH-Index, korreliert. Deshalb haben wir ein neues Verfahren entwickelt, das beide Ansätze – den psychoakustischen und den elektroakustischen – kombiniert, mit dem Ziel, elektroakustische Heiserkeitsparameter in leicht verständliche RBH-Werte zu transformieren. Damit ist es in der gegenwärtigen Version bereits möglich, in etwa bis zu 80% eine korrekte Vorhersage von Rauhigkeit, Behauchtheit und Heiserkeit zu treffen [1]. Das Verfahren soll nun durch Einbeziehung elektroglottographischer Signale verbessert und zur Anwendungsreife gebracht werden. Damit würden die Stimmdiagnostik und ggf. die therapeutische Verlaufskontrolle objektiviert.

Material

Die Voraussetzung für eine solche Studie ist Datenmaterial, das einerseits perzeptive Bewertungen und andererseits elektroakustische Messgrößen enthält. Beim Aufnahmematerial handelt es sich um die Aufnahmen der Vokale /a/ und /e/ sowie des Textes „Der Nordwind und die Sonne“, die mit der Software SpeechStudio (Laryngograph Ltd., London) mit einer Abtastrate von 10 bzw. 16 kHz aufgezeichnet werden. Insgesamt werden für die Spezifizierung eines entscheidungsunterstützenden Systems und dessen Validierung jeweils mindestens 150 Aufnahmen zur Verfügung stehen.

Methode

Die perzeptiven Beurteilungen werden für die Aufnahmen vom Text erhoben. Der RBH-Index enthält die Subskalen R (Rauigkeit), B (Behauchtheit) und H (Gesamtheiserkeitseindruck). Jede der Subskalen wird in vier Ausprägungen (0 = „nicht vorhanden“ bis 3 = „sehr stark vorhanden“) bewertet. Die Zuverlässigkeit der Bewertungen wird anhand von in der Stimmdatenbank doppelt vorhandenen Aufnahmen überprüft. Für einen Teil der Bewerter ist ein zweiter Durchlauf geplant, um die Stabilität der Bewertungen zu dokumentieren (Intraobservervariabilität).

Aus den Audio- und elektroglottographischen Aufnahmen der Vokale werden ca. 30 elektroakustische Messgrößen berechnet, darunter die bekanntesten sind Jitter, Shimmer, Periodenkorrelation, Irregularitätskomponente, Glottal-to-Noise Excitation Ratio, mittlere Stimmgrundfrequenz, Geschlossenquotient, Root Mean Square, Formantenintensität [2]; [3]. Da die Beurteilung von Heiserkeit vom perzeptivem Eindruck der Vokalein- und absätze wesentlich mitbestimmt wird, werden auch die Vokalein- und absätze durch geeignete Messgrößen parametrisiert.

Mit Hilfe multivariater statistischer Verfahren sollen unter extrahierten Stimmgütemessgrößen solche gefunden werden, die für den perzeptiven Eindruck von Rauhigkeit, Behauchtheit und Heiserkeit relevant sind. In einem Modell auf der Basis künstlicher neuronaler Netze [4] werden die Zusammenhänge zwischen elektroakustischen und perzeptiven Daten anhand von 150 Stimmproben kranker und gesunder Stimmen simuliert und mit etwa 150 weiteren Stimmsignalen validiert. Eine weitergehende Validierung soll unter Verwendung anderer Stimmdatenbanken erfolgen, für die multizentrisch ermittelte Stimmbewertungen vorliegen. Darüber hinaus ist eine kommerzielle Verwertung der Ergebnisse z.B. in Form eines Computerprogramms zur Integration in kommerzielle diagnostische Apparaturen vorgesehen.

Um möglichst viele Bewerter für die Studie zu gewinnen, beabsichtigen wir eine passwortgeschützte Internetseite einzurichten, die für Mitglieder von DBL, DGSS und DGPP über die Interseiten der genannten Gesellschaften frei zugänglich sein wird. Hier kann eine Bewertung der Aufnahmen online vorgenommen werden. Wir laden interessierte Logopäden, Phoniater, HNO-Ärzte, Sprachpathologen und Phonetiker herzlich ein, an unserer Studie teilzunehmen. Eine Bewertungssitzung umfasst 50 Aufnahmen und kann in 30 bis 60 Minuten abgeschlossen werden. Für jede Stimmprobe werden Gruppenmittelwerte und Varianzen für Rauigkeits-, Behauchtheits- und Gesamtheiserkeitsbewertungen ermittelt. Nachdem ausreichend viele Bewertungen eingegangen und ausgewertet sind, wird der ganze Korpus pathologischer Stimmen zusammen mit zugehörigen kollektiven Bewertungen auf der Internetseite veröffentlicht und damit für weitere wissenschaftliche Zwecke zur Verfügung gestellt. Darüber hinaus wird die Internetseite begleitende Texte über objektive Messmethoden anbieten und der Verbreitung des Wissens über objektive Stimmdiagnostik in deutscher Sprache dienen.

Ergebnisse

Wenngleich Ergebnisse noch ausstehen, ist es den Autoren ein Anliegen, frühzeitig auf das Forschungsvorhaben aufmerksam zu machen, um darüber eine breite Mitwirkung möglichst vieler Phoniater und Pädaudiolgen zu erreichen. Eine entsprechende Internetseite (Abbildung 1 [Abb. 1]) wird voraussichtlich ab Oktober 2007 freigeschaltet sein und eine unkomplizierte Teilnahme an den Bewertungen ermöglichen.


Literatur

1.
Linder R, Pöppl SJ, Schönweiler R. A Screening for Dysphonia by Use of Psychoacoustic Scaling of Acoustic Voice Features with Artificial Neural Networks. J Voice. 2007: im Druck.
2.
Baken RJ, Orlikoff RF. Clinical measurement of speech and voice. San Diego; 2000.
3.
Michaelis D, Frohlich M, Strube HW. Selection and combination of acoustic features for the description of pathologic voices. J Acoust Soc Am. 1998;103(3):1628-39.
4.
Linder R, Mohamed EI, De Lorenzo A, Pöppl SJ. The Capabilities of Artificial Neural Networks in Body-Composition Research. Acta diabetologica. 2003;40:Suppl.1,9-14.