gms | German Medical Science

28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.
2. Dreiländertagung D-A-CH

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.
Schweizerische Gesellschaft für Phoniatrie; Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirurgie

09.09. - 11.09.2011, Zürich, Schweiz

Kritische Frequenzbereiche für die Vorhersage von Behauchtheit

Vortrag

Search Medline for

  • corresponding author presenting/speaker Elena Kramer - Abt. für Phoniatrie und Pädaudiologie, Universität zu Lübeck, Lübeck, Deutschland
  • author Rainer Schönweiler - Abt. für Phoniatrie und Pädaudiologie, Universität zu Lübeck, Lübeck, Deutschland
  • author Roland Linder - Institut für Medizinische Informatik Universität zu Lübeck, Lübeck, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP), 2. Dreiländertagung D-A-CH. Zürich, 09.-11.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11dgppV29

DOI: 10.3205/11dgpp39, URN: urn:nbn:de:0183-11dgpp394

Published: August 18, 2011

© 2011 Kramer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Yanagihara [1] definierte 4 Typen von Heiserkeit. Seine Einteilung basierte auf spektrographischer Methode und wies auf kritische Frequenzbereiche im harmonischen Spektrum der Vokale, insbesondere die des F1, F2 und der höheren Formanten (3–5 kHz). Mit zunehmender Heiserkeit beobachtete Yanagihara in diesen Frequenzbereichen einen verstärkten Abbau von harmonischen Strukturen durch Rauschen und Ausbildung von zusätzlichen Rauschformanten.

Material und Methoden: 84 männliche Sprecher mit unterschiedlichen Stimmstörungen phonierten die Vokale /a/ und /e/. Hierzu erfolgte die Messung von GNE und Intensität in jeweils 3 Frequenzbändern. Die perzeptive Beurteilung der Stimmqualität wurde nach dem RBH-System vorgenommen.

Ergebnisse: Die Vorhersage von geschätzter Behauchtheit nach dem Modell der multiplen Regression erreichte mit den erhobenen Parametern eine erklärte Varianz von 0.67 (F=29.4, p<0.0001). Mittlere Formantfrequenzen und Formantbandbreiten leisteten keinen signifikanten Beitrag zum Modell.

Diskussion: Die untersuchten Frequenzbereiche waren für die Vorhersage von Behauchtheit und in einem geringerem Maße für Heiserkeit von Bedeutung. Der GNE ermöglichte eine akustische Beschreibung auch hochgradig gestörter Stimmen. Dieser Ansatz kann auf Vokalsegmente in fortlaufender Sprache ausgeweitet werden.


Text

Hintergrund

Dass akustische Eigenschaften von Dysphonie nicht uniform über das ganze Spektrum verteilt sind, bezeugt eine schrittweise Verschlechterung des harmonischen Spektrums der pathologischen Vokale, die Yanagihara [1] mit Stimmklangqualität in Verbindung brachte. Mit zunehmender Heiserkeit trat in Frequenzbereichen um F1, F2 und der höheren Formanten (3–5 kHz) einen verstärkten Abbau von harmonischen Strukturen durch Rauschen, der durch Ausbildung von zusätzlichen Rauschformanten und eine Zunahme von Intensität im oberen Frequenzbereich begleitet war. Eine Subband-Analyse soll am Beispiel von GNE [2] und Intensität zeigen, wie sich akustische Eigenschaften von kranken Stimmen in Abhängigkeit von geschätzter Behauchtheit verhalten.

Material und Methoden

82 männliche Sprecher mit unterschiedlichen Stimmstörungen (mittleres Alter = 60.24 (SD = 13.5)) und 2 gesunde Sprecher phonierten die Vokale /a/ und /e/. Jeweils ein 1-Sekunden-Abschnitt wurde mittels Programm Praat analysiert. Für die Messung von GNE und Intensität in Formantbereichen F1 bis F3 wurden unabhängig von gemessener Formantbandbreite die Subbänder mit einer Bandbreite von 400 Hz (mittlere Formantfrequenz ±200 Hz) verwendet. Die oberen Frequenzen (3–5 kHz) bildeten ein weiteres Subband. Beim GNE-Algorithmus wurden die Parameter so eingestellt, dass etwa eine gleiche Anzahl von Hilberteinhüllenden (21) für die Berechnung von Korrelationsmatrix zur Verfügung stand.

Die perzeptive Beurteilung der Stimmqualität wurde nach dem RBH-System vorgenommen. Die Bewertergruppe bestand aus 8 Experten (Logopäden und Phoniater). Die interne Konsistenz der Bewertung betrug Cronbachs Alpha = 0.93. Das Datenmaterial enthielt 8 B0 Stimmen, 34 B1 Stimmen, 28 B2 und 14 B3 Stimmen.

Ergebnisse

Der GNE-Parameter als Maß für das Rauschen fiel durch folgende Tendenzen auf: Zunehmende Behauchtheit schlug sich erwartungsgemäß in einer Abnahme von GNE-Gruppenwerten nieder (Tabelle 1 [Tab. 1]). Je behauchter die Stimme empfunden wurde, desto mehr Subbänder wurden vom Rauschen dominiert. B0 Stimmen haben relativ hohe GNE-Werte in allen Subbändern. Im Bereich von F1 liegt der GNE bei allen B0 und B1 Sprechern im Mittel über alle Grundfrequenzen nah bei 1. B2 und B3 Stimmen haben dagegen relativ niedrigere GNE-Werte bereits im unteren Frequenzbereich.

Unabhängig von Vokal- und Stimmklangqualität sank der GNE-Wert zusätzlich zu den oberen Frequenzen hin ab (t-Test für gepaarte Stichproben, p<0.0001). Abgesehen davon, dass der F2 von /e/ stärker vom Rauschen betroffen wird, als der F2 von /a/ (p<0.0001), insbesondere in B1 und B2 Stimmen, konnten bei den übrigen Formanten keine weiteren vokalspezifischen Unterschiede nachgewiesen werden. Alle Teilband-Spektrum-GNE waren mit Behauchtheit korreliert (Korrelationskoeffizienten nach Pearson>0.5). Der GNE im Bereich von 3–5 kHz wies die höchsten Korrelationen mit geschätzter Behauchtheit auf (/e/: r=–0.68; /a/: r=–0.71).

Mit einer Ausnahme nahm gleichzeitig die Formantbandbreite zu den höheren Frequenzen hin in beiden Vokalen zu (p<0.001), was als Zeichen für zunehmendes Verrauschen des Spektrums gedeutet wurde. Lediglich unterschied sich die Formantbandbreite des F1 der Vokalqualität /a/ kaum von der des F2. Der korrelative Zusammenhang zwischen Formantbandbreite und entsprechendem Teilband-Spektrum-GNE konnte aber nur teilweise bestätigt werden. Weil nur einer Korrelationskoeffizient aus 6 kleiner als –0.5 war, wurde dieser Befund eher als Zufall gewertet.

Ähnlich wie die Formantbandbreiten zeigten auch die mittleren Formantfrequenzen wenig Trennkraft zwischen unterschiedlichen Behauchtheitsgraden. Der Mittelwert der Mittenformantfrequenzen lag in /a/ bei 664 Hz (SD = 121 Hz) für F1, 1194 Hz (SD = 189 Hz) für F2 und 2600 Hz (SD = 247 Hz) für F3. Entsprechende Messungen für /e/ ergaben 379 Hz (SD = 180 Hz), 2075 Hz (SD = 184 Hz) und 2623 Hz (SD = 245 Hz).

Die Intensität sank tendenziell zu den oberen Frequenzen hin ab (p<0.0001). In Einklang mit Yanagihara hoben sich stark behauchte Stimmen (B3) durch einen markanten Anstieg der Intensität gegenüber weniger stark behauchten Stimmen im höheren Frequenzbereich ab (Rangsummentest nach Wilcoxon, p<0.05). In diesem Frequenzbereich findet man Intensitätswerte, die öfter die von B0 Stimmen übersteigen. Klare und leicht behauchte Stimmen waren im Gegensatz zu B2 und B3 Stimmen durch eine Intensitätzunahme im Bereich von F1 zu erkennen (p<0.03). Die Standardabweichung der Vollband-Spektrum-Intensität korrelierte am stärksten mit geschätzter Behauchtheit (r=0.35).

Mittels erhobener GNE- und Intensitätsdaten ist es möglich, nach dem Modell der multiplen Regression eine erklärte Varianz von bis zu 0.67 (F=29.4, p<0.0001) zu erreichen. Dies bedeutet eine Zunahme von erklärter Varianz gegenüber dem Vollband-Spektrum GNE um ca. 22%. Die Wurzel aus dem mittleren quadratischen Fehler als Maß für die Abweichung wird dabei um 0.11 auf 0.47 verbessert.

Diskussion

Am Beispiel von GNE konnte gezeigt werden, dass der GNE in verschiedenen Frequenzbereichen des Signals eine deutliche Unterscheidung der Vokalspektrumqualität zulässt und deshalb für eine quantitative Erfassung von Rauschen in Spektrogrammen nützlich sein könnte (Abbildung 1 [Abb. 1]). Der GNE-Parameter ermöglicht eine akustische Beschreibung sowohl hochgradig gestörter Stimmen als auch hochgradig gestörter Frequenzbereiche. Beim GNE handelt es sich um das Maximum der Matrix der Korrelationskoeffizienten zwischen Hilberteinhüllenden mit verschobenen Mittenfrequenzen. Aufgrund von geringerem Abstand zwischen den Mittenfrequenzen (20 Hz vs. 100 Hz) und kleinerer Bandbreite (100 Hz bzw. 1000 Hz vs. 3000 Hz) war zu erwarten, dass sich Teilband-GNE von dem Vollband-Spektrum GNE unterscheiden werden (Tabelle 1 [Tab. 1]). Dieser Unterschied schwand zu den höheren Frequenzen hin und war bei höheren Frequenzen gering aber immer noch signifikant (p<0.0001).

Dass die Untersuchung keinen Anhalt für einen starken korrelativen Zusammenhang zwischen Formantbandbreite und dem entsprechenden GNE ergab, kann zum Teil daran liegen, dass die beiden ersten Formanten von /a/ bzw. F2 und F3 von /e/ eng aneinander liegen und in kranken Stimmen schlechter auseinander gehalten werden können als in gesunden Stimmen.

Die Verwendung von Subband-Analyse könnte eine bessere Vorhersage von Stimmklangqualität ermöglichen. Da sich die Expertenurteile und akustische Analysen jedoch auf unterschiedliche Daten beziehen, soll geprüft werden, ob sich die Ergebnisse bei Vokalsegmenten in fortlaufender Sprache wiederholen lassen und auch für das weibliche Geschlecht gültig sind.


Literatur

1.
Yanagihara N. Significance of harmonic changes and noise components in hoarseness. J Speech Hear Res. 1967;10:531-41.
2.
Michaelis D, Fröhlich M, Strube HW. Selection and combination of acoustic features for the description of pathologic voices. J Acoust Soc Am. 1998;103:1628-39. DOI: 10.1121/1.421305 External link