gms | German Medical Science

34. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)
Dreiländertagung D-A-CH

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Bern, 14.09. - 17.09.2017

Stimmqualitätsmessung mittels prosodischer Analyse verschiedener gelesener Textabschnitte

Vortrag

  • corresponding author presenting/speaker Tino Haderlein - Lehrstuhl für Mustererkennung, Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Elmar Nöth - Lehrstuhl für Mustererkennung, Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Michael Döllinger - Phoniatrische und pädaudiologische Abteilung in der HNO-Klinik, Klinikum der Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Anne Schützenberger - Phoniatrische und pädaudiologische Abteilung in der HNO-Klinik, Klinikum der Universität Erlangen-Nürnberg, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 34. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP), Dreiländertagung D-A-CH. Bern, Schweiz, 14.-17.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. DocV36

doi: 10.3205/17dgpp51, urn:nbn:de:0183-17dgpp510

Veröffentlicht: 30. August 2017

© 2017 Haderlein et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Prosodische Analyse eignet sich zur automatischen Stimmqualitätsbewertung. Bisher wurden die Messwerte (Merkmale) über alle Wörter des gelesenen Textes gemittelt. In dieser Studie wurde untersucht, welchen Einfluss die Wortposition im Text und die grammatikalische Wortklasse auf das Ergebnis haben.

Material und Methoden: 73 Personen, davon 49 Frauen, mit chronischer Heiserkeit nichtmaligner Ursache lasen den „Nordwind und Sonne“-Text vor. Fünf erfahrene Personen bewerteten die Stimmqualität auf einer visuellen Analogskala (10 cm).

Die apparative Diagnostik bestand in der Berechnung von 33 prosodischen Merkmalen basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie (Amplituden) pro Wort bzw. Wort-Pause-Wort-Intervall. 15 weitere Merkmale, auf Abschnitten von jeweils 15 Wörtern Länge berechnet, umfassten Werte basierend auf Jitter und Shimmer sowie der Anzahl und Dauer von stimmhaften und stimmlosen Abschnitten.

Da menschliche Bewertungen für den gesamten Text erfolgen, wurde bisher auch jedes prosodische Merkmal über die ganze Aufnahme gemittelt. Für diese Studie erfolgte die Mittelwertbildung auch über Substantive (24 Wörter), Substantive und Verben (44 Wörter), Satzanfänge (18 Wörter) und Anfänge der Haupt- und Nebensätze (48 Wörter). Die Szenarien wurden nach linguistischen bzw. klinischen Gesichtspunkten ausgewählt.

Ergebnisse: Die Inter-Rater-Korrelation betrug r=0,86. Die Korrelation zwischen menschlicher und maschineller Bewertung erreichte ihr Maximum mit r=0,72 für den Mittelwert des Jitter, berechnet auf Substantiven und Verben.

Diskussion: Die Stimmqualität wird durch Merkmale auf Basis der Energie und besonders durch den Jitter am besten dargestellt. Bezüglich der Frage, welche Teile des Textes zur Berechnung herangezogen werden sollen, ergibt sich kein einheitliches Bild.

Fazit: Das Verfahren ist grundsätzlich zur Stimmqualitätsmessung geeignet. Durch die Kombination verschiedener Merkmale mittels Regressionsverfahren sind noch deutlich bessere Ergebnisse zu erwarten.


Text

Einleitung

In früheren Arbeiten wurde gezeigt, dass prosodische Analyseverfahren verwendet werden können, um die Stimm- und Sprecheigenschaften von pathologischen Sprechern automatisch zu bewerten [1]. Bisher wurden jedoch die prosodischen Messwerte für alle Wörter des jeweils gelesenen Textes zusammengefasst. Durch die Mittelwertbildung über lange und kurze Wörter und alle Wortpositionen im Satz hinweg kann jedoch Information verlorengehen. In dieser Studie wurde deshalb untersucht, welchen Einfluss die Position und grammatikalische Wortklasse auf die automatische Stimmqualitätsbewertung haben.

Material

Als Testsprecher dienten 73 repräsentativ ausgewählte Personen (24 Männer, 49 Frauen) mit chronischer Heiserkeit nichtmaligner Ursache. 45 Personen litten an funktioneller Dysphonie, 24 an organischer Dysphonie und vier an Laryngitis. Das Durchschnittsalter betrug 48,3±16,8 Jahre (min. 19, max. 85 Jahre). Jede Person las den „Nordwind und Sonne“-Text vor und wurde dabei mit einem Nahbesprechungsmikrofon (AKG 420 C, AKG Acoustics, Wien; Abtastfrequenz 16 kHz, Amplitudenauflösung 16 bit) aufzeichnet. Als Referenz für die objektive Analyse bewerteten fünf erfahrene Personen, darunter eine HNO-Ärztin, ein HNO-Arzt und drei Logopädinnen, die Gesamtqualität der Stimme auf einer visuellen Analogskala der Breite 10 cm (0,0: „sehr gut“; 10,0: „sehr schlecht“).

Methode

Die automatisch erhobenen Messwerte, die Informationen über die jeweils zu ermittelnde Eigenschaft einer Stimme, eines Sprechers, oder für die automatische Spracherkennung enthalten sollen, werden in der Informatik als Merkmale bezeichnet. In der hier beschriebenen Studie zur Analyse der Stimmqualität wurden, basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal [2], 33 prosodische Merkmale pro Wort bzw. pro Wort-Pause-Wort-Intervall berechnet. Die größte Gruppe umfasst die F0-Merkmale, die u.a. Mittelwert, Minimum, Maximum, den Wert bei Stimmeinsatz und -ausklang sowie ihre jeweiligen Positionen im betrachteten Intervall enthalten. 15 weitere Merkmale, auf Abschnitten von jeweils 15 Wörtern Länge berechnet, umfassen Mittelwert und Standardabweichung von Jitter und Shimmer, die Anzahl, Dauer und maximale Dauer von stimmhaften und stimmlosen Abschnitten, das Verhältnis der Anzahl bzw. Dauer von stimmhaften zu stimmlosen Bereichen sowie das Verhältnis der Dauer von stimmhaften bzw. stimmlosen Abschnitten zur Gesamtdauer des Signals. Die Standardabweichung der Sprachgrundfrequenz F0 wurde hier ebenfalls textbasiert ausgewertet.

Da die menschlichen Bewertungen für den gesamten Text erfolgen, wurde bisher auch jedes pro Wort bzw. Aufnahmeabschnitt berechnete prosodische Merkmal über die ganze Aufnahme gemittelt. Für diese Studie wurden deshalb folgende Szenarien betrachtet:

  • Mittelwertbildung für jedes Merkmal über alle 108 Wörter (Referenzexperiment)
  • Mittelung nur über Substantive (24 Wörter)
  • Mittelung nur über Substantive und Verben (44 Wörter)
  • Mittelung nur über Satzanfänge (erste drei Wörter eines jeden Satzes; 18 Wörter)
  • Mittelung nur über Anfänge der sechs Haupt- und zehn Nebensätze (jeweils erste drei Wörter; insgesamt 48 Wörter)

Substantive und Verben wurden ausgewählt, da sie hinsichtlich der Verständlichkeit bedeutender sind als Funktionswörter, also Artikel, Präpositionen und Konjunktionen [3]. Die Anfänge von Sätzen und Nebensätzen, ohne Berücksichtigung der grammatikalischen Wortklasse, wurden aufgrund der klinischen Anwendung ausgewählt. Durch die große Sprechanstrengung und kürzere Phonationszeit sind viele Stimmpatienten ohnehin gezwungen, ihre Äußerungen in kürzere Abschnitte zu zerlegen.

Ergebnisse

Die durchschnittliche menschliche Stimmqualitätsbewertung lag bei 4,74±2,51 (min. 0,32, max. 9,50). Die Inter-Rater-Korrelation (jeweils eines Bewerters mit dem Mittelwert der übrigen) betrug r≥0,86. Tabelle 1 [Tab. 1] zeigt die Korrelation der menschlichen und maschinellen Bewertung für ausgewählte Merkmale (r=0,50 für mindestens eine Konstellation).

Diskussion und Fazit

Die hohen Korrelationswerte zur Dauer von Pausen oder Wort-Pause-Wort-Intervallen deuten auf eine Verbindung von Sprechanstrengung und Stimmqualität bei chronisch Heiseren hin. Die Stimmqualität selbst wird jedoch durch Merkmale auf Basis der Energie, d.h. der Amplitudenwerte in der Aufnahme, und besonders durch den Jitter am besten dargestellt. Bezüglich der Frage, welche Ausschnitte des Textes zur Berechnung herangezogen werden sollen, ergibt sich kein einheitliches Bild. Bis auf die Anfänge der Hauptsätze erweist sich jedes Berechnungsszenario bei bestimmten Merkmalen als vorteilhaft. Für die jitterbasierten Merkmale empfiehlt sich die Analyse von Substantiven und Verben. Die menschliche Stimmqualitätsbewertung lässt sich hier allein durch den Mittelwert des Jitter mit einer Korrelation von r=0,72 annähern. Dies zeigt die grundsätzliche Eignung des Verfahrens. Durch die Kombination verschiedener Merkmale mittels Regressionsverfahren sind noch deutlich bessere Ergebnisse zu erwarten [1].

Danksagung

Die Arbeit von Herrn Döllinger wurde von der DFG (Fördernr. DO1247/8-1) gefördert.


Literatur

1.
Haderlein T, Döllinger M, Matoušek V, Nöth E. Objective voice and speech analysis of persons with chronic hoarseness by prosodic analysis of speech samples. Logoped Phoniatr Vocol. 2016 Oct;41(3):106-16. DOI: 10.3109/14015439.2015.1019563 Externer Link
2.
Zeissler V, Adelhardt J, Batliner A, Frank C, Nöth E, Shi RP, Niemann, H. The prosody module. In: Wahlster W, Hrsg. SmartKom: Foundations of Multimodal Dialogue Systems. New York: Springer; 2006. S.139-52.
3.
Rubenstein H, Pickett J. Intelligibility of Words in Sentences. J Acoust Soc Am. 1958;30(7):670.