gms | German Medical Science

33. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Regensburg, 22.09. - 25.09.2016

Automatische prosodische Stimmqualitätsbewertung aus Textaufnahmen bei großem Mikrofonabstand

Vortrag

  • corresponding author presenting/speaker Tino Haderlein - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Anne Schützenberger - Klinikum der Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Michael Döllinger - Klinikum der Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Elmar Nöth - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 33. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Regensburg, 22.-25.09.2016. Düsseldorf: German Medical Science GMS Publishing House; 2016. DocV24

doi: 10.3205/16dgpp44, urn:nbn:de:0183-16dgpp446

Published: September 8, 2016

© 2016 Haderlein et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: In der vorgestellten Studie wurde getestet, ob apparative Stimmqualitätsmessungen mit prosodischer Analyse auch möglich sind, wenn die untersuchten Personen kein Nahbesprechungsmikrofon (Headset) tragen, da die Aufnahmesituation manchmal als belastend empfunden wird.

Material und Methoden: 82 Personen nach einer Larynxteilresektion (Durchschnittsalter: 62,3 Jahre) lasen den „Nordwind und Sonne“-Text vor und wurden mit einem Headset aufgenommen. Fünf Logopädinnen und Ärzte bewerteten die Stimmqualität auf einer visuellen Analogskala (Breite: 10 cm).

Um Sprachproben mit größerem Mikrofonabstand zu erhalten, dabei aber sicherzustellen, dass diese sich nur in der Raumakustik unterscheiden, wurden die Nahbesprechungsaufnahmen künstlich verhallt. Die Nachhallzeit T60, in welcher der Nachhall um 60 dB abklingt, wurde zwischen 250 und 400 ms variiert. Die angenommenen Sprecherpositionen wiesen 60, 120 bzw. 240 cm Mikrofonabstand auf. Für jede dieser Positionen wurde die Mensch-Maschine-Korrelation der Stimmqualitätsbewertung berechnet.

Die apparative Diagnostik bestand in der Berechnung von 33 prosodischen Merkmalen basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal pro Wort bzw. Wort-Pause-Wort-Intervall. Mit Support-Vektor-Regression wurde aus allen Messwerten die aussagekräftigste Kombination bestimmt. Diese Optimierung wurde für die Headset-Aufnahmen und auch für diejenige Sprecherposition durchgeführt, die akustisch von der Nahbesprechungssituation am stärksten abweicht (T60: 400 ms, 240 cm Mikrofonabstand, 165° Winkel zum Mikrofon).

Ergebnisse: Die Inter-Rater-Korrelation innerhalb der Bewertergruppe (ein Bewerter gegen den Mittelwert der übrigen) lag bei r=0,89. Die Mensch-Maschine-Korrelationen erreichten r=0,74 für die Headset-Aufnahmen und r=0,73 für stark verhallte Aufnahmen.

Diskussion: Die Stimmqualitätsbewertung aus Textaufnahmen mit den verfügbaren Messwerten liegt zwar noch nicht auf dem Niveau eines durchschnittlichen menschlichen Bewerters, die Mensch-Maschine-Korrelationen zeigen jedoch das Potential des Verfahrens. Mikrofonabstand und Sprecherposition haben zum Teil nennenswerten Einfluss auf die Ergebnisse. Durch eine andere Zusammensetzung der Merkmalsmenge können diese jedoch ausgeglichen werden.

Fazit: Das Verfahren ist zur objektiven Erfassung der Stimmqualität, auch bei verhallten Aufnahmen, grundsätzlich geeignet.


Text

Einleitung

Mit prosodischen Analyseverfahren können Stimm- und Sprecheigenschaften automatisch aus Textaufnahmen bewertet werden [1]. In der hier vorgestellten Studie wurde getestet, ob sich diese Methode auch zur Stimmqualitätsmessung eignet, wenn die untersuchten Personen kein Nahbesprechungsmikrofon (Headset) tragen, da die Aufnahmesituation gelegentlich als belastend empfunden wird. In der Therapiesitzung ist der Abstand zwischen Testperson und Logopädin üblicherweise klein. Es wurde ermittelt, wie sich die Übereinstimmung von perzeptiver und automatischer Bewertung ändert, wenn das Mikrofon für die Aufnahme einen größeren Abstand zur Testperson aufweist.

Material und Methode

68 Männer und 14 Frauen nach einer Larynxteilresektion mit einem Durchschnittsalter von 62,3±8,8 Jahren (min. 41,1, max. 86,1 Jahre) lasen den „Nordwind und Sonne“-Text vor und wurden mit einem Headset (Abtastfrequenz 16 kHz, Amplitudenauflösung 16 bit) aufgenommen. Fünf erfahrene Logopädinnen und Ärzte bewerteten in jeder Aufnahme die Gesamtqualität der Stimme auf einer visuellen Analogskala zwischen 0,0 („sehr gut“) und 10,0 („extrem schlecht“). Aus den Bewertungen für jede Person wurde jeweils eine Durchschnittsnote als Referenz für alle automatischen Evaluierungsszenarien gebildet.

Um Sprachproben mit anderem Mikrofonabstand zu erhalten, dabei aber sicherzustellen, dass diese sich nur in der Raumakustik und nicht in Stimmqualität, Störgeräuschen oder Vokabular unterscheiden, wurden die vorhandenen Headset-Aufnahmen künstlich verhallt. Dazu wurden Raumimpulsantworten in einem Raum der Größe 580×590×310 cm gemessen. Durch schallschluckende Teppiche und Vorhänge wurde die Nachhallzeit T60, in welcher der Nachhall um 60 dB abklingt, zwischen 250 und 400 ms variiert. Die angenommenen Sprecherpositionen lagen auf drei Halbkreisen mit 60, 120 und 240 cm Mikrofonabstand (s. Abbildung 1 [Abb. 1]). Für alle Positionen wurde die Mensch-Maschine-Korrelation der Stimmqualitätsbewertung für die entsprechend verhallte Aufnahme berechnet.

Die apparative Diagnostik verwendet sog. prosodische Merkmale. Basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal [2] wurden 33 prosodische Merkmale pro Wort bzw. pro Wort-Pause-Wort-Intervall erfasst. Die größte Gruppe umfasste die F0-Merkmale, die u.a. Mittelwert, Minimum, Maximum, den Wert bei Stimmeinsatz und -ausklang sowie ihre jeweiligen Positionen im betrachteten Intervall enthielten. 15 weitere Merkmale, auf Abschnitten von jeweils 15 Wörtern Länge berechnet, umfassten Mittelwert und Standardabweichung von Jitter und Shimmer, weiterhin Anzahl, Dauer und maximale Dauer von stimmhaften und stimmlosen Abschnitten, das Verhältnis der Anzahl bzw. Dauer von stimmhaften zu stimmlosen Bereichen sowie das Verhältnis der Dauer von stimmhaften bzw. stimmlosen Abschnitten zur Gesamtdauer des Signals. Die Standardabweichung der Sprachgrundfrequenz F0 wurde hier ebenfalls textbasiert ausgewertet. Da die subjektiv-auditive Bewertung für den gesamten Text erfolgte, wurden auch für jedes prosodische Merkmal alle pro Wort bzw. Aufnahmeabschnitt berechneten Werte über die gesamte Aufnahme gemittelt.

Mithilfe der Support-Vektor-Regression (SVR) wurde schließlich aus allen Messwerten die aussagekräftigste Kombination bestimmt und ein Vorhersagewert für die durchschnittliche perzeptive Bewertung der jeweiligen Testperson berechnet. Diese Optimierung wurde für die Headset-Aufnahmen und auch für die Sprecherposition durchgeführt, die akustisch von der Nahbesprechungssituation am stärksten abweicht (Impulsantwort h423165, T60: 400 ms, 240 cm Mikrofonabstand, 165° Winkel zum Mikrofon; vgl. Abbildung 1 [Abb. 1]). Dann wurden mit den ermittelten Merkmalsmengen auch alle übrigen akustischen Szenarien untersucht.

Ergebnisse

Die durchschnittliche Stimmqualitätsnote der fünf bewertenden Personen lag für die 82 Sprecher bei 5,59±2,49 (min. 1,46; max. 9,52). Die Inter-Rater-Korrelation (ein Bewerter gegen den Mittelwert der übrigen) war r=0,89. Die Mensch-Maschine-Korrelationen sind im Folgenden für alle Raumimpulsantworten zusammengestellt (Tabelle 1 [Tab. 1]). Angegeben sind jeweils die Nachhallzeit T60, der Mikrofonabstand („Abst.“), der Sprechwinkel zum Mikrofon (α, s. Abbildung 1 [Abb. 1]) sowie die Korrelation unter Verwendung der besten Merkmalsmengen für Nahbesprechung (rnah) bzw. verhallte Aufnahmen (rhall).

Die beste Merkmalsmenge für stark verhallte Aufnahmen enthielt die durchschnittliche Länge eines Wort-Pause-Wort-Intervalls und damit einen Hinweis auf Sprechanstrengung bzw. -tempo, den mittleren normierten Wert der F0 sowie deren Standardabweichung. Für Nahbesprechungsaufnahmen kommen noch der F0-Wert beim Stimmeinsatz sowie der prozentuale zeitliche Anteil der als stimmhaft erkannten Aufnahmeabschnitte hinzu.

Diskussion und Fazit

Im Gegensatz zur Verständlichkeitsbewertung [3] liegt die Stimmqualitätsbewertung aus verhallten Textaufnahmen mit den verfügbaren Messwerten im Vergleich mit der perzeptiven Bewertung noch nicht auf dem Niveau eines durchschnittlichen menschlichen Bewerters. Mensch-Maschine-Korrelationen bis r=0,74 zeigen jedoch die grundsätzliche Eignung des Verfahrens. Mikrofonabstand und Sprecherposition haben zum Teil nennenswerten Einfluss auf die Ergebnisse. Durch eine andere Zusammensetzung der Merkmalsmenge können diese jedoch ausgeglichen werden.

Danksagung

Wir danken Wolfgang Herbordt für Software und Daten zur Verhallung. Michael Döllinger wird von der Deutschen Krebshilfe, Fördernr. 111332, unterstützt.


Literatur

1.
Haderlein T. Automatic Evaluation of Tracheoesophageal Substitute Voices. Berlin: Logos Verlag; 2007. (Studien zur Mustererkennung; Band 25).
2.
Zeißler V, Adelhardt J, Batliner A, Frank C, Nöth E, Shi RP, Niemann H. The prosody module. In: Wahlster W, eds. SmartKom: Foundations of Multimodal Dialogue Systems. New York: Springer; 2006. S.139-52. DOI: 10.1007/3-540-36678-4_9 External link
3.
Haderlein T, Döllinger M, Schützenberger A, Nöth E. Influence of Reverberation on Automatic Evaluation of Intelligibility. In: Sojka P, Horák A, Kopecek I, Pala K, eds. Text, Speech and Dialogue (TSD 2016). Springer; 2016. (LNAI). (Im Druck)