gms | German Medical Science

34. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)
Dreiländertagung D-A-CH

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Bern, 14.09. - 17.09.2017

Emotionswahrnehmung von Sequenzen eines synthetischen Sprechers

Vortrag

  • corresponding author presenting/speaker Lucia Martin - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen, Universitätsklinikum Aachen und RWTH Aachen, Aachen, Deutschland
  • author Peter Birkholz - Institut für Akustik und Sprachkommunikation, Fakultät Elektrotechnik und Informationstechnik, Technische Universität Dresden, Dresden, Deutschland
  • author Christiane Neuschaefer-Rube - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen, Universitätsklinikum Aachen und RWTH Aachen, Aachen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 34. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP), Dreiländertagung D-A-CH. Bern, Schweiz, 14.-17.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. DocV33

doi: 10.3205/17dgpp48, urn:nbn:de:0183-17dgpp481

Published: August 30, 2017

© 2017 Martin et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Ziel dieser Arbeit war es zu prüfen, ob sich mittels artikulatorischer Sprachsynthese perzeptiv überzeugende Sequenzen in den grundlegenden Emotionen (Angst, Ekel, Freude, Trauer und Wut) durch die Modulation von klassischen prosodischen Merkmalen (z.B. Tonhöhe), kombiniert mit verschiedenen Phonationsarten, generieren lassen. Aufgrund physiologischer Zusammenhänge sowie Hinweisen aus der Literatur ist ein Einfluss von Vokaltraktlänge, Artikulationsgenauigkeit und Nasalität als sekundäre prosodische Merkmale anzunehmen. In Perzeptionsstudien wurde deshalb zusätzlich der Einfluss der sekundären prosodischen Merkmale auf die Wahrnehmung synthetisch generierter emotionaler Äußerungen untersucht.

Material und Methoden: Von einem deutschen Profisprecher wurden fünf einphrasige emotional neutrale Sätze eingesprochen. Diese Äußerungen wurden mit VocalTractLab 2.1 möglichst originalgetreu re-synthetisiert. Durch Modulation der Merkmale Tonhöhe und -umfang, subglottischer Druck, Sprechgeschwindigkeit und Phonationsart wurde emotionales Sprachmaterial erzeugt. In einem weiteren Schritt wurden die Sequenzen hinsichtlich Nasalität, Vokaltraktlänge und verminderter Artikulationsgenauigkeit selektiv oder in Kombination manipuliert. In Hörexperimenten mit normakusen Probanden (N=48) erfolgte die kategoriale Zuordnung der perzipierten Emotionen sämtlicher generierter Stimuli.

Ergebnisse: Die Sequenzen der Kategorien Angst, Freude, Neutral und Trauer wurden in allen Untertests signifikant über Zufallsniveau korrekt zugeordnet. Die zusätzliche systematische Manipulation der sekundären prosodischen Merkmale ergab für die Kategorien Ekel, Freude, Trauer und Wut signifikant höhere Erkennungsraten.

Diskussion: Die Erkennungsraten der synthetisch erzeugten Sequenzen für die Emotionskategorien Angst, Ekel, Freude und Trauer sind vergleichbar mit denen von geschauspielerten natürlich-sprachigen Emotionsäußerungen. Die Erkennungsraten der Kategorie Wut zeigen hingegen, dass sich die Synthese unter Berücksichtigung weiterer Merkmalsmanipulationen möglicherweise noch verbessern ließe.

Fazit: Neben dem Beitrag weitere Merkmale zur Beschreibung des emotionalen Sprechausdrucks zu finden (Grundlagenforschung) tragen die Ergebnisse dieser Arbeit dazu bei, die Entwicklung der emotionalen Sprachsynthese, sowie auch der emotionalen Spracherkennung voranzutreiben. Diese Gebiete sind eng mit dem Bereich der Mensch-Maschine-Kommunikation verwoben und neue Erkenntnisse weisen auch dort einen Nutzen auf (z.B. im Bereich der Dialogsysteme/bei elektronischen Kommunikationshilfen).


Text

Hintergrund

Untersuchungen darüber, wie emotionale Charakteristika der Stimme erzeugt und wahrgenommen werden ist sowohl für die Mensch-zu-Mensch- als auch für die Mensch-Maschine-Kommunikation von wachsender Bedeutung. Für die grundlegenden Emotionen Angst, Ekel, Freude, Trauer und Wut wurden die „klassischen“ prosodischen Merkmale (Tonhöhe, Dauer, Intensität) als basale Determinanten des Sprechausdrucks beschrieben [1], [2]. Darüber hinaus hat sich auch die Phonationsart als wichtiges Merkmal dieser Emotionen herausgestellt [3]. Bislang fehlt es jedoch an Untersuchungen weiterer Merkmale. Aufgrund physiologischer Zusammenhänge ist ein Einfluss von Vokaltraktlänge, Artikulationsgenauigkeit und Nasalität als „sekundäre“ prosodische Merkmale anzunehmen. Es war Ziel dieser Arbeit zu prüfen, ob sich mittels artikulatorischer Sprachsynthese perzeptiv überzeugende Sequenzen in den grundlegenden Emotionen durch die Modulation von klassischen prosodischen Merkmalen generieren lassen. Zusätzlich sollte der Einfluss der sekundären prosodischen Merkmale auf die Wahrnehmung synthetisch generierter emotionaler Äußerungen untersucht werden.

Material und Methoden

Für die Querschnittsstudien wurden fünf einphrasige emotional unbestimmte neutrale Sätze von einem deutschen Profisprecher eingesprochen. Diese Äußerungen wurden möglichst originalgetreu mit dem Programm VocalTractLab 2.1 [4] resynthetisiert. Auf der Basis bisheriger Erkenntnisse aus der Literatur sowie zusätzlichen Analysen von natürlichem Sprachmaterial wurde mit dem Programm VocalTractLab 2.1 aus den re-synthetisierten neutralen Äußerungen durch die Modulation klassischer Merkmale (Tonhöhe und -umfang, subglottischer Druck, Sprechgeschwindigkeit, Phonationsart) emotionales Sprachmaterial erzeugt (vgl. Tabelle 1 [Tab. 1]). Diese Sequenzen wurden anschließend hinsichtlich der Merkmale Nasalität, Vokaltraktlänge und verminderter Artikulationsgenauigkeit selektiv oder in Kombination manipuliert. In zwei Hörexperimenten wurden die generierten Stimuli von insgesamt 48 normalhörenden Probanden (Experiment 1: 20♀, 10♂, zwischen 17–39 Jahren; Experiment 2: 9♀, 9♂, zwischen 23–33 Jahren) den grundlegenden Emotionen oder einer neutralen Kategorie zugeordnet. Die Daten der Experimente wurden hinsichtlich der Erkennung über Zufallsniveau auf Signifikanz überprüft (exakte Binomialverteilung mit Anpassung des Signifikanzniveaus). Zudem wurde der Einfluss der Merkmalsmanipulationen auf die Emotionserkennung mittels des exakten Cochran-Tests auf Signifikanz getestet (spezifische Paarvergleiche erfolgten anschließend mit Hilfe des McNemar Tests, das Signifikanzniveau wurde mit der Bonferroni-Holm-Prozedur adjustiert).

Ergebnisse

Die synthetisch erzeugten Sequenzen konnten von den Probanden für die Emotionen Angst, Freude und Trauer (sowie in der neutralen Variante) in allen Untertests signifikant über dem Zufallsniveau der korrekten Kategorie zugeordnet werden (vgl. Tabelle 2 [Tab. 2]). Durch die zusätzliche systematische selektive oder kombinatorische Manipulation der „sekundären“ prosodischen Merkmale konnten für die Kategorien Ekel, Freude, Trauer und Wut signifikant höhere Erkennungsraten erzielt werden (vgl. Tabelle 3 [Tab. 3]). Eine Ausnahme zeigte sich bei der Kategorie Angst. Hier führte die Manipulation dieser Merkmale zu signifikant niedrigeren Erkennungsraten.

Diskussion und Fazit

Die Erkennungsraten der synthetisch erzeugten Sequenzen für die Emotionskategorien Angst, Ekel, Freude und Trauer sind vergleichbar mit der Erkennungsleistung von geschauspielerten natürlich-sprachigen Emotionsäußerungen. Die Erkennungsraten in der Kategorie Wut zeigen hingegen, dass sich die Synthese dieser Sequenzen unter Berücksichtigung weiterer Merkmals-manipulationen möglicherweise verbessern ließe. Die vorliegende Arbeit konnte dazu beitragen, weitere Merkmale zur Beschreibung des emotionalen Sprechausdrucks zu finden. Darüber hinaus tragen die Ergebnisse dazu bei, die Entwicklung der emotionalen Sprachsynthese und der emotionalen Spracherkennung voranzutreiben. Einen denkbaren Zugewinn könnten sie beispielsweise im Bereich der Dialogsysteme („Personal Assistants“) der Mensch-Maschine-Kommunikation liefern oder auch im therapeutischen Bereich bei elektronischen Kommunikationshilfen („Augmentative and Alternative Communication“) bedeuten.


Literatur

1.
Scherer KR. Vocal communication of emotion: A review of research paradigms. Speech Communication. 2003;40:227-6. DOI: 10.1016/S0167-6393(02)00084-5 External link
2.
Juslin PN, Laukka P. Communication of emotions in vocal expression and music performance: different channels, same code? Psychol Bull. 2003 Sep;129(5):770-814. DOI: 10.1037/0033-2909.129.5.770 External link
3.
Birkholz P, Martin L, Willmes K, Kröger BJ, Neuschaefer-Rube C. The contribution of phonation type to the perception of vocal emotions in German: an articulatory synthesis study. J Acoust Soc Am. 2015 Mar;137(3):1503-12. DOI: 10.1121/1.4906836 External link
4.
Birkholz P. VocalTractLab 2.1: articulatory speech synthesizer [Computer Programm], Version 2.1. 2013. Available from: http://www.vocaltractlab.de/index.php?page=vocaltractlab-download External link