gms | German Medical Science

32. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

24.09. - 27.09.2015, Oldenburg

Manipulation sekundärer prosodischer Merkmale mittels artikulatorischer Sprachsynthese

Vortrag

  • corresponding author presenting/speaker Lucia Martin - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen, Universitätsklinikum Aachen und RWTH Aachen, Aachen, Deutschland
  • author Peter Birkholz - Institut für Akustik und Sprachkommunikation, Fakultät Elektrotechnik und Informationstechnik, Technische Universität Dresden, Dresden, Deutschland
  • author Christiane Neuschaefer-Rube - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen, Universitätsklinikum Aachen und RWTH Aachen, Aachen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 32. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Oldenburg, 24.-27.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. Doc29

doi: 10.3205/15dgpp28, urn:nbn:de:0183-15dgpp286

Published: September 7, 2015

© 2015 Martin et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Emotionale Eigenschaften beim Sprechen tragen wesentlich zu einer erfolgreichen Kommunikation bei. Dies gilt inzwischen nicht nur für natürliche Sprecher, sondern auch für die synthetisch unterstützte Kommunikation unserer digitalen Welt. Bei natürlichen Sprechern werden emotionale Eigenschaften durch ein komplexes Zusammenspiel prosodischer Merkmale unterschiedlicher Ebenen erzeugt, die nicht nur perzeptiv, sondern auch akustisch beschrieben werden können. Während die klassischen Merkmale (Tonhöhe, Dauer, Intensität) als prosodische Determinanten definierter Basisemotionen bekannt sind, ist über Einflüsse sekundärer Merkmale wie Vokaltraktlänge, Artikulationsgenauigkeit und Nasalität bisher wenig bekannt. Es ist daher Ziel dieses Beitrags, nachzuweisen, inwieweit sich diese sekundären prosodischen Merkmale mittels artikulatorischer Sprachsynthese perzeptiv plausibel synthetisieren lassen.

Material und Methoden: In dieser Querschnittsstudie wurden neun 2–4-silbige Obstwörter möglichst originalgetreu mit dem Programm VocalTractLab 2.1 re-synthetisiert und anschließend hinsichtlich der Merkmale Nasalität, Vokaltraktlänge und Artikulationsgenauigkeit (mehrere Ausprägungen) manipuliert. In einem Hörexperiment wurden die Stimuli von 16 Probanden (10♀, 6♂, zwischen 19–49 Jahren) hinsichtlich Natürlichkeit und Erkennung der merkmalsmanipulierten Stimuli (Diskriminationstest) beurteilt. Die Daten der Diskriminationstests wurden mittels des Binomial Tests auf Gleichverteilung getestet.

Ergebnisse: Die Probanden schätzten die möglichst originalgetreu re-synthetisierten Äußerungen zu 76% als ziemlich oder sehr natürlich ein. Die Hörer erkannten die merkmalsmanipulierten Stimuli in den Diskriminationstests mit Raten zwischen 77% und 96% hoch signifikant (p<.001). Lediglich die Erkennung der Manipulation einer erhöhten Artikulationsgenauigkeit war mit 54% zufällig.

Diskussion: Die perzeptive Darstellung einer erhöhten Artikulationsgenauigkeit ist nicht gelungen. Es gibt Hinweise, dass die erfolgreich manipulierten sekundären prosodischen Merkmale Vokaltraktlänge, reduzierte Artikulationsgenauigkeit und Nasalität mögliche wichtige Einflussfaktoren beim Ausdruck emotionalen Sprechens sind.

Fazit: Es wurde eine effektive Manipulation paralinguistischer Merkmale mittels artikulatorischer Synthese demonstriert, die sowohl in der Lehre als auch in der direkten Anwendung mit dem Patienten (visuelle und akustische Darstellungsmöglichkeit) in der logopädischen Therapie von Interesse sein könnte.


Text

Hintergrund

Der emotionale Zustand eines Sprechers wirkt sich auditiv wahrnehmbar auf das komplexe Zusammenspiel des Phonationsvorgangs aus. Während die basalen prosodischen Merkmale (Tonhöhe, Dauer, Intensität) für die grundlegenden Basisemotionen (z.B. Wut, Freude) bekannt sind [1], ist anzunehmen, dass noch weitere „sekundäre“ prosodische Merkmale die emotionale Sprechweise beeinflussen. So wirken sich z.B. Körperhaltung, -tonus und Mimik, die in engem Zusammenhang mit emotionalen Zuständen stehen, auf die Ausformung von Artikulationsgenauigkeit, Nasalität und Vokaltraktlänge aus. Der Einfluss dieser „sekundären“ Merkmale wurde bislang kaum untersucht, könnte jedoch einen wichtigen Beitrag sowohl zur sprachlichen Emotionsforschung wie auch zur Erzeugung künstlicher Sprache leisten. Im Gegensatz zu verkettender Sprachsynthese (Zusammensetzung aufgenommener Sprachbausteine zu neuen Äußerungen) wird bei der artikulatorischen Sprachsynthese der Prozess der physiologischen Spracherzeugung simuliert, so dass artikulatorische Merkmale direkt manipuliert werden können. Es war daher Ziel der Studie, zu klären, ob es mit dem artikulatorischen Syntheseprogramm VocalTractLab 2.1 [2] plausibel möglich ist, die Merkmale Vokaltraktlänge, Artikulationsgenauigkeit und Nasalität zu erzeugen und darüber hinaus, ob normalhörende Laien diese Manipulationen bei einfacher Gegenüberstellung identifizieren können.

Material und Methoden

In dieser Querschnittsstudie wurden neun 2–4-silbige Begriffe aus dem Wortfeld „Obst“ möglichst originalgetreu mit dem Programm VocalTractLab 2.1 re-synthetisiert und anschließend hinsichtlich der Merkmale Nasalität, Vokaltraktlänge und Artikulationsgenauigkeit in verschiedenen Ausprägungsgraden manipuliert. Zur Erzeugung nasaler Sprechweise wurde bei Vokalen und Approximanten der Grad der velopharyngealen Öffnung auf 10% der maximalen Öffnung eingestellt. Für die Manipulation der Vokaltraktlänge (verkürzt/verlängert) wurden neue Vokaltraktformen für die vokalischen Gesten erstellt und diese neuen Zielgesten in die Stimuli implementiert. Zur Erstellung dieser neuen Vokaltraktformen wurden für einen verlängerten Vokaltrakt zunächst bei allen vokalischen Zielgesten die Lippen 1 cm nach vorne gestülpt und der Kehlkopf 1 cm nach unten abgesenkt. Entsprechend wurden für die Ausformung eines verkürzten Vokaltrakts die Lippen 1 cm nach hinten gezogen und der Kehlkopf 1 cm angehoben. Um eine natürliche Vokalqualität zu erreichen wurden zusätzlich die ersten drei Formantfrequenzen dieser vokalischen Zielgesten angepasst. Die Manipulation der Artikulationsgenauigkeit erfolgte auf zwei verschiedene Arten mit jeweils zwei Abstufungen. So wurden einerseits für die Manipulation einer erhöhten/herabgesetzten Artikulationsgenauigkeit (entsprechend dem artikulatorischen Aufwand) die Zeitkonstanten aller einzelnen Gesten einer jeden Äußerung halbiert/verdoppelt. Andererseits wurden zur Manipulation einer verminderten Artikulationsgenauigkeit ebenfalls neue vokalische sowie auch neue konsonantische Vokaltraktformen in zwei Abstufungen (vermindert/stark vermindert) vorbereitet und entsprechend zur Erstellung dieser merkmalsmanipulierten Stimuli verwendet. Für diese neuen Vokaltraktformen wurden die Formantfrequenzen der vokalischen Zielgesten in Richtung des Schwa-Lautes zentralisiert. Zur Zentralisierung der Konsonanten wurden die konsonantischen Gesten hinsichtlich der Koartikulation stärker invariant modelliert. Die vokalischen Vokaltraktformen bei verminderter Artikulationsgenauigkeit entsprechen einer Mischung aus 75% des Standardlautes und 25% des Schwa-Lautes, bei der stark verminderten Ausformung einer Mischung von jeweils 50%. In einem Hörexperiment (Einzelsettings am PC über Kopfhörer) wurden diese Stimuli von 16 Probanden (10♀, 6♂, zwischen 19–49 Jahren) hinsichtlich ihrer Natürlichkeit und in Diskriminationstests hinsichtlich der Erkennung der merkmalsmanipulierten Stimuli beurteilt. Die Daten der Diskriminationstests wurden mittels des Binomial Tests auf Gleichverteilung getestet (SPSS 20.0).

Ergebnisse

Die Probanden schätzten die möglichst originalgetreu re-synthetisierten Äußerungen zu 76% als ziemlich oder sehr natürlich ein. Mit einer Ausnahme wurden die merkmalsmanipulierten Stimuli von den Probanden in den paarweisen Präsentationen (z.B. bzgl. der Vokaltraktlänge: standard – verlängert, verlängert – verkürzt, verkürzt – standard) zu wenigstens 77% korrekt erkannt (jeweils p<.001). Allerdings erfolgte die Erkennung der Stimuli mit einer erhöhten Artikulationsgenauigkeit in der Gegenüberstellung mit den möglichst originalgetreu re-synthetisierten Stimuli mit 54% zufällig (s. Abbildung 1 [Abb. 1]).

Diskussion und Fazit

Die perzeptive Darstellung einer erhöhten Artikulationsgenauigkeit ist nicht gelungen. Möglicherweise war die Erhöhung der Artikulationsgenauigkeit aufgrund des verwendeten natürlichen Sprachmaterials begrenzt. Eventuell könnte sich diese z.B. in Kombination mit einem erhöhten subglottalen Druck stärker auswirken. Es gibt klare Hinweise darauf, dass die sekundären prosodischen Merkmale Vokaltraktlänge, reduzierte Artikulationsgenauigkeit und Nasalität wichtige Einflussfaktoren bei emotionaler Sprechweise sind [3]. Mit den hier erzielten Ergebnissen ist es mit dem artikulatorischen Sprachsyntheseprogramm VocalTractLab 2.1 nun möglich, den Einfluss dieser sekundären prosodischen Merkmale auf die emotionale Sprechweise zu untersuchen. Darüber hinaus bietet das Programm durch die visuellen und akustischen Darstellungsoptionen ein breites Spektrum an Anwendungsmöglichkeiten, um die Sprechvorgänge didaktisch zu vermitteln.


Literatur

1.
Scherer KR. Vocal communication of emotion: A review of research paradigms. Speech Communication. 2003;40:227-56.
2.
Birkholz P. VocalTractLab 2.1: articulatory speech synthesizer [Computer Programm], Version 2.1, 2013, Verfügbar unter: http://www.vocaltractlab.de/index.php?page=vocaltractlab-download External link
3.
Chuenwattanapranithi S, Xu Y, Thipakorn B, Maneewongvatana S. Encoding emotions in speech with the size code – a perceptual investigation. Phonetica. 2008;65(4):210-30. DOI: 10.1159/000192793 External link