gms | German Medical Science

26. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

11.09. - 13.09.2009, Leipzig

VocalTractLab – Ein neues Softwaretool für die artikulatorische Sprachsynthese in der Lehre

Vortrag

  • corresponding author presenting/speaker P. Birkholz - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen des Universitätsklinikums Aachen, Aachen, Deutschland
  • B. Lehnert - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen des Universitätsklinikums Aachen, Aachen, Deutschland
  • C. Neuschaefer-Rube - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen des Universitätsklinikums Aachen, Aachen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 26. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Leipzig, 11.-13.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09dgppV48

doi: 10.3205/09dgpp67, urn:nbn:de:0183-09dgpp676

Published: September 7, 2009

© 2009 Birkholz et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Einleitung: Im Gegensatz zu verkettenden Syntheseverfahren ist die Artikulatorische Sprachsynthese eine Technik zur Spracherzeugung auf Basis eines geometrischen Vokaltraktmodells und dessen nummerischer Schallfeldsimulation. Dies ist nicht nur in Hinblick auf das erzeugte Sprachsignal interessant, sondern ermöglicht eine anschauliche Präsentation der Sprechabläufe.

Software-Aufbau: Die Software bietet audio-visuelle Schnittstellen zu mehreren Modulen. Eine Schnittstelle visualisiert den Vokaltrakt in 3D, ermöglicht die Vokaltraktparameter grafisch einzustellen, berechnet die Übertragungsfunktion in Echtzeit, so dass der Anwender hiermit die artikulatorisch-akustischen Beziehungen studieren kann. Das simulierte stimmhafte Sprachsignal zu einer gegebenen Artikulation kann jederzeit abgespielt werden. Eine weitere Schnittstelle visualisiert die zeitliche Entwicklung des Schallfeldes im Vokaltrakt, u.a. um Auswirkungen von Engstellen im Ansatzrohr auf die zeitliche Schallfluss- und Schalldruckentwicklung zu untersuchen. Das dritte Modul ermöglicht interaktiv gestische Ablaufpläne für Mehrlautäußerungen zu erstellen, die sowohl Prosodie als auch Artikulation steuern.

Anwender: Mit dem VocalTractLab wurde eine Software geschaffen, die in der Ausbildung von Studenten der Humanmedizin/Logopädie effektiv eingesetzt werden kann. Typische Anwendungen werden auf der Tagung beispielhaft vorgestellt.


Text

Einleitung

Die menschliche Sprachproduktion umfasst Vorgänge, die hochkomplex organisiert sind. Es ist entsprechend schwierig, die Steuerungs- und Bewegungsabläufe zu synthetisieren. Aktuelle Syntheseverfahren verketten in der Regel lediglich zuvor aufgenommene Sprachbausteine zu neuen Äußerungen. Dadurch ist die Flexibilität hinsichtlich der Variation der Stimme in Abhängigkeit von Alter, Geschlecht, Emotionen etc. stark eingeschränkt. Im Gegensatz zu diesen verkettenden Syntheseverfahren ist die artikulatorische Sprachsynthese eine Technik zur Spracherzeugung auf Basis eines geometrischen Vokaltraktmodells und dessen numerischer Schallfeldsimulation, was eine deutlich höhere Flexibilität ermöglicht. Innerhalb der letzten Jahre wurde mit der Software VocalTractLab ein Arbeits- und Forschungstool für die artikulatorische Sprachsynthese geschaffen [1], [2], das durch seine anschauliche Präsentation der Artikulation, Akustik und Sprechabläufe auch für den Einsatz in der Lehre geeignet ist. In Seminaren für Studenten der Humanmedizin, Logopädie und Phonetik wurde das Programm durchweg positiv angenommen und hat die Studenten zu eigenem Experimentieren angeregt.

Software-Module

Das Programm bietet drei Module/Ansichten, die sich zur Präsentation unterschiedlicher Aspekte der Sprachproduktion anbieten.

1.
Die erste Ansicht (Abbildung 1 [Abb. 1]) zeigt ein dreidimensionales Modell des Sprechtrakts, die zugehörige Ansatzrohr-Querschnittsfunktion, und deren akustische Übertragungsfunktion. Die Variablen zur Steuerung der Artikulatoren des 3D-Sprechtraktmodells können mit Hilfe von Artikulatorpunkten interaktiv eingestellt werden. Durch die Darstellungen der zugehörigen Funktionen wird u.a. unmittelbar die Beziehung zwischen der Ansatzrohrformung und den Vokalformanten deutlich. Der visuell eingestellte Laut wird von der Software synthetisiert und akustisch ausgegeben. Durch die interaktive Absenkung des virtuellen Gaumensegels können außerdem die spektralen und akustischen Effekte untersucht werden, die sich durch die Ankopplung des Nasenraums ergeben. Auch die Effekte einer Ansatzrohrverlängerung oder -verkürzung durch die Änderung der Kehlkopfhöhe und der Lippenrundung werden unmittlebar deutlich.
2.
Die zweite Ansicht (Abbildung 2 [Abb. 2]) visualisiert die zeitliche Entwicklung des Schallfeldes innerhalb des Vokaltrakts bei der Produktion stimmhafter oder stimmloser Laute. Dadurch wird den Studenten ein Eindruck von den zeit- und ortsabhängigen Drücken und Volumenströmen innerhalb des Vokaltrakts vermittelt. Die drei Graphen in Abbildung 2 [Abb. 2] zeigen beispielhaft für den Vokal [i:] den zeitlichen Verlauf des Volumenstroms durch die Stimmritze (oben), eine Momentaufnahme des Volumenstromverlaufs von der Luftröhre bis zur Mundöffnung (Mitte) und den Rohrquerschnittsverlauf des Ansatzrohres (unten), in dem die Volumenstromverteilung farblich kodiert ist. Optional kann während der akustischen Simulation ein Modell der Stimmlippen eingeblendet werden, um die Beziehung zwischen akustischer Anregung und Filterung zu zeigen.
3.
Die dritte Ansicht ermöglicht die interaktive Erstellung von gesturalen Ablaufplänen für Mehrlautäußerungen. Die Äußerungen können sowohl graphisch (in Form eines Artikulationsfilms) als auch akustisch synthetisiert werden. Die Ablaufpläne ermöglichen eine sehr detaillierte Steuerung der Artikulation und der Anregung und bieten den Studenten somit viel experimentellen Freiraum für die Erzeugung eigener künstlicher Sprachsequenzen. Dieses Modul bietet damit auch die Möglichkeit zur Erstellung künstlicher Sprachstimuli für Perzeptionsexperimente.

Diskussion

VocalTractLab wird durch seine visuelle und akustische Repräsentation der Vorgänge bei der Spracherzeugung bereits an mehreren Einrichtungen effektiv in der Lehre mit Bezug zur Phoniatrie, zur akustischen Phonetik und zur Logopädie eingesetzt. Gegenüber vergleichbaren Programmen (z.B. SAAS von Syrinx Speech Technologies) ist VocalTractLab frei verfügbar (http://www.vocaltractlab.de/), bietet einen deutlich größeren Funktionsumfang und das Potenzial zur Vollsynthese. Im Rahmen der Syntheseforschung wird es kontinuierlich weiterentwickelt.


Literatur

1.
Birkholz P, Jackèl D, Kröger BJ. Simulation of losses due to turbulence in the time-varying vocal system. IEEE Transactions on Audio, Speech and Language Processing 2007;15(4):1218-26.
2.
Birkholz P, Jackèl D, Kröger BJ. Construction and control of a three-dimensional vocal tract model. In: International Conference on Acoustics, Speech, and Signal Processing (ICASSP'06); Toulouse, France; 2006. p. 873-6.