gms | German Medical Science

23. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

15. - 17.09.2006, Heidelberg

Die tracheoösophageale Ersatzstimme: grafische Darstellung mithilfe der Sammon-Transformation

Vortrag

  • author presenting/speaker Tino Haderlein - Universitätsklinikum Erlangen, Erlangen, Deutschland
  • corresponding author Frank Rosanowski - Universitätsklinikum Erlangen, Erlangen, Deutschland
  • author Dominik Zorn - Universität Erlangen-Nürnberg, Lehrstuhl für Mustererkennung, Erlangen, Deutschland
  • author Elmar Nöth - Universität Erlangen-Nürnberg, Lehrstuhl für Mustererkennung, Erlangen, Deutschland
  • author Hikmet Toy - Universitätsklinikum Erlangen, Erlangen, Deutschland
  • author Ulrich Eysholdt - Universitätsklinikum Erlangen, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 23. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie. Heidelberg, 15.-17.09.2006. Düsseldorf, Köln: German Medical Science; 2006. Doc06dgppV17

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2006/06dgpp23.shtml

Veröffentlicht: 5. September 2006

© 2006 Haderlein et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Objektiv-apparative Stimmbewertungen werden heute meist auf der Basis gehaltener Vokale durchgeführt, aus denen Parameter berechnet werden, die zur grafischen Darstellung einer Pathologie dienen. In dieser Studie, einem Teilprojekt eines von der Deutschen Krebshilfe geförderten Forschungsvorhabens zur tracheoösophagealen Ersatzstimme TE Laryngektomierter, ging es um ein neues Verfahren. Für die Analyse werden die internen akustischen Parameter eines bereits für Marktzwecke professionalisierten automatischen Spracherkennungssystems an den jeweiligen Sprecher adaptiert. Die Abweichung von den ursprünglichen Werten dient als Messgröße für die Abweichung von der Normalstimme. Mithilfe der sog. Sammon-Transformation wird die große Zahl der Parameter bei minimalem Informationsverlust in eine zweidimensionale, grafische Darstellung gebracht. Verschiedene Gruppen von Sprechern (18 Sprecher mit TE, 18 chronisch heisere Sprecher, 18 alte und 16 junge Normalsprecher) wurden miteinander verglichen. Die Ergebnisse zeigen nicht nur eine grafische Trennung zwischen pathologischen und Normalstimmen, sondern auch von unterschiedlichen pathologischen Stimmen.

Ebenso wurden junge und alte, männliche und weibliche Sprecher voneinander getrennt. Die Projektion eines neuen Sprechers in eine bestehende Grafik erlaubt eine Aussage über dessen Pathologie im Vergleich zum vorhandenen Sprecherkollektiv.


Text

Einleitung

Automatische, objektive Methoden zur Stimmevaluation basieren derzeit meist lediglich auf einer Aufnahme eines gehaltenen Vokals. Mithilfe der automatischen Spracherkennung ist es jedoch möglich, verschiedene Laute in die Analyse einzubeziehen. Die dabei auftretenden großen Datenmengen müssen in eine übersichtliche Form gebracht werden, um dem medizinischen Personal im klinischen Alltag nützlich zu sein. Zu diesem Zweck wird die sog. Sammon-Transformation verwendet: Sie bildet die automatisch berechneten Messwerte in einer zweidimensionalen Grafik ab.

Material und Methoden

Vier Sprechergruppen wurden in dieser Studie evaluiert. 18 laryngektomierte Männer mit einer seit mehr als einem Jahr funktionierenden tracheoösophagealen Ersatzstimme und einem Durchschnittsalter von 64,2 Jahren [1] bildeten zusammen mit jeweils 9 chronisch heiseren Männern und Frauen (Durchschnittsalter 47,6 Jahre) die Menge der untersuchten pathologischen Sprecher. Dem gegenüber standen zwei Gruppen von Normalsprechern. 18 Männer, im Durchschnitt 65,4 Jahre alt, stellten die erste Kontrollgruppe. Die zweite bestand aus 9 Männern und 7 Frauen, deren Durchschnittsalter ca. 25 Jahre betrug. Eine genaue Altersangabe war nicht möglich, da diese Aufnahmen einem Sprachkorpus entnommen wurden, in welchem diese Daten nicht erhoben worden waren (BAS Strange Corpus 1, http://www.phonetik.uni-muenchen.de/Bas/).

Alle Sprecher lasen jeweils den „Nordwind und Sonne“-Text vor. Die Aufnahmen erfolgten mit einem „dnt Call 4U Comfort“-Headset (Abtastfrequenz 16 kHz, Amplitudenauflösung 16 bit). Die jungen Normalsprecher wurden auf DAT-Band aufgenommen (Abtastfrequenz 48 kHz, danach unterabgetastet mit 16 kHz; Amplitudenauflösung 16 bit).

Das auf Hidden-Markov-Modellen basierende Spracherkennungssystem war unabhängig vom gegenwärtigen Projekt am Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg entwickelt und bereits in zahlreichen Forschungsprojekten erfolgreich eingesetzt worden. Kommerziellen Erfolg beim Vertrieb des Systems mit Telefondialogsystemen erzielt eine Ausgründung des Lehrstuhls (http://www.sympalog.de).

Zum Zwecke der Stimmevaluation wurden die internen Parameter des Spracherkennungssystems jeweils mithilfe der Textaufnahme an den aktuellen Sprecher adaptiert [2]. Die gewünschten Messgrößen ergaben sich aus den Unterschieden zu den ursprünglichen Parameterwerten. Mit der Sammon-Transformation [3] wurde deren große Zahl dann in eine zweidimensionale Darstellung umgerechnet. Der große Vorteil der Sammon-Transformation gegenüber eingeführten Verfahren, wie z.B. der Principle Component Analysis (PCA), besteht darin, dass der Begriff des „Abstandes“ zweier Sprecher dabei keinerlei mathematischen Einschränkungen (z.B. lineare Transformation) unterliegt.

Ergebnisse

Abbildung 1 [Abb. 1] zeigt eine Grafik, die aus allen vorhandenen Sprachaufnahmen erstellt wurde. Sie zeigt, dass nicht nur die einzelnen Sprechergruppen, die sich in Stimmqualität und Alter unterscheiden, fast völlig voneinander getrennt wurden, sondern innerhalb dieser Gruppen auch Männer und Frauen.

Diskussion

In der gezeigten Grafik nimmt der Grad der Pathologie von links nach rechts zu, die Grundfrequenz der Stimme von oben nach unten. Welche Stimmeigenschaften bzw. Messgrößen entlang welcher Achse innerhalb der Grafik dargestellt werden, ist von den eingespielten Daten abhängig. Bei Verwendung einer wohl dokumentierten Sprechermenge als Grundlage für die Berechnung ist es jedoch möglich, einen neuen, unbekannten Sprecher in die Grafik hineinzuprojizieren. Seine Lage gibt dann Auskunft über die Stimmeigenschaften im Vergleich zu den bekannten Sprechern. Die Koordinaten im Bild dienen folglich als objektive Bewertungsparameter.

Danksagung

Diese Arbeit wird von der Deutschen Krebshilfe (Fördernr. 106266) gefördert.


Literatur

1.
Schuster M, Haderlein T, Nöth E, Lohscheller J, Eysholdt U, Rosanowski F. Intelligibility of laryngectomees' substitute speech: automatic speech recognition and subjective rating. Eur Arch Otorhinolaryngol. 2006;263(2):188-93.
2.
Steidl S, Stemmer G, Hacker C, Nöth E. Adaptation in the Pronunciation Space for Non-Native Speech Recognition. Proc. Int. Conf. on Spoken Language Processing (ICSLP). Jeju Island, Korea. 2004. vol. 1. p. 318-21.
3.
Sammon J. A nonlinear mapping for data structure analysis. IEEE Trans. Computers. 1969;C-18:401-9.