gms | German Medical Science

Dreiländertagung D-A-CH
24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28. - 30.09.2007, Innsbruck, Österreich

Automatisierung des Postlaryngektomie-Telefontests (PLTT)

Automation of the Post-Laryngectomy Telephone Test (PLTT)

Vortrag

  • corresponding author presenting/speaker Tino Haderlein - Klinikum der Universität Erlangen-Nürnberg, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • Ulrich Eysholdt - Klinikum der Universität Erlangen-Nürnberg, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • Korbinian Riedhammer - Universität Erlangen-Nürnberg, Lehrstuhl für Mustererkennung, Erlangen, Deutschland
  • Elmar Nöth - Universität Erlangen-Nürnberg, Lehrstuhl für Mustererkennung, Erlangen, Deutschland
  • Frank Rosanowski - Klinikum der Universität Erlangen-Nürnberg, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirugie. Schweizerische Gesellschaft für Phoniatrie. Dreiländertagung D-A-CH, 24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e.V.. Innsbruck, Österreich, 28.-30.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07dgppV16

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2007/07dgpp23.shtml

Veröffentlicht: 28. August 2007

© 2007 Haderlein et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Ein eingeführtes Verfahren zur Evaluation der Verständlichkeit tracheoösophagealer Ersatzstimmen ist der Postlaryngektomie-Telefontest (PLTT), bei dem der Patient über eine Telefonverbindung ausgewählte Wörter und Sätze vorliest, die dann von einem naiven Hörer aufgeschrieben werden.

In einer Studie an 31 Laryngektomierten mit einer tracheoösophagealen Ersatzstimme mittels Provox®-Stimmventilprothese und 11 naiven Hörern wurde die menschliche Auswertung mit der automatischen Auswertung eines andernorts bereits für Marktzwecke professionalisierten, automatischen Spracherkennungssystems erprobt.

Die Ergebnisse zeigen starke Schwankungen in der Gesamtverständlichkeitsbewertung durch die naiven Hörer (39,8 bis 60,6von 100 möglichen Punkten) und verdeutlichen damit den subjektiven Charakter des Tests.

Bei der automatischen Auswertung wurde der naive Hörer durch ein Erkennungssystem simuliert, das nur mit Normalhörern trainiert war. Als automatisches Verständlichkeitsmaß wurden die sog. Wortakkuratheit und Wortkorrektheit bestimmt, die die Zahl der korrekt erkannten Wörter repräsentieren und eine Korrelation von 0,9 zur durchschnittlichen menschlichen Bewertung aufwiesen.

Die Ergebnisse belegen, dass eine Automatisierung des PLTT grundsätzlich möglich ist.


Text

Einleitung

In früheren Arbeiten wurde gezeigt, dass automatische Spracherkennungsverfahren verwendet werden können, um die Verständlichkeit von Sprechern mit tracheoösophagealer Ersatzstimme (TE-Stimme) automatisch zu bewerten [1], [2]. In diesem Beitrag wird eine automatische Version des Postlaryngektomie-Telefontests (PLTT, [3]) vorgestellt, der einen eingeführten Standardtest für die Verständlichkeit über das Telefon darstellt.

Material

PLTT-Aufnahmen von 31 Laryngektomierten (25 Männer und 6 Frauen, im Durchschnitt 63,4±8,7 Jahre alt) mit TE-Stimme waren vorhanden. Die Daten wurden mit einem Dialogsystem der Firma Sympalog Voice Solutions (www.sympalog.com) aufgenommen. Die naiven Hörer waren 8 männliche und 3 weibliche Studenten (22,5±1,2 Jahre), von denen niemand Erfahrung mit Stimm- und Sprachanalyse besaß.

Methode

Ein naiver Hörer, der das Textmaterial nicht kennt, schreibt am Telefon auf, was ein Patient am anderen Ende vorliest. Der PLTT-Wortschatz besteht aus 400 einsilbigen Wörtern und 100 Sätzen, von denen jeweils 22 Wörter und 6 Sätze zufällig ausgewählt werden. Die ersten beiden Wörter und der erste Satz dienen zum Einhören. Der Sprecher liest nur die vorgedruckten Texte vor. Sonstige Äußerungen sind nicht erlaubt. Der Test beginnt mit dem Lesen der Wörter. Versteht der Zuhörer ein Wort nicht, sagt er genau einmal: „Bitte wiederholen Sie das Wort.“ Sätze dürfen nicht wiederholt werden. Die Zahl der auf Anhieb richtig verstandenen Wörter, mit 5 multipliziert, ergibt die Wortverständlichkeit iWort in Prozent. Wörter, die wiederholt wurden, werden nicht gewertet. Wird ein Satz vollständig korrekt verstanden, werden zwei Punkte vergeben. Ein Punkt wird gegeben, wenn ein Wort fehlt oder nicht richtig verstanden wurde. In allen anderen Fällen erhält der Leser keinen Punkt. Die Satzverständlichkeit iSatz in Prozent ist die mit 10 multiplizierte Summe aller Punkte für die Sätze. Die prozentuale Gesamtverständlichkeit itotal wird dann durch itotal=(iWort+iSatz)/2 berechnet. Die Hörer in dieser Studie hatten keinen direkten Telefonkontakt zu den Sprechern, sondern spielten die gespeicherten Aufnahmen ab, die sie jederzeit anhalten konnten, um die verstandene Äußerung zu notieren.

Das auf Hidden-Markov-Modellen basierende Spracherkennungssystem war am Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg entwickelt und bereits in zahlreichen Forschungsprojekten erfolgreich eingesetzt worden. Kommerziellen Erfolg beim Vertrieb des Systems mit Telefondialogsystemen erzielt wiederum die Firma Sympalog. Ein Spracherkennungssystem kann nur diejenigen Wörter erkennen, die in seiner Vokabularliste gespeichert sind. Eine solche Liste wurde von allen Wörtern im PLTT erstellt. Dies ist jedoch nicht genug, um einen menschlichen Zuhörer zu simulieren. Ein Mensch kennt mehr Wörter als die, die im Test auftreten, was zu Fehlern beim Verstehen führen kann. Um dies im automatischen Test zu simulieren, wurde die Wortschatzliste des Erkennungssystems auch um Wörter ergänzt, die zu denen des tatsächlichen Wortschatzes phonetisch ähnlich sind. Auf diese Weise wurde das PLTT-Vokabular, das aus 738 Wörtern bestand („PLTT-klein“), auf 1017 Wörter erweitert („PLTT-groß“). Dann wurde die gesamte Aufnahme jeweils eines Patienten von dem System verarbeitet und die Worterkennungsrate berechnet. Sie gibt Auskunft darüber, wie viele Wörter prozentual korrekt bzw. gar nicht erkannt wurden und wie viele durch andere Wörter ersetzt, also „falsch verstanden“ wurden. Ihr Maximalwert beträgt somit 100%, ihr Minimalwert 0%.

Ergebnisse

Tabelle 1 [Tab. 1] zeigt die PLTT-Resultate der einzelnen Hörer. Obwohl sie nie zuvor TE-Stimmen gehört hatten, ist die Inter-Rater-Korrelation für die Gesamtverständlichkeit itotal für alle Personen größer als 0,8. Jedoch schwanken die perzeptiven Resultate stark innerhalb der Hörergruppe. Tabelle 2 [Tab. 2] zeigt die Durchschnittswerte von Worterkennungsrate und PLTT-Ergebnissen für die menschlichen Bewerter und die Spracherkennungssysteme. Die Korrelation zwischen den PLTT-Messwerten und der automatisch erhobenen Worterkennungsrate ist in Tabelle 3 [Tab. 3] zu finden.

Diskussion

Der Unterschied von itotal über die ganze Sprechergruppe für den „besten“ und den „schlechtesten“ Bewerter beträgt mehr als 20 Punkte, was zeigt, wie stark der Test vom jeweiligen Zuhörer abhängt. Die Standardabweichung von itotal ist jedoch für alle Bewerter sehr ähnlich. Die Worterkennungsrate des Spracherkennungssystems ist vor allem deshalb sehr niedrig, weil das System mit Normalstimmen trainiert wurde. Dies simuliert einen naiven Hörer, der nie zuvor TE-Stimmen gehört hat, also genau die Art von Hörer, die für den PLTT gefordert wird. Kein Satz wurde entsprechend den PLTT-Richtlinien vollständig korrekt erkannt (iSatz=0). Die Worterkennungsrate für die menschlichen Bewerter wurde aus deren Niederschrift der Aufnahmen berechnet.

Obwohl die automatische Erkennung so schlechte Resultate erzielte, war die Korrelation zu den menschlichen Bewertungen hoch. Der Grund dafür ist, dass das entscheidende automatische Maß nicht der Durchschnitt der Erkennungsrate ist, sondern ihre Standardabweichung und damit die Breite des angenommenen Wertebereiches. Da zwischen der Worterkennungsrate und dem menschlichen Maß itotal Korrelationen bis über 0,9 erzielt wurden, kann festgestellt werden, dass der PLTT durch eine objektive, automatische Version ersetzbar ist.

Danksagung

Diese Arbeit wurde von der Deutschen Krebshilfe (Fördernr. 106266) gefördert.


Literatur

1.
Schuster M, Nöth E, Haderlein T, Steidl S, Batliner A, Rosanowski F. Can You Understand Him? Let's Look at His Word Accuracy - Automatic Evaluation of Tracheoesophageal Speech. Proc. Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP). 2005. p. 61-4.
2.
Schuster M, Haderlein T, Nöth E, Lohscheller J, Eysholdt U, Rosanowski F. Intelligibility of Laryngectomees' Substitute Speech: Automatic Speech Recognition and Subjective Rating. Eur Arch Otorhinolaryngol. 2006;263(2):188-93.
3.
Zenner HP. The postlaryngectomy telephone intelligibility test (PLTT). In: Herrmann IF, editor. Speech Restoration via Voice Prosthesis. Berlin: Springer; 1986. p. 148-52.