gms | German Medical Science

25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12.09. - 14.09.2008, Düsseldorf

Einfluss von Lesefehlern auf die textbasierte automatische Verständlichkeitsanalyse

Influence of Reading Errors on the Text-Based Automatic Evaluation of Intelligibility

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie. Düsseldorf, 12.-14.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08dgppV47

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2008/08dgpp63.shtml

Veröffentlicht: 27. August 2008

© 2008 Haderlein et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Objektiv-apparative Stimmbewertungen werden derzeit meist auf der Basis gehaltener Vokale durchgeführt. Jedoch reflektiert ein isolierter Vokal keine reale Kommunikationssituation. In dieser Studie wurde ein Spracherkennungssystem zur Analyse eines gelesenen Textes angewendet. Zielkriterium der automatischen Analyse waren die Wortakkuratheit WA und die Worterkennungsrate WR, die mit der an Schulnoten orientierten Verständlichkeitsbewertung durch fünf Experten korreliert wurden. Die Validität dieses Vorgehens war in früheren Untersuchungen belegt worden. Der Fokus dieser Studie lag auf dem Einfluss von Lesefehlern auf die Mensch-Maschine-Korrelation. Als Testsprecher dienten 85 Personen mit Krebserkrankungen des Kehlkopfes, davon 65 nach einer Larynxteilresektion. Die Korrelation zwischen den menschlichen Verständlichkeitsbewertungen und der Maschine lagen bei r=–0,61 für die WA und r=–0,55 für die WR, sowohl für die Originalaufnahmen als auch für die Aufnahmen, aus denen die Lesefehler eliminiert worden waren. Im Hinblick auf die breite klinische Anwendung der Messmethode kann folgendes geschlossen werden: Lesefehler müssen nicht gesondert eliminiert werden.


Text

Einleitung

Objektiv-apparative Stimmbewertungen werden derzeit meist auf der Basis gehaltener Vokale durchgeführt. Jedoch reflektiert ein isolierter Vokal keine reale Kommunikationssituation. In früheren Arbeiten wurde gezeigt, dass automatische Spracherkennungsverfahren verwendet werden können, um die Verständlichkeit von pathologischen Sprechern automatisch zu bewerten [1], [2], [3]. Grundlage der Methode war die Annahme, dass das Spracherkennungssystem umso weniger Wörter eines vorgegebenen Standardtextes „versteht“, je schlechter die Stimmqualität des Sprechers ist. Das Programm kann jedoch nur diejenigen Wörter erkennen, die in seiner Vokabularliste gespeichert sind. Weicht der Patient aufgrund von Lesefehlern, wie z.B. „Der Mor- Nordwind“, oder Äußerungen wie „Ich habe meine Brille nicht auf.“ von dem Standardtext ab, kann dies trotz guter Stimmqualität zu einer niedrigen Erkennungsrate und damit zu einer falschen Bewertung der Stimme führen. Der Fokus dieser Studie lag deshalb auf dem Einfluss von Lesefehlern auf die Korrelation zwischen der automatischen Evaluierung und der Referenzbewertung durch Experten.

Material

Als Testsprecher dienten 85 Personen mit Krebserkrankungen des Kehlkopfes, davon 65 nach einer Larynxteilresektion. Das Durchschnittsalter innerhalb der Gruppe betrug 60,7±9,2 Jahre (min. 34,0, max. 83,0 Jahre), zehn der Patienten waren weiblich. Jede Testperson las den “Nordwind und Sonne”-Text vor und wurde dabei mit einer Abtastfrequenz von 16 kHz und einer Amplitudenauflösung von 16 bit aufgenommen.

Als Vergleichsbasis für die automatische Evaluierung bewerteten fünf Experten das Kriterium „Gesamtverständlichkeit“ bei jedem Sprecher mit Noten von 1 („sehr gut verständlich“) bis 5 („extrem schlecht verständlich“). Aus den fünf Bewertungen für jede Aufnahme wurde jeweils eine Durchschnittsnote gebildet.

Methode

Aus den Originalaufnahmen des Textes wurde jeweils eine zweite Variante erstellt, aus der Lesefehler und Äußerungen, die nicht zum Text gehörten, herausgeschnitten wurden. Insgesamt wurden 368 (3,9%) der 9519 Wörter und Wortfragmente in den Aufnahmen auf diese Weise entfernt (vgl. Abbildung 1 [Abb. 1]).

Das auf Hidden-Markov-Modellen basierende Spracherkennungssystem war unabhängig vom gegenwärtigen Projekt am Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg entwickelt und bereits in zahlreichen Forschungsprojekten erfolgreich eingesetzt worden. Von einer Ausgründung des Lehrstuhls (http://www.sympalog.de) wird es mit Erfolg zum Einsatz in Telefondialogsystemen vertrieben.

Zielkriterium der automatischen Analyse waren die Wortakkuratheit WA und die Worterkennungsrate WR, die mit der Verständlichkeitsbewertung durch die Experten korreliert wurden. Die Wortakkuratheit errechnet sich aus der Formel

WA [%] = 100 * [1–(Nsub+Ndel+Nins)/Nges] , wobei

Nsub: Anzahl der vom Erkennungssystem durch andere Wörter ersetzten, d.h. „verwechselten“, Wörter (Substitutionen)

Ndel: Anzahl der nicht erkannten Wörter (Deletionen)

Nins: Anzahl der fälschlicherweise eingefügten Wörter (Insertionen)

Nges: Anzahl aller gesprochenen Wörter

Die Wortkorrektheit oder Worterkennungsrate (engl. „word recognition rate“, WR), wird genau wie die Wortakkuratheit berechnet, allerdings ohne Berücksichtigung der fälschlicherweise eingefügten Wörter Nins. Der Maximalwert von Wortakkuratheit und Wortkorrektheit beträgt 100%. Der mögliche Minimalwert der Wortkorrektheit ist 0%, während die Wortakkuratheit bei großem Nins auch negativ werden kann.

Ergebnisse

Die Korrelation zwischen den menschlichen Verständlichkeitsbewertungen und der Maschine lagen bei r=–0,61 für die WA und r=–0,55 für die WR, sowohl für die Originalaufnahmen als auch für die Aufnahmen, aus denen die Lesefehler eliminiert worden waren. In Tabelle 1 [Tab. 1] sind jeweils die Messgröße, ihr Mittelwert µ und ihre Standardabweichung σ, der Minimal- und Maximalwert sowie die Korrelation r zur Expertenbewertung angegeben.

Diskussion

Im Hinblick auf die breite klinische Anwendung der Messmethode kann folgendes geschlossen werden: Lesefehler müssen nicht gesondert eliminiert werden. Sie haben keinen entscheidenden Einfluss auf das Auswertungsergebnis. Es bleibt zu prüfen, ob sich die Gesamtkorrelation noch verbessern lässt, wenn häufig auftretende Fehler oder zusätzliche Phrasen, die nicht zum Text gehören, in das Erkennungsvokabular aufgenommen werden.

Danksagung

Diese Arbeit wird von der Deutschen Krebshilfe (Fördernr. 107873) gefördert.


Literatur

1.
Schuster M, Haderlein T, Nöth E, Lohscheller J, Eysholdt U, Rosanowski F. Intelligibility of laryngectomees' substitute speech: automatic speech recognition and subjective rating. Eur Arch Otorhinolaryngol. 2006;263(2):188-93.
2.
Schuster M, Maier A, Haderlein T, Nkenke E, Wohlleben U, Rosanowski F, Eysholdt U, Nöth E. Evaluation of speech intelligibility for children with cleft lip and palate by means of automatic speech recognition. Int J Pediatr Otorhinolaryngol. 2006;70(10):1741-7.
3.
Windrich M, Maier A, Kohler R, Nöth E, Nkenke E, Eysholdt U, Schuster M. Automatic Quantification of Speech Intelligibility of Adults with Oral Squamous Cell Carcinoma. Folia Phoniatr Logop. 2008;60(3):151-6.