gms | German Medical Science

Dreiländertagung D-A-CH
24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28. - 30.09.2007, Innsbruck, Österreich

Automatische Bewertung der Nasalität von Kindersprache

Automatic assessment of the nasality in children's speech

Vortrag

  • corresponding author presenting/speaker Andreas Maier - Universität Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Elmar Nöth - Lehrstuhl für Mustererkennung (Informatik 5), Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Ulrike Wohlleben - Logopädische Praxis Dr. Ulrike Wohlleben, Fürth, Deutschland
  • author Ulrich Eysholdt - Universität Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Maria Schuster - Universität Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirugie. Schweizerische Gesellschaft für Phoniatrie. Dreiländertagung D-A-CH, 24. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e.V.. Innsbruck, Österreich, 28.-30.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07dgppV18

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2007/07dgpp25.shtml

Veröffentlicht: 28. August 2007

© 2007 Maier et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

In der aktuellen Forschung bei Sprechstörungen hat es sich gezeigt, dass automatische Klassifikationssysteme zur Bewertung der Nasalität anwendbar sind. Bisher wurde dies aber immer nur für gehaltene Vokale oder Teile von Wörtern gezeigt. Um komplette Wörter oder Sätze zu untersuchen, waren bisher immer teure, apparative Methoden – beispielsweise ein Nasometer – notwendig. Unser Ansatz kommt mit einem Standard-PC und einem Mikrophon aus.

Um unseren Ansatz zu verifizieren, wurden Daten eines Sprach-Tests von 13 Kindern von einer erfahrenen Logopädin untersucht. Diese klassifizierte jedes Zielwort eines standardisierten Tests zur Überprüfung von phonetischen Störungen als normal oder hypernasal. Anhand der spektralen Eigenschaften der gesprochenen Wörter wurde für das Spracherkennungssystem ein Klassifikationssystem trainiert, das automatisch hypernasalierte Wörter erkennen kann. Die Funktionsweise des Systems und die Genauigkeit der Klassifikation werden vorgestellt.

Eine Erweiterung der Methode auf andere Lautbildungsstörungen wird derzeit untersucht.


Text

Einleitung

In der aktuellen Forschung bei Sprechstörungen hat es sich gezeigt, dass automatische Klassifikationssysteme zur Bewertung der Nasalität anwendbar sind. Bisher wurde dies aber immer nur für gehaltene Vokale oder Wortteile gezeigt. Um komplette Wörter oder Sätze zu bewerten, waren bisher immer teure, apparative Methoden notwendig. Der hier beschriebene Ansatz kommt mit einem Standard-PC und einem Mikrophon aus und analysiert die akustischen Eigenschaften veränderter Lautbildung mittels Methoden der automatischen Spracherkennung.

Patienten und Methode

Mit der internetbasierten Bewertungsumgebung PEAKS [1] wurden Daten von insgesamt 13 Kindern (3 Mädchen und 10 Jungen) im Alter von 8,5 ± 3,0 Jahren mit Lippen-Kiefer-Gaumenspalte aufgenommen. Ihnen wurden Bilder am PC gezeigt, die Sie benennen sollten. Die Bildtafeln stellen eine digitale Version des PLAKSS-Tests [2] dar, der zur Erhebung des Lautbestandes bei Kindern dient. Dieser Test enthält alle deutschen Phoneme an verschiedenen Positionen im Wort.

Eine erfahrene Logopädin klassifizierte jedes der 99 Zielworte des Tests zur Überprüfung von phonetischen Störungen als „normal“ oder „hypernasal“. Anhand der spektralen Eigenschaften (Mel Frequenz Cepstrum Koeffizienten) der gesprochenen Wörter wurde für das Spracherkennungssystem ein Klassifikationssystem trainiert, das automatisch hypernasalierte Wörter erkennen kann. Insgesamt konnten 841 Worte in den Sprachdaten korrekt ausgeschnitten werden. 11% davon (95) waren als „hypernasal“ markiert.

Als Klassifikator für Hypernasalität wurde ein Gaussian Mixture Model (GMM) eingesetzt, welches mit einem Standard-Verfahren der Spracherkennung, dem Expectation-Maximization Algorithmus, trainiert wurde [3]. Da nicht alle Laute im Wort zwingend hypernasal sind, wird jedes Wort alle 10 ms klassifiziert. Ist ein hypernasalierter Laut im Wort vorhanden, so sollte sich eine besonders hohe Wertung für den Hypernasalitäts-Klassifikator finden. Um das Training des GMMs zu verfeinern, wurde alternativ nach dem ersten Trainingsdurchlauf die Trainingsmenge anhand des Klassifikators neu in die Klassen „normal“ und „hypernasal“ eingeteilt. Dieser Vorgang wird in der Literatur auch als „Bootstrapping“ bezeichnet [4].

Zur Evaluierung wurden die absolute Erkennungsrate (RR), die klassenweise gemittelte Erkennungsrate (CL), die Korrelationen nach Pearson und Spearman eingesetzt. Während die RR lediglich den Prozentsatz der richtig erkannten Wörter widerspiegelt, berücksichtigt die CL auch die Häufigkeit der beiden Kategorien „normal“ und „hypernasal“, um eine Verzerrung des Ergebnisses durch die Überrepräsentation einer Kategorie in der Stichprobe zu vermeiden. Daher werden für die CL zuerst die Erkennungsraten jeder einzelnen Kategorie ermittelt, aus denen dann der Durchschnitt gebildet wird. So wird jede Kategorie als ebenbürtig angesehen.

Es wurde die Anzahl der von der erfahrenen Logopädin als „hypernasal“ gekennzeichneten Wörter mit der Anzahl der automatisch detektierten Wörter pro Sprecher korreliert.

Alle Experimente wurden im Leave-One-Speaker-Out-Verfahren überprüft. So ist sichergestellt, dass jeder Sprecher einmal aus der Trainingsmenge entfernt wurde und als Testsprecher diente. Die Klassifikations- und Korrelationsergebnisse wurden daher immer mit einer disjunkten Trainings- und Testmenge durchgeführt.

Ergebnisse

Für das GMM wurde die Zahl der Komponenten der Mischverteilung variiert. Dabei ergaben sich ein Maximum der RR bei 10 Dichten mit 75,7% und ein Maximum der CL bei 5 Dichten mit 64,9%. Für die Korrelationen zwischen der subjektiven und automatisch ermittelten Bewertung der Hypernasalität wurden hierbei keine signifikanten Ergebnisse festgestellt (siehe Tabelle 1 [Tab. 1]).

In Tabelle 2 [Tab. 2] sind die Ergebnisse mit Bootstrapping dargestellt. Hier ergeben sich etwas schlechtere Erkennungsraten als für den Fall ohne Bootstrapping. Jedoch konnten für 5 Dichten eine hohe Übereinstimmung zwischen der subjektiven und automatisch ermittelten Bewertung der Hypernasalität mit Korrelationen von 0,79 nach Pearson und 0,75 nach Spearman erreicht werden. Beide Ergebnisse sind mit p < 0,01 signifikant.

Diskussion

Die gezeigten Ergebnisse sind sehr viel versprechend. Es konnte mit der genannten Methode bereits eine gute automatische Klassifikation der Hypernasalität erreicht werden, was sich in der hohen Korrelation zwischen der Zahl der detektierten und der von der Erfahrenen als „hypernasal“ gekennzeichneten Wörter zeigt. Während sich das Bootstrapping positiv auf die Korrelation zur subjektiven Bewertung durch eine Erfahrene auswirkte, konnten damit nur etwas niedrigere Erkennungsraten erreicht werden. Wir führen dies auf die wortweise Annotation zurück, die ja ein ganzes Wort als „nasal“ markiert, auch wenn nur ein Laut im Wort betroffen ist. Eine Überprüfung und Verbesserung der Methode ist an einer größeren Stichprobe geplant. Damit ließe sich dann eine automatische, nicht-invasive, und wenig aufwändige Quantifizierung der Hypernasalität von Kindersprache ermöglichen. Eine Erweiterung der Methode auf andere Lautbildungsstörungen wird derzeit untersucht.


Literatur

1.
Maier A, Haderlein T, Hacker C, Nöth E, Rosanowski F, Eysholdt U, Schuster S. Automatische internetbasierte Evaluation der Verständlichkeit. In: Gross M, Kruse FE, editors. Aktuelle phoniatrisch-pädaudiologische Aspekte 2006, Vol. 14. 23. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie; Heidelberg; 15.-17. September 2006. Norderstedt : Books On Demand GmbH Norderstedt; 2006. p. 87-90.
2.
Fox AV. PLAKSS - Psycholinguistische Analyse kindlicher Sprechstörungen. Frankfurt a.M.: Swets & Zeitlinger; 2002; now available from Harcourt Test Services GmbH, Frankfurt a.M.: http://www.harcourt.de.
3.
Schukat-Talamazzini EG. Automatische Spracherkennung. Braunschweig: Vieweg Verlag; 1995.
4.
Abney S. Bootstrapping. In: 40th Annual Meeting of the Association for Computational Linguistics. Proceedings of the Conference. 2002.