gms | German Medical Science

27. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

17.09. - 19.09.2010, Aachen

Sprachenunabhängige Verständlichkeitsanalyse bei Kindern mit orofazialen Spaltfehlbildungen auf Deutsch und Italienisch mittels akustischer Modellierung

Vortrag

Suche in Medline nach

  • corresponding author Tobias Bocklet - Universitätsklinikum Erlangen, Phoniatrische und Pädaudiologische Abteilung, Erlangen, Deutschland
  • author Maria Schuster - Euromed Clinic, Fürth, Deutschland
  • author Elmar Nöth - Universität Erlangen, Lehrstuhl f. Mustererkennung, Erlangen, Deutschland
  • author Ulrich Eysholdt - Universitätsklinikum Erlangen, Phoniatrische und Pädaudiologische Abteilung, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 27. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Aachen, 17.-19.09.2010. Düsseldorf: German Medical Science GMS Publishing House; 2010. Doc10dgppV37

doi: 10.3205/10dgpp54, urn:nbn:de:0183-10dgpp548

Veröffentlicht: 31. August 2010

© 2010 Bocklet et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Zur objektiv-apparativen Bewertung der Verständlichkeit von Kindern mit Lippen-Kiefer-Gaumenspalten (LKG) werden von der berichtenden Arbeitsgruppe für mehrere Sprachen erfolgreich Spracherkennungssysteme eingesetzt. Das Training eines Spracherkenners für verschiedene Sprachen ist dabei sehr aufwendig.

In der vorliegenden Studie wurde nun untersucht, ob für eine automatische Verständlichkeitsbewertung ein sprachenabhängiger Spracherkenner zwingend erforderlich ist, oder ob die Verwendung eines rein akustisch getriebenen Ansatzes ausreicht, um sprachenunabhängig eine Bewertung abzugeben.

Material und Methoden: Das System basiert auf Gaußschen Mischverteilungen. Es wurde für zwei Datensätze angewendet: 14 italienische und 35 deutsche LKG Kinder. Die Kinder wurden beim Sprechen eines Standardtextes aufgenommen. Referenzwerte für das automatische System waren für beide Gruppen auditive Verständlichkeitsbewertungen.

Ergebnisse: Die Korrelation zwischen den auditiven Befunden und den Vorhersagewerten des automatischen Systems lag bei r=0,81 für die deutschen und r=0,83 für die italienischen Kinder.

Diskussion: Das vorgestellte System kann also in mehreren Sprachen ohne aufwändiges Training angewendet werden. Die Verlässlichkeit der Methode ist an größeren Stichproben zu untersuchen.


Text

Einleitung

Zur objektiv-apparativen Bewertung der Verständlichkeit von Kindern mit Lippen-Kiefer-Gaumenspalten (LKG) werden von der berichtenden Arbeitsgruppe für mehrere Sprachen erfolgreich Spracherkennungssysteme eingesetzt [1]. Das Training eines Spracherkenners für verschiedene Sprachen ist dabei sehr aufwendig. In der vorliegenden Studie wurde untersucht, ob für eine automatische Verständlichkeitsbewertung ein sprachenabhängiger Spracherkenner zwingend erforderlich ist, oder ob die Verwendung eines rein akustisch getriebenen Ansatzes ausreicht, um sprachenunabhängig eine Bewertung abzugeben.

Material und Methoden

Es wurden zwei unterschiedliche Datensätze verwendet: 14 italienische und 35 deutsche Kinder mit LKG. Die Kinder wurden beim Sprechen eines Standardtextes aufgenommen. Im Fall der deutschen Kinder wurde der PLAKSS-Test verwendet, die italienischen Kinder führten einen standardisierten Test durch, der im Nachsprechen von 19 italienischen Sätzen bestand. Ausführlichere Informationen zu den italienischen Daten sind in [2] zu finden.

Referenzwerte für das automatische System waren für beide Gruppen auditive Verständlichkeitsbewertungen. Bei den deutschen Kindern lagen Bewertungen von 5 Logopädinnen auf einer Skala von 1 („sehr gut verständlich“) bis 5 („sehr schlecht verständlich“) vor. Die italienischen Kinder wurden von einer Logopädin auf einer Skala von 1 bis 4 bewertet. Auch hier gilt: Je niedriger der Wert, desto besser die Verständlichkeit.

Die Grundidee des Systems ist es, die gesprochenen Äußerungen eines Sprechers durch Gaußsche Mischverteilungsmodelle (GMMs) zu modellieren. Dazu werden zuerst aus den Sprachaufnahmen automatische Messwerte (Mel-Frequency-Cepstrum-Coefficients, MFCCs) gewonnen. Zur Erzeugung dieser Messwerte wird das Sprachsignal in 16 ms dauernde Abschnitte unterteilt. Für jeden Abschnitt werden anschließend die MFCCs berechnet. Im nächsten Schritt werden alle Messwerte aller Sprecher zusammengefasst, um ein sogenanntes „Hintergrundmodell“ (Universal Background Model, UBM) zu trainieren. Auf der Grundlage dieses allgemeinen Modells werden anschließend mittels Maximum-A-Posteriori-Adaption (MAP) die akustischen Modelle für die einzelnen Sprecher abgeleitet. Aus den einzelnen Sprechermodellen werden nun die Mittelwerte und die Kovarianzen extrahiert und zu sprechercharakteristischen Merkmalen konkateniert. Durch eine Regression wird eine Funktion geschätzt, die aus diesen Merkmalen einen Vorhersagewert für die menschliche, auditive Bewertung des jeweiligen Kindes liefert. Eine detaillierte Beschreibung des Systems ist in [3] zu finden. Unterschiedliche Werte für die Anzahl der Gaußdichten der einzelnen Sprechermodelle wurden getestet.

Ergebnisse

Die Korrelation zwischen den auditiven Befunden und den Vorhersagewerten des automatischen Systems lag bei maximal r=0,81 für die deutschen und r=0,83 für die italienischen Kinder. Ausführliche Ergebnisse auf dem deutschen Datensatz sind in Tabelle 1 [Tab. 1] zu finden. In Tabelle 2 [Tab. 2] befinden sich die Ergebnisse des italienischen Datensatzes.

Diskussion

Die hohe Korrelation zwischen menschlicher und automatischer Bewertung zeigt, dass das verwendete System zur objektiven Stimmevaluierung geeignet ist. Die Korrelationen bei spracherkennungsbasierten Systemen [3], [4] sind in derselben Größenordnung wie das in dieser Studie vorgestellte Verfahren. Somit ist eine automatische Verständlichkeitsbewertung von Kindern mit LKG nicht auf eine detaillierte Analyse der gesprochenen Wörter angewiesen, sondern ist auch durch rein akustische Sprechermodellierung möglich. Diese Tatsache erlaubt es, auch das vorgestellte System ohne aufwendiges Training in unterschiedlichen Sprachen anzuwenden, wie in dieser Arbeit am Beispiel von Deutsch und Italienisch gezeigt wurde. Die Verlässlichkeit der Methode ist in der Zukunft an größeren Stichproben zu untersuchen und auf andere Landessprachen auszudehnen.


Literatur

1.
Schuster M, Maier A, Haderlein T, Nkenke E, Wohlleben U, Rosanowski F, Eysholdt U, Nöth E. Evaluation of speech intelligibility for children with cleft lip and palate by means of automatic speech recognition. Int J Pediatr Otorhinolaryngol. 2006;70(10):1741-7. DOI: 10.1016/j.ijporl.2006.05.016 Externer Link
2.
Scipioni M, Gerosa M, Giuliani D, Noeth E, Maier A. Intelligibility Assessment in Children with Cleft Lip and Palate in Italian and German. Proc Interspeech. 2009:967-70.
3.
Bocklet T, Haderlein T, Hoenig F, Rosanowski F, Noeth E. Evaluation and Assessment of Speech Intelligibility on Pathologic Voices Based upon Acoustic Speaker Models. Proc AVFA. 2009:89-92.
4.
Maier A, Haderlein T, Eysholdt U, Rosanowski F, Batliner A, Schuster M, Nöth E. PEAKS – A System for the Automatic Evaluation of Voice and Speech Disorders. Speech Communication. 2009;51(5):425-37. DOI: 10.1016/j.specom.2009.01.004 Externer Link