gms | German Medical Science

29. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

21.09. - 23.09.2012, Bonn

Automatische Bewertungen von Lautfehlbildungen bei Kindern mit orofazialen Spaltfehlbildungen

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 29. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Bonn, 21.-23.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12dgppV40

doi: 10.3205/12dgpp76, urn:nbn:de:0183-12dgpp767

Published: September 6, 2012

© 2012 Bocklet et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Zur objektiv-apparativen Bewertung von Lautfehlbildungen bei Kindern mit Lippen-Kiefer-Gaumenspalten (LKG) existieren bisher keine verlässlichen automatischen Verfahren. In der vorliegenden Studie wurde nun untersucht, ob für eine automatische Lautanalyse akustisch motivierte Sprechermodelle eingesetzt werden können.

Material und Methoden: Das System basiert auf Gaußschen Mischverteilungsmodellen welche pro Sprecher unüberwacht aus Mel Frequenz Cepstrums Koeffizienten geschätzt werden. Die Grundlage der automatischen Analyse bilden Sprachaufnahmen des PLAKSS-Tests von 35 LKG Kinder. Fünf klinisch tätige Logopädinnen führten detaillierte Lautanalysen durch. Jeder Laut wurde anhand der Kriterien Hypo- und Hypernasalität, nasaler Durchschlag, Rückverlagerung, laryngeale Ersetzung, Interdentalität, Lateralität, Elision und Tension bewertet.

Ergebnisse: Die Mensch-Maschine-Korrelation lag je nach untersuchtem Kriterium zwischen r=0.40 und r=0.71 und war in derselben Größenordnung wie die menschlichen Bewerter untereinander.

Diskussion: Das System liefert Ergebnisse deren Verlässlichkeit mit denen menschlicher Bewerter vergleichbar ist. Das automatische System wird gerade auf einer größeren Stichprobe bestehend aus 200 LKG Kinder überprüft.


Text

Einleitung

Zur objektiv-apparativen Bewertung der Sprachverständlichkeit von Kindern mit Lippen-Kiefer-Gaumenspalten (LKG) werden unterschiedliche automatische Sprachverarbeitungssysteme erfolgreich eingesetzt [1], [2]. Es existieren jedoch keine automatischen Verfahren zur Bewertung von Lautfehlbildungen. In der vorliegenden Studie wurde nun untersucht, ob für eine automatische Lautanalyse akustische Sprechermodelle eingesetzt werden können.

Material und Methoden

35 LKG-Kinder wurden beim Sprecher des PLAKSS (Psycholinguistische Analyse kindlicher Sprechstörungen) mit einem Nahbesprechungsmikrofon aufgenommen. Fünf Logopädinnen führten detaillierte Lautanalysen durch. Jeder Laut wurde anhand der Kriterien Hypo- und Hypernasalität, nasalen Durchschlag, Rückverlagerung, laryngeale Ersetzung, Interdentalität, Lateralität , Elision und Tension bewertet. Die bewerteten Kriterien wurden anschließend zu folgenden Gruppen zusammengefasst:

  • R/L: Markierungen mit Rückverlagerung und laryngeale Ersetzung
  • H/N: Markierungen mit Hypernasalität und nasaler Durchschlag
  • Int: Markierungen mit Interdentalität
  • Lat: Markierungen mit Lateralität
  • All: Markierungen aller Kriterien

Die Grundidee des automatischen Bewertungssystems ist es, die gesprochenen Äußerungen eines Kindes durch Sprechermodelle in Form von Gauß‘schen Mischverteilungsmodellen (GMMs) zu erzeugen. Dazu werden aus den Sprachaufnahmen Kurzzeitmerkmale in Form von Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) berechnet. Diese Merkmale gelten als Standardmerkmale der automatischen Sprachverarbeitung. Unterschiedliche Personen sprechen mit unterschiedlicher Geschwindigkeit, wodurch sich die Anzahl der extrahierten Merkmale von Person zu Person unterscheidet. Um Sprecher bzw. deren Akustik miteinander vergleichen zu können, muss eine geeignete Modellierung dieser Merkmale (mit variabler Anzahl), hin zu Sprechermodellen (mit gleichbleibender Parameteranzahl) erfolgen. Gauß‘sche Mischverteilungen haben sich für diese Art der Modellierung als sehr geeignet erwiesen [2]. Durch unüberwachte Lernverfahren werden aus den Kurzzeitmerkmalen die Komponenten der Gauß’schen Mischverteilung geschätzt. Die einzelnen Komponenten der Mischverteilung lassen sich als einzelne Lautoberklassen interpretieren. Fehlgebildete Laute schlagen sich in den Sprechermodellen nieder, so dass der Schweregrad der Lautfehlbildungen in den Sprechermodellen enthalten ist. Durch eine Regression wird eine Funktion geschätzt, die aus den Sprechermodellen einen Vorhersagewert für die menschliche auditive Lautbewertung des jeweiligen Kindes liefert. Eine detaillierte Beschreibung des Systems ist in [2] zu finden.

Es wurde die Übereinstimmung der menschlichen Bewerter untereinander durch Pearsons Korrelationskoeffizienten bestimmt (Inter-Rater-Korrelation). Die Mensch-Maschine-Korrelation zwischen dem automatischen System und dem Mittelwert der menschlichen Bewerter wurde ebenfalls durch Pearsons Korrelationskoeffizienten ermittelt.

Ergebnisse

Tabelle 1 [Tab. 1] zeigt die Inter-Rater-Korrelationen. Es wurden Pearson Korrelationskoeffizienten eines Bewerters zum Mittelwert der verbleibenden Bewerter ermittelt. Die Mittelwerte über die Bewerter variierten je nach Kriterium zwischen 0,43 und 0,72. Tabelle 2 [Tab. 2] enthält die Mensch-Maschine-Korrelationen für die fünf Kriterien. Es wurden Pearson Korrelationskoeffizienten zwischen dem automatischen System und dem Mittelwert der menschlichen Bewerter ermittelt.

Diskussion

Die Bewerter erreichten eine gute Übereinstimmung bei den gruppierten Kriterien. Für diese Art der Auswertung wurde eine geringe Varianz der Korrelationen ermittelt.

Bei der Analyse der Ergebnisse der unterschiedlichen Kriterien erreichten die Gruppen Rückverlagerung/Laryngeale Ersetzung (R/L), Hypernasalität/nasaler Durchschlag (H/N) und die Markierungen aller Lautfehlbildungen (All) hohe Übereinstimmungen mit einer geringen Standardabweichung zwischen den Bewertern. Bei den Kriterien Interdentalität (Int) und Lateralität (Lat) wurden gute Korrelationswerte gemessen, allerdings variierten die Bewerter stärker bei ihrer Bewertung. Ähnliche Ergebnisse wurden in [3] gefunden.

Mit diesem Ergebnis wurde gezeigt, dass die automatische Bewertung von Lautfehlbildungen mittels Sprechermodelle grundsätzlich möglich ist. Die Ergebnisse der Mensch-Maschine-Korrelation sind mit den Inter-Rater-Korrelationen vergleichbar.


Literatur

1.
Maier A, Haderlein T, Eysholdt U, Rosanowski F, Batliner A, Schuster M, Nöth E . PEAKS - A system for the automatic evaluation of voice and speech disorders. Speech Communication. 2009;51:425-37. DOI: 10.1016/j.specom.2009.01.004 External link
2.
Bocklet T, Riedhammer K, Nöth E, Eysholdt U, Haderlein T. Automatic intelligibility assessment of speakers after laryngeal cancer by means of acoustic modeling. J Voice. 2012 May;26(3):390-7. DOI: 10.1016/j.jvoice.2011.04.010 External link
3.
Keuning KH, Wieneke GH, Dejonckere PH. The intrajudge reliability of the perceptual rating of cleft palate speech before and after pharyngeal flap surgery: the effect of judges and speech samples. Cleft Palate Craniofac J. 1999 Jul;36(4):328-33. DOI: 10.1597/1545-1569(1999)036<0328:TIROTP>2.3.CO;2 External link