gms | German Medical Science

28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.
2. Dreiländertagung D-A-CH

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.
Schweizerische Gesellschaft für Phoniatrie; Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirurgie

09.09. - 11.09.2011, Zürich, Schweiz

Akustische automatische Erkennung von Sigmatismus bei Kindern

Vortrag

  • corresponding author presenting/speaker Tobias Bocklet - Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • Cassia Valentini Botinhao - Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Sabine Degekolb-Weyers - BFS Logopädie, Erlangen, Deutschland
  • author Elmar Nöth - Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Ulrich Eysholdt - Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP), 2. Dreiländertagung D-A-CH. Zürich, 09.-11.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11dgppV13

DOI: 10.3205/11dgpp20, URN: urn:nbn:de:0183-11dgpp204

Published: August 18, 2011

© 2011 Bocklet et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Sigmatismus tritt auf, wenn die Zunge während der Artikulation von Zischlauten wie /s/ und /z/ falsch positioniert ist. Wir stellen hier eine automatische rechnergestützte Sigmatismusdetektion vor, die entscheiden kann, ob die Zischlaute eines Kindes korrekt ausgesprochen wurden.

Material und Methoden: Die Daten stammen von 39 Jugendlichen, die drei unterschiedliche Arten von Sigmatismus simulieren. Zusätzlich liegen Aufnahmen von 10 Kindern vor, von denen 5 tatsächlich an Sigmatismus leiden. Das System beruht auf unterschiedlichen Merkmalen, die direkt auf den jeweiligen Sprachaufnahmen berechnet werden: Energieanalysen der einzelnen Zischlauten, Mel Frequenz Cepstrum Koeffizienten und Meta-Merkmale, die auf Gaußschen Mischverteilungen basieren.

Ergebnisse: Beide Datensätze wurden auf Laut-, Word- und Sprecherebene analysiert. Auf den simulierten Daten erreichte das beste System Erkennungsergebnisse von 86% auf Lautebene, 87% auf Wortebene und 94% auf Sprecherebene. Dieses System wurde mit Erfolg an den Sigmatismus-Kindern getestet.

Diskussion: Die beste Konfiguration wurde in ein Biofeedback-System eingebaut, welches zur Therapieunterstützung genutzt werden kann.


Text

Einleitung

Sigmatismus tritt auf, wenn die Zunge während der Artikulation von Zischlauten wie /s/ und /z/ falsch positioniert ist. Sigmatismus zählt zu den häufigsten Arten von Sprechstörungen bei Kindern. Einige Arbeiten befassten sich mit einer Visualisierung der Dynamik zur Therapieunterstützung [1]. Jedoch befassten sich bisher sehr wenige Studien mit der automatischen computergestützten Erkennung von Sigmatismus bei Kindern [2]. Wir stellen hier eine automatische rechnergestützte Sigmatismusdetektion vor, die entscheiden kann, ob die Zischlaute eines Kindes korrekt ausgesprochen wurden. Dazu wurde das Sprachsignal auf unterschiedliche Arten analysiert und deren unterschiedliche Erkennungsrate ermittelt. Das Analyseverfahren mit der höchsten Erkennungsrate wurde dann in ein Biofeedback-System eingebaut, welches zur Therapieunterstützung genutzt werden kann.

Material und Methode

In dieser Studie wurden 2 unterschiedliche Datensätze verwendet. Ein Datensatz enthält Sprachaufnahmen von 39 Jugendlichen, die unterschiedliche Sigmatismusarten simulieren. Zusätzlich liegen Aufnahmen von 10 Kindern vor, wovon 5 tatsächlich an Sigmatismus leiden. Die Daten wurden mit einem Nahbesprechungsmikrofon aufgenommen. Die Abtastrate beträgt 44.1 kHz bei einer 16 bit Quantisierung. Jedes Kind sprach 16 Wörter, die ausgewählt wurden um Probleme bei Zischlauten zu identifizieren. Jedes der 16 Wörter enthält mindestens eine Realisierung von /s/ und /z/, an unterschiedlichen Wortpositionen.

Die Sprachaufnahmen wurden auf Lautebene, Wortebene und Sprecherebene analysiert. Für eine Evaluation auf Lautebene wurden die Zischlaute vorher manuell aus den Sprachsignalen extrahiert. Für Evaluationen auf Wort- und Sprecherebene ist keine Segmentierung nötig. Auf allen drei Ebenen wurden Mel Frequenz Cepstrum Koeffizienten berechnet und durch Gaußsche Mischverteilungsmodelle (GMMs) modelliert. Aus den einzelnen Modellen werden nun die Gewichte und die Mittelwerte der Gaußdichten extrahiert und zu Vektoren zusammengefasst. Diese Vektoren werden als Supervektoren bezeichnet und dienen als Merkmalssatz für ein automatisches Klassifikationssystem auf der Basis von Support Vektor Maschinen (SVMs). Auf Lautebene wurde zusätzlich ein energiebasiertes System verwendet, das als Merkmale die Energie der spektralen Hülle [3] der Energiebereiche von 5–11 kHz und 11–20 kHz (siehe Abbildung 1 [Abb. 1]) verwendet.

Ergebnisse

Auf den simulierten Daten erreichte das energiebasierte System eine Erkennungsrate von 76%. Das beste System verwendete Supervektoren und erreichte Erkennungsergebnisse von 86% auf Lautebene, 87% auf Wortebene und 94% auf Sprecherebene. Dieses System wurde mit Erfolg auf den an Sigmatismus leidenden Kindern angewendet. Dieses System wurde auf den simulierten Daten trainiert und erreichte Erkennungsrate von 85% auf Lautebene, 69% auf Wortebene und 70% auf Sprecherebene (Tabelle 1 [Tab. 1]).

Diskussion

Das supervektorbasierte Erkennungssystem erzielte auf allen drei Ebenen höhere Erkennungsraten als das energiebasierte System. Vor allem die Erkennungsrate der Normalsprecher erhöht sich signifikant, wenn die Erkennung auf Sprecherebene erfolgt.

Diese Verbesserung ist dadurch erklärbar, dass für diese Art der Erkennung viel mehr Sprachmaterial zur Verfügung steht (16 Worte statt nur einem). Bei einer Erkennung auf Wort- und Sprechereben erspart man sich zusätzlich eine Segmentierung der Zischlaute aus den Sprachaufzeichnungen, was zu einer erheblichen Erleichterung der Bewertung führt.

Dieses System wurde mit Erfolg auf den an Sigmatismus leidenden Kindern getestet.

Auf diesen Daten wurden Kinder die an Sigmatismus leiden besser als solche erkannt. Zusätzlich ist auffällig, dass die Erkennungsrate für ältere Kinder höher ist als die für jüngere Kinder. Das System wurde auf den Sprachdaten jugendlicher Sprecher trainiert, die älter waren als die eigentlichen an Sigmatismus leidenden Kinder. Erkennungsraten lassen sich deutlich steigern, wenn das System auf nicht geschauspielerten Daten trainiert wird, die zusätzlich eine Altersstruktur ähnlich der zu testenden Kinder besitzen.

Die beste Konfiguration wurde in ein kindgerechtes Biofeedback-System eingebaut, welches zur Therapieunterstützung genutzt werden kann.


Literatur

1.
Grauwinkel K, Fagel S. Visualization of internal articulator dynamics for use in speech therapy for children with sigmatismus interdentalis. Int. Conf. on Auditory-Visual Speech Processing. 2007.
2.
Akagi M, Suzuki N, Hayashi K, Saito H, Michi KI. Perception of lateral misarticulation and its physical correlates. Folia Phoniatr Logop. 2001;53(6):291-307. DOI: 10.1159/000052683 External link
3.
Röbel A, Rodet FVX. On cepstral and all-pole based spectral envelope modeling with unknown model order. Pattern Recogn Lett. 2007;28 (11):1343-50. DOI: 10.1016/j.patrec.2006.11.021 External link