gms | German Medical Science

40. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12.09. - 15.09.2024, Berlin

Phonologische Anreicherung und Verstärkung von Hörbüchern als KI-gestützte Heimtherapie bei Aussprachestörungen

Vortrag

  • author presenting/speaker Nina Goes - Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Deutschland; Department for Artifical Intelligence in Biomedical Engineering, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • author Denise Siemons-Lühring - Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Deutschland
  • author Lars Meyer - Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Deutschland; Max-Planck-Institut für Kognitions- und Neurowissenschaften, Leipzig, Deutschland
  • author Andreas M. Kist - Department for Artifical Intelligence in Biomedical Engineering, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • corresponding author Katrin Neumann - Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Deutschland

40. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Berlin, 12.-15.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocV9

doi: 10.3205/24dgpp10, urn:nbn:de:0183-24dgpp104

Veröffentlicht: 20. August 2024

© 2024 Goes et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Über 9% der schulpflichtigen Kinder leiden an einer Aussprachestörung. Unser neues Software-Tool erzeugt Hörbücher für die auditorische Therapie in der heimischen Umgebung, welche durch eine KI mit denjenigen Phonemen angereichert werden, bei denen der*die Patient*in Defizite zeigt; zusätzlich werden die akustischen Identifikationsmerkmale der Phoneme verstärkt.

Material und Methoden: In einem ersten Schritt wird ein Klassifizierer zur Erkennung der Phoneme eines unbekannten Hörspiels trainiert. Im zweiten Schritt werden die Phoneme akustisch verstärkt. Zur Pilotierung wurde das Paar [ʃ] und [s] ausgewählt, ein häufig betroffener Phonemkontrast. Als Datengrundlage dienen KI-generierte, kindgerechte Hörbücher. Zunächst werden Texte mit Hilfe moderner Large-Language-Models (LLMs) erzeugt, die die genannten Phoneme gehäuft enthalten. Dann werden diese Texte über Text-to-Speech-Modelle mit künstlichen Sprechern zu Hörbüchern umgewandelt. Auf Basis der Text- und Sprachdaten werden neuronale Netze auf unabhängigen Audiodaten dazu trainiert, die Phoneme aufgrund ihrer akustischen Korrelate zu klassifizieren. Anschließend werden die Phoneme innerhalb der KI-generierten Hörbücher durch den Klassifizierer erkannt und semiautomatisch verstärkt.

Ergebnisse: Wir haben die Software für das beispielhafte Phonem-Paar [ʃ]-[s] implementiert. Sie besitzt eine grafische Benutzeroberfläche, womit der*die Logopäd*in die Qualität und Quantität der akustischen Verstärkung der Phoneme adjustieren kann – unter Anpassung von Dauer, Lautstärke, Phasen-Beginn und Frequenz. Die resultierenden Phoneme können zur Überprüfung direkt abgespielt werden. Ergebnis ist ein mit akustisch verstärkten Phonemen angereichertes Hörbuch.

Diskussion: Dieser Beitrag zeigt die Machbarkeit einer semiautomatischen phonologischen Anreicherungstherapie. Die Wirksamkeit soll im Anschluss in einer klinischen Studie überprüft werden. Die neuartig entwickelte phonologische Anreicherungstherapie könnte den auditorisch-perzeptiven Teil integrierter Therapien ergänzen, möglicherweise sogar ersetzen und damit die Therapiedauer und die Zahl der Therapiesitzungen verkürzen.

Fazit: Eine artifizielle Verstärkung von Phonemen und Phonemkontrasten in einem phonologisch angereicherten Hörbuch ist realisierbar und voraussichtlich ein kostengünstiges Mittel zur künstlichen Generierung von individuell und adaptiv angepassten Therapiematerialien für Kinder mit Aussprachestörungen.


Text

Hintergrund

Über 9% der schulpflichtigen Kinder leiden an einer Aussprachestörung [1]. Folgt keine Intervention, können diese im Laufe des Lebens mit einer beeinträchtigten sozialen, emotionalen, schulischen und beruflichen Entwicklung einhergehen [2]. Konventionelle Therapie-Methoden phonologischer Aussprachestörungen beinhalten das repetitive Aussprechen der fehlgebildeten Phoneme oder von Phonem-Kontrasten durch die Sprachtherapeut*innen, mit dem initialen Ziel einer korrekten Perzeption der Phoneme. Diese Therapieform ist zeitintensiv und stellt einen erheblichen Kostenfaktor für das Gesundheitswesen dar [3]. Es existieren bereits erste Hörbücher zur häuslichen Sprachintervention, eine systematische Analyse ihrer Effektivität im Kontext von Aussprachestörungen ist nach unserem jetzigen Kenntnisstand noch nicht erfolgt. Unsere Studie soll helfen, eine individualisierte Therapieunterstützung in Form von Hörbüchern bereitzustellen, welche die spezifischen Störungsbilder der Kinder berücksichtigt und eine Minimierung der Therapieaufwände zum Ziel hat. Dazu haben wir ein Software-Tool zur Generierung von Hörbüchern für die auditive Unterstützung einer Sprachtherapie in der heimischen Umgebung entwickelt. Die Hörbücher werden durch eine KI (künstliche Intelligenz) mit denjenigen Phonemen angereichert, bei denen ein Kind Defizite zeigt; zusätzlich werden die akustischen Identifikationsmerkmale der Phoneme verstärkt.

Methoden

Die phonologische Anreicherungstherapie gliedert sich in zwei Hauptabschnitte (siehe Abbildung 1 [Abb. 1]). In einem ersten Schritt wird ein Klassifizierer zur Erkennung des Phonem-Kontrastes eines unbekannten Hörspiels trainiert. Im zweiten Schritt werden die Phoneme akustisch verstärkt.

Zur Pilotierung wurde das Paar [ʃ] und [s] ausgewählt, ein häufig bei Kindern betroffener Phonemkontrast. Als Datengrundlage dienen KI-generierte, kindgerechte Hörbücher. Zunächst werden Texte mit Hilfe moderner Large-Language-Models (LLMs) erzeugt, die die genannten Phoneme gehäuft enthalten. Dann werden diese Texte über Text-to-Speech-Modelle mit künstlichen Sprechern zu Hörbüchern umgewandelt. Über den WebMAUS-Webservice der LMU (Ludwig-Maximilian-Universität) können die Zeitpunkte des Auftretens der Phoneme im zugrundeliegenden Hörbuch ermittelt werden. Da diese sogenannten Annotationen kleine Abweichungen beinhalten, werden die Phonem-Segmente im Anschluss über die Linguistik-Analysesoftware, Praat, manuell feingranular bestimmt. Auf Basis der Text- und Sprachannotationen werden neuronale Netze auf unabhängigen Audiodaten dazu trainiert, die Phoneme aufgrund ihrer akustischen Korrelate zu klassifizieren. Anschließend werden die Phoneme innerhalb der KI-generierten Hörbücher durch den Klassifizierer erkannt. Der Klassifizierer erkennt dabei den Zeitpunkt des Beginns und Ende der Phoneme. Im Anschluss daran werden diese semiautomatisch verstärkt.

Ergebnisse

Wir haben die Software für das beispielhafte Phonem-Paar [ʃ]-[s] implementiert. Sie besitzt eine grafische Benutzeroberfläche, womit der/die Logopäde/in die Qualität und Quantität der akustischen Verstärkung der Phoneme adjustieren kann – unter Anpassung von Dauer, Lautstärke, Phasen-Beginn und Frequenz. Die resultierenden Phoneme können zur Überprüfung direkt abgespielt werden. Ergebnis ist ein mit akustisch verstärkten Phonemen angereichertes Hörbuch.

Diskussion

Dieser Beitrag zeigt die Machbarkeit einer semiautomatischen phonologischen Anreicherungstherapie. Ihre Wirksamkeit und Akzeptanz soll im Anschluss in einer klinischen Studie überprüft werden. Die neuartig entwickelte phonologische Anreicherungstherapie könnte den auditorisch-perzeptiven Teil phonologischer Therapien ergänzen, möglicherweise sogar ersetzen, und damit die Therapiedauer und die Zahl der Therapiesitzungen verkürzen.

Fazit

Eine artifizielle Verstärkung von Phonemen und Phonemkontrasten in einem phonologisch angereicherten Hörbuch ist realisierbar und voraussichtlich ein kostengünstiges Mittel zur künstlichen Generierung von individuell und adaptiv angepassten Therapiematerialien für Kinder mit Aussprachestörungen.


Literatur

1.
Norbury CF, Gooch D, Wray C, Baird G, Charman T, Simonoff E, Vamvakas G, Pickles A. The impact of nonverbal ability on prevalence and clinical presentation of language disorder: evidence from a population study. J Child Psychol Psychiatry. 2016;57(11):1247-57. DOI: 10.1111/jcpp.12573 Externer Link
2.
Aram DM, Ekelman BL, Nation JE. Preschoolers with language disorders: 10 years later. J Speech Hear Res. 1984;27(2):232-44. DOI: 10.1044/jshr.2702.244 Externer Link
3.
Waltersbacher A; WIdO – Wissenschaftliches Institut der AOK. Heilmittelbericht 2021/2022: Ergotherapie, Sprachtherapie, Physiotherapie, Podologie. Berlin: WIdO; 2022. Verfügbar unter: https://www.wido.de/fileadmin/Dateien/Dokumente/Publikationen_Produkte/Buchreihen/Heilmittelbericht/wido_hei_heilmittelbericht_2021_2022_final.pdf Externer Link