gms | German Medical Science

25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12.09. - 14.09.2008, Düsseldorf

Sprachsegmentierung als Vorstufe der automatisierten klinischen Sprech- und Stimmdiagnostik

Speech alignment as a pre-condition for automatic clinical speech and voice diagnostics

Poster

Suche in Medline nach

  • corresponding author presenting/speaker Ingolf Franke - WEVOSYS Entwicklungszentrum für Stimme und Sprache, Forchheim, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 25. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie. Düsseldorf, 12.-14.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08dgppP16

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2008/08dgpp61.shtml

Veröffentlicht: 27. August 2008

© 2008 Franke.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Eine automatisierte Bewertung klinisch relevanter Sprech- und Stimmparameter anhand eines gesprochenen Textes setzt die Erfassung und Zerlegung des gesprochenen Textes in seine Bestandteile Satz, Wort und Laut voraus. Auf Grundlage dieser Zerteilung lassen sich vielfältige Informationen des Sprechens und der Stimme wie z.B. Prosodie, Intonation, Variabilität, Sprechstörungen, Pausenverhalten und Stimmqualität extrahieren und einer zeitsparenden und standardisierten Diagnostik zuführen.

In der Studie wurden 127 Aufnahmen des Textes "Nordwind und Sonne" mit RBH-Werten von 0 bis 3 einer automatischen Segmentierung auf Wort- und Lautebene zugeführt. Weiterhin wurden völlig aphone SprecherInnen ausgewertet.

Die Ergebnisse zeigen, dass eine automatische Segmentierung von klinisch relevanten Patientenaufnahmen zielsicher und praktikabel bis hin zur Aphonie möglich ist und eine darauf aufbauende Sprech- und Stimmdiagnostik als nächster Schritt ebenfalls automatisiert möglich erscheint.


Text

Einleitung

Auf der Basis moderner Sprachtechnologie sollte überprüft werden, ob die automatische Segmentierung eines Standardtextes, gesprochen von Patienten mit Stimmerkrankungen, als Vorstufe zur objektiv-automatisierten Stimm- und Sprechdiagnostik zielsicher erfolgen kann.

Material

127 Sprachaufnahmen des Standardtextes „Der Nordwind und die Sonne“ [1] von Stimmpatienten (Alter 10–74 Jahre, 82 Frauen, 45 Männer, Heiserkeit 0–3)

Methode

Die Aufnahmen wurden mit der Software lingWAVES Aligner (WEVOSYS, Entwicklungsgesellschaft für Stimme und Sprache, Forchheim) vollautomatisch in Wort- und Lauteinheiten segmentiert.

Ergebnisse

Von den Sprachaufnahmen mit keinen oder geringen Abweichungen vom Standardtext konnten 92% korrekt und 8% fehlerhaft segmentiert werden. Von den fehlerhaft segmentieren Aufnahmen wurden alle mit einer überdurchschnittlichen Sprechgeschwindigkeit (<47 s) gesprochen. Der Grad der Stimmstörung hat auf die Segmentierung keinen Einfluss. Auch völlig aphone SprecherInnen (nur Flüstersprache) konnten erfolgreich segmentiert werden. Der nötige Zeitaufwand für das Segmentieren einer Aufnahme betrug ca. 7 s.

Diskussion:

Die Ergebnisse zeigen, dass der erste Schritt auf dem Weg zur automatisierten, objektiven und standardisierten Stimm- und Sprechdiagnostik auf Basis eines Standardtextes gelöst ist. Ein Ergebnis von 99% korrekter Segmentierung kann erreicht werden, mit dem Hinweis an die PatientenInnen, normal und nicht hastig zu sprechen. Die verwendete Sprachtechnologie zeigt sich robust gegenüber Stimmstörungen jeder Art.

Auf Grundlage der durch die Segmentierung vorliegenden Stimm- und Sprechdaten erscheint z.B. eine objektive RBH-Bestimmung unter Nutzung von Irregularitäts- und Rauschmerkmalen [2] aus fortlaufender Sprache anhand segmentierter Vokale (Abbildung 1 [Abb. 1]) möglich, so wie sie bereits seit Jahren auditiv-subjektiv anhand eines Standardtextes, jedoch mit Unsicherheitsfaktor Mensch [1] durchgeführt wird und wie sie u.a. von Eysholdt et al. [3] gefordert wird.

Neben Stimmqualitätsparametern lassen sich auch Eigenschaften des Sprechens aus den gewonnen Daten sicher bestimmen, wie z.B. Sprechtempo, Silbenrate, Pausenverhalten/Atempausen, Sprechrhythmus, Sprechmelodie, Sprechenergieverlauf, u.s.w. (Abbildung 2 [Abb. 2]).

Ziel der Entwicklung ist es im zweiten Schritt, die gewonnenen Daten für einen objektiven und standardisierten Stimm- und Sprechdiagnostikbogen zu nutzen, der automatisiert auf Grundlage eines aufgenommenen Standardtextes in kürzester Zeit (<30 s) erstellt wird, übersichtlich wesentliche Daten vergleichbar darstellt und damit für einen breiten Anwenderkreis im Bereich der Stimm- und Sprechdiagnostik geeignet ist.

Die verwendete Sprachtechnologie ist mehrsprachig und kann somit u.a. auch im englischsprachigen Raum verwendet werden, z.B. mit dem Standardtext „Rainbow passage“.


Literatur

1.
Nawka T, Evans R. RBH - Training und Diagnostik. Auditiv-perzeptive Bewertung der Heiserkeit von Sprechstimmen - multimedial-interaktive CD-ROM. Forchheim: WEVOS Verlag; 2006.
2.
Fröhlich M, Michaelis D. Objektive Beschreibung der Stimmgüte unter Verwendung des Heiserkeits-Diagramms. HNO. 1998;46:684-9.
3.
Toy A, Bocklet T, Schuster M, Eysholdt U, Nöth E, Rosanowski F. Die tracheoösophageale Ersatzstimme: Objektive Messung mit dem Göttinger Heiserkeitsdiagramm. 23. Wissenschaftliche Jahrestagung DGPP. 2006 Vefügbar unter: http://www.egms.de/en/meetings/dgpp2006/06dgpp22.shtml. Externer Link