gms | German Medical Science

31. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP) zusammen mit dem 5. Pädakustiker-Symposium der Akademie für Hörgeräte-Akustik

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

18.09. - 21.09.2014, Lübeck

Untersuchung von Sprachaufnahmen heiserer Stimmen mittels phonologischer und phonemischer Merkmale

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. Akademie für Hörgeräte-Akustik. 31. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP) zusammen mit dem 5. Pädakustiker-Symposium der Akademie für Hörgeräte-Akustik. Lübeck, 18.-21.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocV9

doi: 10.3205/14dgpp12, urn:nbn:de:0183-14dgpp125

Published: September 2, 2014

© 2014 Haderlein et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Mit textbasierten, phonologischen und phonemischen Analyseverfahren können Stimm- und Sprecheigenschaften sprachenunabhängig bewertet werden. Der Fokus dieser Studie lag auf der Differenzierung funktioneller und organischer Heiserkeit durch solche objektiv berechneten Messwerte.

Material und Methoden: Für die Analysen wurden Aufnahmen des Textes „Nordwind und Sonne“ von repräsentativ ausgewählten 45 Personen mit funktioneller (Durchschnittsalter 47,1±16,3 Jahre) und 24 mit organischer Heiserkeit (52,2±15,6 Jahre) verwendet.

Aus Abschnitten von 25 ms Dauer (Frames) wurden mittels neuronaler Netzwerke 14 phonologische Eigenschaften bzgl. Stimmquelle, Artikulationsart, Artikulationsort sowie Vokalmerkmale berechnet. Jede phonologische Eigenschaft wird durch zwei Subnetzwerke analysiert. Eines davon ermittelt die Relevanz der Eigenschaft zum gegebenen Zeitpunkt (z.B. sind bei Konsonanten Vokalmerkmale nicht relevant), und das zweite, ob die jeweilige Eigenschaft (z.B. „labial“) aktuell vorliegt oder nicht. Ebenfalls mittels neuronaler Netze aus den phonologischen Eigenschaften wurden phonemische Merkmale bestimmt. Sie basieren auf den Produktionswahrscheinlichkeiten für einzelne Laute, wie sie bei der automatischen Spracherkennung berechnet werden. Zur Ermittlung der relevantesten Merkmale für die Unterscheidung von funktioneller und organischer Heiserkeit wurde das Prinzip der Ensemble Linear Regression angewandt.

Ergebnisse: Für die Unterscheidung von funktioneller und organischer Dysphonie wurden zwei wichtigste Merkmale ermittelt: die Minima der Präsenz von Nasalität und die mittlere minimale Wahrscheinlichkeit, dass ein /h/ gesprochen wurde. Graphisch zeigt sich damit eine deutliche Tendenz zur Trennung der beiden Diagnosegruppen.

Diskussion: Patienten mit organischer Dysphonie weisen in den beiden relevantesten Merkmalen tendenziell höhere Werte auf. Sie deuten auf eine höhere Behauchtheit innerhalb dieser Gruppe hin, was durch die RBH-Bewertung bestätigt wird.

Fazit: Die Verwendung sprachenunabhängiger phonologischer und phonemischer Merkmale aus Sprachaufnahmen ist eine effektive Basis für weitere Untersuchungen.


Text

Einleitung

Gängige Methoden der automatischen Stimmanalyse stützen sich meist auf Aufnahmen gehaltener Vokale. Sprachaufnahmen hingegen enthalten Stimmeinsätze, Schwankungen der Grundfrequenz F0 und auch Sprechpausen und erlauben so eine wesentlich umfangreichere Analyse. Neuere Entwicklungen verwenden akustische Modelle, die die phonologischen und phonemischen Eigenschaften einer Äußerung über die Zeit beschreiben. Diese Verfahren können auch zur sprachenunabhängigen Analyse verwendet werden, d.h. die Testsprecher müssen nicht dieselbe Sprache sprechen wie die Personen, mit denen die Modelle trainiert wurden [1]. In der vorgestellten Studie wurde untersucht, ob sich mittels solcher akustischer Modelle verschiedene Arten chronischer Heiserkeit differenzieren lassen.

Material

Als Testsprecher dienten 69 repräsentativ ausgewählte Personen deutscher Muttersprache mit chronischer Heiserkeit nichtmaligner Ursache. 13 Männer und 32 Frauen wurden zur Gruppe „funktionelle Dysphonie“, 9 Männer und 15 Frauen zur Gruppe „organische Dysphonie“ zusammengefasst (Tabelle 1 [Tab. 1]).

Jede Person las den „Nordwind und Sonne“-Text vor und wurde mit einem Nahbesprechungsmikrofon (Abtastfrequenz 16 kHz, Amplitudenauflösung 16 bit) aufgenommen. Zum Vergleich mit der automatischen Analyse wurde für jede Aufnahme aus RBH-Bewertungen von fünf Experten eine Durchschnittsnote gebildet.

Methode

Alle Aufnahmen wurden in 25 ms lange Abschnitte (Frames) mit einer Fortschaltzeit von 10 ms unterteilt. In jedem Frame wurden zwölf Mel-Frequenz-Cepstrumkoeffizienten (MFCC) und eine Energiekomponente berechnet. Daraus wurden mittels neuronaler Netzwerke 14 phonologische Eigenschaften pro Frame berechnet [2], [3]:

  • Stimmquelle: Stimmgebung
  • Artikulationsart: Stille, Konsonantnasalität, Vokalnasalität, Turbulenz (bei Frikativen und Plosiven)
  • Artikulationsort (Konsonanten): labial, labiodental, alveolar, velar, glottal, palatal
  • Vokalmerkmale: Vokalhöhe, Ort, Rundung

Die Netze waren mit flämischen Sprachdaten trainiert. Jede phonologische Eigenschaft wurde durch zwei Subnetzwerke analysiert. Eines davon ermittelte die Relevanz der Eigenschaft zum gegebenen Zeitpunkt (z.B. sind bei Konsonanten Vokalmerkmale nicht relevant), und das zweite, ob die jeweilige Eigenschaft (z.B. „labial“) aktuell vorlag oder nicht. Die zeitliche Analyse der Ausgaben der Netzwerke lieferte jeweils Mittelwert und Standardabweichung, den Prozentsatz, wie oft die jeweilige Ausgabe gemäß spezifischer Schwellwerte hoch, mittel und niedrig war, die mittlere Höhe der Maximalwerte und die Dauer einer Transition von einem niedrigen zum hohen Wert. Insgesamt wurden 504 phonologische Merkmale errechnet, wovon jedoch viele eine ähnliche Information trugen.

Phonemische Merkmale [1] basieren auf den Produktionswahrscheinlichkeiten für einzelne Laute, wie sie bei der automatischen Spracherkennung berechnet werden. Sie werden wiederum aus den phonologischen Eigenschaften mittels neuronaler Netze bestimmt. Tritt eine maximale A-posteriori-Wahrscheinlichkeit für einen konkreten Laut auf, werden über den zeitlichen Verlauf der Wahrscheinlichkeit Mittelwert, Standardabweichung und die Extremwerte bestimmt. Zusätzlich werden die Dauer der Frames, die diesem Laut zugewiesen wurden, und die mittlere Wahrscheinlichkeit dieses Lautes über alle Frames berechnet. Insgesamt erhält man auf diese Weise 495 phonemische Merkmale.

Zur Ermittlung der relevantesten Merkmale wurde das Prinzip der Ensemble Linear Regression angewandt. Für jeweils zwei Merkmale wurde mittels linearer Diskriminanzanalyse (LDA) die Klassifikation aller Sprecher in die Klassen „funktionell“ und „organisch“ durchgeführt und die Erfolgsrate bestimmt. Jedes Experiment erfolgte dabei mit fünffacher Kreuzvalidierung auf allen Daten.

Ergebnisse

Für die Unterscheidung von funktioneller und organischer Dysphonie wurden zwei wichtigste Merkmale ermittelt, mit deren Hilfe sich eine Klassifikationsrate von 83% ergab:

  • consonantnasality_presence_meanmin: Minima der Präsenz von Nasalität
  • h_meanneg: mittlere minimale Wahrscheinlichkeit, dass ein /h/ gesprochen wurde (phonemisches Merkmal)

Abbildung 1 [Abb. 1] zeigt die graphische Darstellung der beiden Merkmale.

Diskussion und Fazit

Patienten mit organischer Dysphonie wiesen in den beiden relevantesten Merkmalen tendenziell höhere Werte auf. Sie deuten auf eine höhere Behauchtheit in dieser Gruppe hin, was durch die RBH-Bewertung bestätigt wurde. Bereits zwei Merkmale erlauben eine effektive Visualisierung und Klassifikation. Sprachenunabhängige phonologische und phonemische Merkmale aus Sprachaufnahmen bei repräsentativ ausgewählten Patienten bilden somit eine geeignete Basis für weitere Untersuchungen.

Danksagung

Förderer dieser Arbeit waren die Else Kröner-Fresenius-Stiftung (Nr. 2011_A167), die Kampagne „Kom op tegen Kanker“ der Vlaamse Liga tegen Kanker VZW in Brüssel und The Netherlands Cancer Institute / Antoni van Leeuwenhoek Hospital (Amsterdam).


Literatur

1.
Middag C, Bocklet T, Martens J-P, Nöth E. Combining phonological and acoustic ASR-free features for pathological speech intelligibility assessment. In: Proceedings of the 12th annual conference of the International Speech Communication Association (Interspeech 2011). International Speech Communication Association (ISCA); 2011. p. 3005–8.
2.
Middag C. Automatic Analysis of Pathological Speech [Dissertation]. Gent: Universiteit Gent; 2012.
3.
Middag C, Saeys Y, Martens JP. Towards an ASR-free objective analysis of pathological speech. In: Proceedings of the 11th annual conference of the International Speech Communication Association. International Speech Communication Association; 2010. S. 294-7.