gms | German Medical Science

26. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

11.09. - 13.09.2009, Leipzig

Akustische Stimmananalyse: Vergleich der Klassifikation durch künstliche neuronale Netze (KNN) und nichtlineare Diskriminanzanalyse (DA)

Vortrag

Search Medline for

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 26. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Leipzig, 11.-13.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09dgppV21

DOI: 10.3205/09dgpp33, URN: urn:nbn:de:0183-09dgpp331

Published: September 7, 2009

© 2009 Kramer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Akustische Stimmanalyseverfahren sollen die subjektive Bewertung, z.B. nach RBH, nicht ersetzen, sondern ergänzen. Sie haben auch das Potential einer Automatisierung, z.B. zur Nutzung für „Nicht-Stimmexperten“.

Material und Methode: Es wurden Stimmparameter von 150 Stimmen mit verschiedenen statistischen Verfahren klassifiziert: Insgesamt wurden 32 Stimmparameter zur Klassifikation verwendet, darunter 26 elektroakustische (Mikrophon- und EGG-Signale gehaltener Vokale /a/ und /e/), 4 Grundfrequenz-beschreibende Parameter aus fortlaufender Sprache und 2 aerodynamische Parameter.

Ergebnisse: Trotz moderater und guter Reliabilität einzelner Beurteiler war die Beurteilerübereinstimmung unbefriedigend (Fleiss‘ kappa < 0.5). Bei der Klassifikation mit KNN lagen die besten durchschnittlichen Erkennungsraten unabhängig von untersuchter Kategorie bei 60%. Es wurde keine Verbesserung in den Kategorien R und B im Vergleich zu den Ergebnissen aus früherer Arbeit festgestellt. Ein direkter Vergleich in der Kategorie H war nicht möglich, da die Erkennungsrate von 80% mit nur 2 Bewertungsstufen erzielt wurde. Bei der Klassifikation der Kategorie H mit DA wurde eine durchschnittliche Erkennungsrate von 80% erreicht. In den Kategorien R und B wurden über 70% der Stimmen richtig klassifiziert.

Diskussion: Die meisten Variablen korrelierten zwar miteinander, aber sie erwiesen sich in der Stimmanalyse als nicht redundant. Die Erkennungsraten konnten gegenüber den Voruntersuchungen weiter gesteigert werden.


Text

Hintergrund

Akustische Stimmanalyseverfahren werden als Ergänzung und Objektivierung der bewährten subjektiven Bewertung, z.B. nach RBH, eingesetzt, für die Varianzen um etwa einen halben Skalenwert nachgewiesen wurden [1]. Durch eine zusätzliche Automatisierung könnten sie nicht nur in der professionellen Stimmdiagnostik, sondern auch als Screening für „Nicht-Stimmexperten“ eingesetzt werden.

Material und Methode

Das Datenmaterial bestand aus Stimmaufnahmen von 145 stimmgestörten und 5 gesunden Probanden (84 männlich, 66 weiblich). Es wurden Stimmparameter mit verschiedenen statistischen Verfahren klassifiziert auf der Basis der Bewertung durch 8 erfahrene Logopäden und Phoniater: Insgesamt fanden 32 Stimmparameter Verwendung, darunter 26 elektroakustische (Mikrophon- und EGG-Signale gehaltener Vokale /a/ und /e/), 4 Grundfrequenz-beschreibende Parameter aus fortlaufender Sprache und 2 aerodynamische Parameter. Die Bewertung erfolgte online mit mehreren Unterbrechungen. Alle Bewerter waren mit dem RBH-System vertraut und erhielten keine speziellen Anweisungen. Jeder Bewerter bekam 165 Aufnahmen zur Beurteilung, davon waren 15 zufällig ausgewählte Aufnahmen im Datenmaterial doppelt vorhanden. Sie dienten der Überprüfung der Beurteilerreliabilität. Die Gruppenmittelwerte für R, B und H wurden berechnet und auf die nächste Ganzzahl aufgerundet.

Ergebnisse

Zur Quantifizierung der Beurteilerübereinstimmung wurde Kendalls Konkordanzkoeffizient W und kappa-Statistik verwendet. Gute Kendalls W Werte für R (W=0.82), H (W=0.65) und B (W=0.56), p<0.0001, stehen zwar in einem direkten Bezug zu den hohen Rangkorrelationen nach Spearman zwischen jeweils 2 Bewertern, bedeuten aber nicht zwingend eine gute Übereinstimmung in erteilten Bewertungen. Laut kappa-Statistik scheinen die Differenzen zwischen den Beurteilern größer zu sein als Differenzen in Test-Retest-Aufgaben. Trotz moderater und guter Reliabilität einzelner Beurteiler und überwiegend guter Übereinstimmung zwischen jeweils 2 Bewertern (Cohens kappa >0.5) war die Übereinstimmung zwischen den 8 Beurteilern unbefriedigend (0.2< Fleiss‘ kappa <0.4).

Bei der Klassifikation mit Feed-Forward Netzen (FFN) lagen die besten durchschnittlichen Erkennungsraten in den untersuchten Kategorien zwischen 56% und 61%. Es wurde keine Verbesserung in den Kategorien R und B im Vergleich zu den Ergebnissen aus früherer Arbeit festgestellt [1], [2]. Ein direkter Vergleich in der Kategorie H war nicht möglich, weil die damalige Erkennungsrate von 80% mit nur 2 Bewertungsstufen erzielt wurde. Das jeweils beste Merkmalsset wurde mit der Neural Net Clamping Technique ermittelt. Unter den Ergebnissen wurden die größten Abweichungen bei der Klassifikation von Stimmen mit R3, B0 und H2 beobachtet (Tabelle 1 [Tab. 1]).

Die Ergebnisse der Vorhersage mithilfe quadratischer Diskriminanzanalyse (QDA) waren etwas günstiger. Bei der Klassifikation der Kategorie H mit QDA wurde eine durchschnittliche Erkennungsrate von 80% erreicht. In den Kategorien R und B wurden über 70% der Stimmen richtig klassifiziert. Dies entspricht der 3-fachen Ratewahrscheinlichkeit. Nach Kreuzvalidierung (Leave-One-Out Methode) lagen die durchschnittlichen Erkennungsraten in den Kategorien R und H jeweils bei 72%, in der Kategorie B bei 65%. Dies entspricht der 2,5-fachen Ratewahrscheinlichkeit. Nach Kreuzvalidierung sank die Erfolgsrate in allen Kategorien um 8% bis 10% gegenüber der im Modell vorhergesagten Klassifikationsgenauigkeit. Die meisten Fehlklassifikationen unterschieden sich um 1 Skalenpunkt von den subjektiven Gruppenmittelwerten. Mit Ausnahme von H0, B0 und B3 überschritt dennoch die durchschnittliche Erfolgsrate in jeder Bewertungsstufe die Ratewahrscheinlichkeit von 0.25 um mehr als Doppelte (Tabelle 2 [Tab. 2]).

Die Merkmalsselektion erfolgte in 3 Stufen. Es wurden Merkmale ausgesucht, die nach Mann-Whitney-U Test eine gute Trennung (p<0.05) zwischen mindestens 2 benachbarten Bewertungsstufen versprechen. Die verbliebenen Merkmale wurden in eine Rangordnung gebracht, die der Fehlerklassifikationsrate entspricht, wenn das entsprechende Merkmal unabhängig von den anderen hinsichtlich seiner Klassifikationsgüte bewertet wird. Dabei wurde festgestellt, dass die meisten Merkmale ihre schlechtesten Klassifikationsraten in den Bewertungsstufen 0 und 3 aufwiesen. Das optimale Merkmalsset ergab sich nach dem Sequential Floating Forward Search durch Hinzu- bzw. Wegnahme von Merkmalen in Abhängigkeit vom Erfolg eines solchen Schritts gemessen an Erfolgsrate. Zur Ermittlung der Fehlerklassifikationraten wurde stets eine Kreuzvalidierung durchgeführt.

Die optimale Merkmalsmenge in Kategorie Rauigkeit bestand aus Jitter, Harmonics-to-Noise ratio (Boersma), Irregularitätskomponente (Michaelis), Lyapunov Exponent, Subharmonics-to-Harmonics ratio (Sun), Aperiodizitätsindex und 3 weiteren Merkmalen von Grundfrequenzverteilung in fortlaufender Sprache wie z.B. Irregularität. Für die Vorhersage von Behauchtheit waren folgende Merkmale relevant: Intensität, maximale Phonationszeit, Phonationsquotient, Glottal-to-Noise Excitation Index und Open Quotient. Die beste Vorhersage für Heiserkeit wurde mit 10 Merkmalen aus den vorher genannten getroffen.

Diskussion

Die Erkennungsraten konnten gegenüber den Voruntersuchungen weiter gesteigert werden [1], [2]. Klassifikationsfehler sind zum Teil auf die Rundung der Gruppenmittelwerte und Unterrepräsentativität der einzelnen Bewertungsstufen zurückzuführen. Wie erwartet, wurden mit QDA die schlechtesten Ergebnisse in den unterrepräsentierten Bewertungsstufen H0 (6 Stimmen) und B3 (14 Stimmen) erzielt. Eine repräsentative Verteilung der Bewertungen auf vier Bewertungsstufen lässt sich nur schlecht in der Phase der Datenerhebung beeinflüssen. Eine kleine Datenmenge schränkt auch zusätzlich die Wahl der Kreuzvalidierungmethode ein. Für die wiederholte k-fache Kreuzvalidierung wäre eine Stratifikation erforderlich, welche sicher stellt, dass jede Bewertungsstufe mit annähernd gleicher relativer Häufigkeit in k Teilmengen vorkommt. Eine schlechtere Leistung in Bewertungsstufe 0 wäre auch damit zu erklären, dass einige Stimmgüteparameter schon auf das Vorliegen einer Störung hinweisen, ohne dass der Stimmklang dabei betroffen wurde.

Die meisten Variablen korrelierten zwar miteinander, aber sie erwiesen sich in der Stimmanalyse als nicht redundant. In Kombination mit anderen Merkmalen können scheinbar redundante Merkmale zur Verbesserung der Leistung beitragen. Dies betraf zum Teil die gleichen Stimmgüteparameter, die an unterschiedlichen Vokalen gemessen wurden. Die Messungen am Vokal /e/ lieferten in der Regel weniger pathologische Werte im Vergleich zu Messungen an dem Vokal /a/.

Die Klassifikation mit QDA erforderte bei höherer Klassifilationsgenauigkeit eine kleinere Merkmalsmenge als die KNN-Klassifikation. Im Mittel waren 10 vs. 25 Merkmale ausreichend, um die zitierten Klassifikationswahrscheinlichkeiten zu erzielen. Nicht zuletzt erhöht dies auch die Akzeptanz bei den Benutzern.


Literatur

1.
Linder R, Albers A, et.al. Artificial Neural Network-based Classification to Screen for Dysphonia Using Psychoacoustic Scaling of Acoustic Voice Features. J Voice. 2008;22(2):155-63.
2.
Schönweiler R, Wübbelt P, et al. Psychoakustische Skalierung akustischer Stimmparameter durch multizentrisch validierte RBH-Bewertung. Laryngo-Rhino-Otol. 2001;80:117-22.