gms | German Medical Science

30. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

20.09. - 22.09.2013, Bochum

Vergleich der subjektiv-auditiven RBH-Beurteilung mit apparativer prosodischer Analyse und Irregularitätsberechnung

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 30. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Bochum, 20.-22.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocV20

doi: 10.3205/13dgpp51, urn:nbn:de:0183-13dgpp510

Veröffentlicht: 5. September 2013

© 2013 Haderlein et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Mit textbasierten, prosodischen Analyseverfahren können Stimm- und Sprecheigenschaften apparativ bewertet werden. Der Fokus dieser Studie lag auf dem Vergleich einer Kombination aus prosodischer Analyse und Irregularitätswerten (Laryngograph) mit der subjektiv-auditiven RBH-Bewertung.

Material und Methoden: Für die Stimmanalysen wurden Aufsprechproben des Textes „Nordwind und Sonne“ von 58 Personen (43 Frauen, 15 Männer, Durchschnittsalter 48,7±17,8 Jahre) mit unauffälligen und beeinträchtigten Stimmen verwendet.

Die RBH-Beurteilung erfolgte durch 19 Logopädieschüler, die apparative Diagnostik durch Laryngograph und prosodische Analyse. Basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal wurden 33 prosodische Merkmale pro Wort bzw. pro Wort-Pause-Wort-Intervall berechnet. 15 weitere Merkmale wurden aus Abschnitten von jeweils 15 Wörtern Länge ermittelt. Vom Laryngograph-Programm wurden die Frequenzunterschiede zwischen aufeinanderfolgenden Stimmlippenzyklen (CFx-Wert) und das Verhältnis der Dauer des Stimmlippenschlusses zur Gesamtdauer des Zyklus (CQx-Wert) verwendet. Mittels Support-Vektor-Regression wurde aus allen Werten die aussagekräftigste Kombination bestimmt.

Ergebnisse: Für die Rauigkeit war die Mensch-Maschine-Korrelation (r=0,71) höher als die Inter-Rater-Korrelation der Bewertergruppe (r=0,65), für die Heiserkeit wurde der Wert der Gruppe (r=0,59) vom automatischen Verfahren fast erreicht (r=0,53). Die automatische Bewertung der Behauchtheit erreichte nur r=0,36, die subjektiv-auditive r=0,58. Diese Ergebnisse wurden durch die Kombination von prosodischer Analyse und CFx bei der Rauigkeit bzw. CQx bei der Heiserkeit erzielt. Für die Behauchtheitsmodellierung brachten CFx und CQx keinen Vorteil.

Diskussion: Die Korrelationswerte zwischen automatischer und subjektiv-auditiver Bewertung liegen für Rauigkeit und Heiserkeit im selben Bereich wie die Inter-Rater-Korrelation innerhalb einer Gruppe von Bewertern. In dieser Studie zeigte sich folglich eine gleichwertige Beurteilung in der apparativen und subjektiv-auditiven Analyse.


Text

Einleitung

In früheren Arbeiten wurde gezeigt, dass prosodische Analyseverfahren verwendet werden können, um Stimm- und Sprecheigenschaften automatisch zu bewerten [1]. Der Fokus dieser Studie lag auf dem Vergleich einer Kombination von textbasierter prosodischer Analyse (Lehrstuhl für Mustererkennung, Universität Erlangen-Nürnberg) und Irregularitätsbeurteilung (Laryngograph Speech Studio, Laryngograph Ltd, London) [2] mit der subjektiv-auditiven RBH-Bewertung.

Material

Für die vorliegende Studie wurden Stimmproben von 58 Personen (43 Frauen, 15 Männer) mit Dysphonien verschiedener Ursachen (z.B. Reinke-Ödeme, Stimmlippenparesen, chronische Laryngitiden) und ohne Dysphonien verwendet. Das Durchschnittsalter betrug 48,7±17,8 Jahre (min. 12,2, max. 81,9 Jahre). Als Text diente der phonetisch ausgewogene Standardtext „Der Nordwind und die Sonne“, die Aufnahme erfolgte mit einem Nahbesprechungsmikrofon (Abstand zum Mikrofon 10 cm, Abtastfrequenz 44,1 kHz, Amplitudenauflösung 16 bit). Für die prosodische Analyse wurden die Daten mit 16 kHz neu abgetastet.

Methode

Als Vergleichsbasis für die automatische Evaluierung erfolgte die subjektiv-auditive Beurteilung durch 19 Logopädieschüler nach dem RBH-Schema. Es wurde jedoch betont, dass die Aufnahmen nur gemäß des Höreindruckes zu bewerten sind und die RBH-Konvention (Heiserkeit nicht geringer zu beurteilen als die Rauigkeit) nicht eingehalten werden muss [3].

Der erste Teil der apparativen Diagnostik bestand in der Berechnung prosodischer Merkmale. Basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal [1] wurden 33 prosodische Merkmale pro Wort bzw. pro Wort-Pause-Wort-Intervall berechnet. Die größte Gruppe umfasste die F0-Merkmale, die u.a. Mittelwert, Minimum, Maximum, den Wert bei Stimmeinsatz und -ausklang sowie ihre jeweiligen Positionen im betrachteten Intervall enthielten. 15 weitere Merkmale, auf Abschnitten von jeweils 15 Wörtern Länge berechnet, umfassten Mittelwert und Standardabweichung von Jitter und Shimmer, Anzahl, Dauer und maximale Dauer von stimmhaften und stimmlosen Abschnitten, das Verhältnis der Anzahl bzw. Dauer von stimmhaften zu stimmlosen Bereichen sowie das Verhältnis der Dauer von stimmhaften bzw. stimmlosen Abschnitten zur Gesamtdauer des Signals. Die Standardabweichung der Sprachgrundfrequenz F0 wurde hier ebenfalls textbasiert ausgewertet. Da die subjektiv-auditive Bewertung für den gesamten Text erfolgte, wurden auch für jedes prosodische Merkmal alle pro Wort bzw. Aufnahmeabschnitt berechneten Werte über die gesamte Aufnahme gemittelt.

Die vom Laryngograph-System gemessenen Frequenzunterschiede von jeweils zwei aufeinanderfolgenden Schwingungszyklen werden durch den CFx-Wert repräsentiert [2]. Der CQx-Wert bezeichnet das prozentuale Verhältnis zwischen der Dauer des Stimmlippenschlusses (Quasigeschlossenzeit) und der Gesamtdauer eines Zyklus bei aufeinanderfolgenden Schwingungszyklen. Beide Irregularitätsparameter wurden in der vorliegenden Studie verwendet.

Mithilfe der Support-Vektor-Regression (SVR) wurde schließlich aus allen gemessenen Werten die aussagekräftigste Kombination bestimmt und ein Vorhersagewert für die durchschnittliche menschliche Bewertung des jeweiligen Patienten berechnet.

Ergebnisse

Die durchschnittlichen „Noten“ der 19 Bewerter für die 58 Stimmproben lagen bei 0,88 (R), 0,59 (B) und 0,81 (H). Für die berechneten Korrelationswerte r siehe Tabelle 1 [Tab. 1].

Die beste Merkmalsmenge war für alle Bewertungskriterien ähnlich. Sie enthielt u.a. die Länge eines Wort-Pause-Wortintervalls und damit einen Hinweis auf Sprechanstrengung bzw. -geschwindigkeit, sowie den Mittelwert des Jitter. Für die Rauigkeit war der Mittelwert der F0, für die Behauchtheit der F0-Wert beim Stimmeinsatz enthalten. Die Position des Stimmausklangs war Teil der besten Menge für das Heiserkeitsmodell. Für Behauchtheit und Heiserkeit spielte außerdem die normierte Energie (in Bezug auf Normalsprecher) eine wesentliche Rolle. Von den Werten des Laryngograph-Geräts war CFx in der Merkmalsmenge für die Rauigkeit und CQx in der Menge für Heiserkeit enthalten. Für die Behauchtheitsmodellierung brachten weder CFx noch CQx einen Vorteil.

Diskussion und Fazit

Die Korrelation zwischen der automatischen Bewertung und dem Durchschnitt der 19 Stimmbewerter liegt in dieser Studie für Rauigkeit und Heiserkeit im selben Bereich wie die Korrelation zwischen einem zufällig ausgewählten Hörer und dem Rest der Gruppe. Folglich ist die maschinelle Bewertung gleichwertig zur menschlichen und stellt eine wertvolle Ergänzung in der Stimmdiagnostik dar. Die Behauchtheitsbewertung konnte mit den vorhandenen Messwerten nicht zufriedenstellend modelliert werden. Die Einbeziehung der Werte CFx und CQx des Laryngograph-Systems können die Mensch-Maschine-Korrelationen wesentlich verbessern, jedoch nicht für die Behauchtheit. Die berechneten Korrelationswerte sind für den klinischen Einsatz noch zu gering, jedoch bleibt zu bedenken, dass auch die Bewerter untereinander nicht besser übereinstimmten.

Danksagung

Die Arbeit wurde von der Else Kröner-Fresenius-Stiftung (Fördernr. 2011_A167) gefördert.


Literatur

1.
Bocklet T, Toy H, Nöth E, Schuster M, Eysholdt U, Rosanowski F, Gottwald F, Haderlein T. Automatic Evaluation of Tracheoesophageal Substitute Voice: Sustained Vowel versus Standard Text. Folia Phoniatr Logop. 2009;61:112-6. DOI: 10.1159/000209338 Externer Link
2.
Fourcin A. Aspects of Voice Irregularity Measurement in Connected Speech. Folia Phoniatr Logop. 2009;61:126-36. DOI: 10.1159/000219948 Externer Link
3.
Ptok M, Schwemmle C, Iven C, Jessen M, Nawka T. Zur auditiven Bewertung der Stimmqualität. HNO. 2005;54:793-802. DOI: 10.1159/000209338 Externer Link