gms | German Medical Science

28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.
2. Dreiländertagung D-A-CH

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.
Schweizerische Gesellschaft für Phoniatrie; Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirurgie

09.09. - 11.09.2011, Zürich, Schweiz

Verständlichkeitsbewertung von Telefonaufnahmen Larynxteilresezierter mittels der Kombination von automatischer Spracherkennung und prosodischer Analyse

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP), 2. Dreiländertagung D-A-CH. Zürich, 09.-11.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11dgppV35

DOI: 10.3205/11dgpp47, URN: urn:nbn:de:0183-11dgpp472

Published: August 18, 2011

© 2011 Haderlein et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Mit prosodischer Analyse kann die Sprachverständlichkeit von pathologischen Sprechern automatisch bewertet werden. Der Fokus dieser Studie lag auf der Verständlichkeit am Telefon, das eines der wichtigsten Kommunikationsmittel ist.

Material und Methoden: Als Testsprecher dienten 82 Personen nach einer Larynxteilresektion. Jede Person las den „Nordwind und Sonne“-Text vor und wurde mit einem Nahbesprechungsmikrofon und synchron über das Telefon aufgenommen. Fünf Experten bewerteten die Gesamtverständlichkeit auf einer 5-Punkte-Skala. Für jede Aufnahme wurde jeweils eine Durchschnittsnote gebildet. Ein bewährtes automatisches Verständlichkeitsmaß ist die Wortkorrektheit (WR) eines Spracherkennungssystems. Basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal wurden außerdem 111 prosodische Merkmale berechnet. Mithilfe der Support-Vektor-Regression wurde die aussagekräftigste Merkmalkombination für Headset- und Telefonaufnahmen bestimmt.

Ergebnisse: Die durchschnittliche perzeptive Verständlichkeitsnote für die 82 Sprecher lag im Falle der Headset-Aufnahmen bei 2,9, für die Telefonaufnahmen bei 3,3. Die Inter-Rater-Korrelation lag bei r=0,84. Die Mensch-Maschine-Korrelation erreichte Werte bis r=0,86.

Diskussion: Die Hinzunahme der prosodischen Merkmale zur WR als bisheriges alleiniges Maß für Verständlichkeit verbessert die Nachbildung der menschlichen Bewertung deutlich. Im Hinblick auf die breite klinische Anwendung der Methode kann folgendes geschlossen werden: Die maschinelle Bewertung der pathologischen Stimme nach Larynxteilresektion ist auch per Telefon prinzipiell möglich.


Text

Einleitung

In früheren Arbeiten wurde gezeigt, dass prosodische Analyseverfahren verwendet werden können, um die Sprachverständlichkeit von pathologischen Sprechern automatisch zu bewerten [1], [2]. Der Fokus dieser Studie lag auf der Verständlichkeit am Telefon und auf dem Einfluss der Signalqualität auf die Mensch-Maschine-Korrelation, da das Telefon in der heutigen Zeit eines der wichtigsten Kommunikationsmittel ist.

Material

Als Testsprecher dienten 82 Personen, davon 14 Frauen, nach einer Larynxteilresektion. Ihr Durchschnittsalter betrug 62,3±8,8 Jahre (min. 41,1, max. 86,1 Jahre). Jede Person las den „Nordwind und Sonne“-Text vor und wurde mit einem Nahbesprechungsmikrofon (Abtastfrequenz 16 kHz, Amplitudenauflösung 16 bit) und synchron über das Telefon (8 kHz, 16 bit) aufgenommen. Als Vergleichsbasis für die automatische Evaluierung bewerteten fünf Experten das Kriterium „Gesamtverständlichkeit“ bei jedem Sprecher mit Noten von 1 („sehr gut verständlich“) bis 5 („extrem schlecht verständlich“). Aus den fünf Bewertungen für jede Aufnahme wurde jeweils eine Durchschnittsnote gebildet.

Methode

Ein bewährtes automatisches Verständlichkeitsmaß ist die Wortkorrektheit (WR) eines Spracherkennungssystems. Sie wird mittels WR [%] = 100*[1-(Nsub+Ndel)/Nges] berechnet, wobei Nges die Anzahl aller gesprochenen Wörter, Nsub die Anzahl der vom System durch andere Wörter ersetzten Wörter (Substitutionen) und Ndel die Anzahl der nicht erkannten Wörter (Deletionen) bezeichnet. Um das System für Telefonaufnahmen verwenden zu können, wurde es mit Daten trainiert, deren akustische Qualität der von Telefonaufnahmen entsprach. Dazu wurde die ursprüngliche Trainingsmenge, die aus Nahbesprechungsdaten bestand (16 kHz, 16 bit), mithilfe eines Tiefpassfilters auf Telefonqualität (8 kHz, 16 bit) gebracht.

Basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal wurden außerdem 95 prosodische Merkmale pro Wort bzw. pro Wort-Pause-Wort-Intervall und 16 Merkmale auf Abschnitten von jeweils 15 Wörtern Länge berechnet. Da die menschlichen Bewertungen für den gesamten Text erfolgten, wurden auch für jedes prosodische Merkmal alle pro Wort bzw. Aufnahmeabschnitt berechneten Werte über die gesamte Aufnahme gemittelt.

Mithilfe der Support-Vektor-Regression (SVR) [3] wurde schließlich aus der WR und den prosodischen Merkmalen die aussagekräftigste Kombination bestimmt und ein Vorhersagewert für die menschliche Bewertung des jeweiligen Patienten berechnet. Dieser Schritt wurde jeweils für die Headset- und die Telefonaufnahmen durchgeführt.

Ergebnisse

Die durchschnittliche Verständlichkeitsnote der fünf Bewerter für die 82 Sprecher lag im Falle der Headset-Aufnahmen bei 2,9, für die Telefonaufnahmen bei 3,3. Die berechneten Korrelationswerte (vgl. auch [2]) lauten: siehe Tabelle 1 [Tab. 1].

Die beste Merkmalsmenge war für beide Aufnahmequalitäten dieselbe. Sie enthielt neben der WR die Dauer der stillen Pause vor dem aktuellen Wort, die Standardabweichung des Jitter, das Verhältnis der Dauer von stimmhaften Bereichen und der gesamten Aufnahme sowie die Standardabweichung der F0, in die jedoch auch die Dauer der stimmlosen Bereiche einbezogen wurde. Somit enthielt sie Information über die Aufnahmedauer. Wurden nur die stimmhaften Bereiche gezählt, war das Merkmal nicht erfolgreich.

Diskussion

Bei der perzeptiven Bewertung wurde die Verständlichkeit der Telefonaufnahmen etwas schlechter bewertet als die der synchron erstellten Nahbesprechungsaufnahmen. Bei der Mensch-Maschine-Korrelation zeigen die automatisch ausgewählten Merkmale, dass die Sprechrate und die Stimmqualität bzw. die Irregularität des Stimmsignals in direktem Zusammenhang zur Verständlichkeit stehen. Die Hinzunahme der prosodischen Merkmale zur WR als bisheriges alleiniges Maß für Verständlichkeit verbessert die Nachbildung der menschlichen Bewertung deshalb deutlich. Für die Telefonaufnahmen wird sogar der Referenzwert der menschlichen Inter-Rater-Korrelation übertroffen. Im Hinblick auf die breite klinische Anwendung der Messmethode kann folgendes geschlossen werden: Die maschinelle Bewertung der pathologischen Stimme nach Larynxteilresektion ist auch per Telefon prinzipiell möglich.

Danksagung

Diese Arbeit wurde von der Deutschen Krebshilfe (Fördernr. 107873) gefördert.


Literatur

1.
Bocklet T, Toy H, Noeth E, Schuster M, Eysholdt U, Rosanowski F, Gottwald F, Haderlein T. Automatic Evaluation of Tracheoesophageal Substitute Voice: Sustained Vowel versus Standard Text. Folia Phoniatr Logop. 2009;61(2):112-6. DOI: 10.1159/000209338 External link
2.
Haderlein T, Maier A, Noeth E, Rosanowski F, Eysholdt U. Automatische Verständlichkeitsbewertung von Telefonaufnahmen Larynxteilresezierter mittels prosodischer Analyse. In: Gross M, am Zehnhoff-Dinnesen A, Hrsg. Aktuelle phoniatrisch-pädaudiologische Aspekte 2010. Warendorf: Darpe Industriedruck; 2010. p. 165-167.
3.
Smola AJ, Schoelkopf B. A Tutorial on Support Vector Regression. Statistics and Computing. 2004;14(3):199-222. DOI: 10.1023/B:STCO.0000035301.49549.88 External link