gms | German Medical Science

27. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

17.09. - 19.09.2010, Aachen

Automatische Verständlichkeitsbewertung von Telefonaufnahmen Larynxteilresezierter mittels prosodischer Analyse

Vortrag

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 27. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Aachen, 17.-19.09.2010. Düsseldorf: German Medical Science GMS Publishing House; 2010. Doc10dgppV31

DOI: 10.3205/10dgpp43, URN: urn:nbn:de:0183-10dgpp438

Veröffentlicht: 31. August 2010

© 2010 Haderlein et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Objektiv-apparative Stimmbewertungen werden derzeit meist auf der Basis gehaltener Vokale durchgeführt. Jedoch reflektiert ein isolierter Vokal keine reale Kommunikationssituation.

Material und Methoden: In dieser Studie wurde ein gelesener Text mittels prosodischer Analyse bewertet. Die automatisch ermittelten Merkmale wurden mit der an Schulnoten orientierten Verständlichkeitsbewertung durch fünf Experten korreliert. Die Validität dieses Vorgehens war in früheren Untersuchungen belegt worden. Der Fokus dieser Studie lag auf dem Einfluss der Telefonübertragung auf die Mensch-Maschine-Korrelation, da das Telefon ein wichtiges Kommunikationsmittel darstellt. Als Testsprecher dienten 82 Personen nach einer Larynxteilresektion.

Ergebnisse: Die Korrelation zwischen den menschlichen Bewertungen und der Maschine erreichten Werte bis r=0,66. Energiebasierte Merkmale zeigten aufgrund der in den Telefonaufnahmen fehlenden Frequenzbereiche über 3.400 Hz Unterschiede zur Nahbesprechungsaufnahme. Dauerbasierte Merkmale wurden von der unterschiedlichen Aufnahmequalität kaum beeinflusst.

Diskussion: Im Hinblick auf die breite klinische Anwendung der Messmethode kann folgendes geschlossen werden: Die automatische Verständlichkeitsbewertung über das Telefon ist prinzipiell möglich. Ihre Ergebnisse unterscheiden sich, zumindest für bestimmte Merkmalsgruppen, nicht signifikant von der Analyse von Nahbesprechungsaufnahmen.


Text

Einleitung

Objektiv-apparative Stimmbewertungen werden derzeit meist auf der Basis gehaltener Vokale durchgeführt. Jedoch reflektiert ein isolierter Vokal keine reale Kommunikationssituation. In früheren Arbeiten wurde gezeigt, dass prosodische Analyseverfahren verwendet werden können, um die Verständlichkeit von pathologischen Sprechern automatisch zu bewerten [1], [2], [3].

Das Telefon ist in der heutigen Zeit eines der wichtigsten Kommunikationsmittel. Dies trifft vor allem auf ältere Menschen zu, deren Mobilität eingeschränkt ist. Der Fokus dieser Studie lag deshalb auf der Verständlichkeit am Telefon und auf dem Einfluss der Signalqualität auf die Mensch-Maschine-Korrelation.

Material

Als Testsprecher dienten 82 Personen nach einer Larynxteilresektion. Das Durchschnittsalter innerhalb der Gruppe betrug 62,3±8,8 Jahre (min. 41,1, max. 86,1 Jahre), 14 der Patienten waren weiblich. Jede Testperson las den „Nordwind und Sonne”-Text vor und wurde dabei mit einem Nahbesprechungsmikrofon (Abtastfrequenz 16 kHz, Amplitudenauflösung 16 bit) und synchron über das Telefon (8 kHz, 16 bit) aufgenommen. Der Text enthält 71 verschiedene Wörter. Die Gesamtzahl der Wörter beträgt 108.

Als Vergleichsbasis für die automatische Evaluierung bewerteten fünf Experten das Kriterium „Gesamtverständlichkeit“ bei jedem Sprecher mit Noten von 1 („sehr gut verständlich“) bis 5 („extrem schlecht verständlich“). Aus den fünf Bewertungen für jede Aufnahme wurde jeweils eine Durchschnittsnote gebildet.

Methode

Basierend auf Wort- und Pausendauern, der Sprachgrundfrequenz F0 und der Energie im Signal werden 95 prosodische Merkmale pro Wort bzw. pro Wort-Pause-Wort-Intervall und 15 Merkmale auf Abschnitten mit jeweils 15 Wörtern berechnet. Die Energie- und F0-Werte liegen sowohl in Absolutwerten als auch normiert vor. Die Normierung erfolgt in Bezug auf die gesamte Aufnahme bzw. auf das betrachtete Intervall [1]. Die menschlichen Bewertungen erfolgten pro Aufnahme, d.h. jeder Bewerter gab einen einzigen Verständlichkeitswert für einen Sprecher ab. Deshalb wurden auch für jedes der prosodischen Merkmale alle pro Wort bzw. Aufnahmeabschnitt berechneten Einzelwerte über die gesamte Aufnahme gemittelt.

Ergebnisse

Die durchschnittliche Verständlichkeitsnote der fünf Bewerter für die 82 Sprecher lag im Falle der Headset-Aufnahmen bei 2,9, für die Telefonaufnahmen bei 3,3. Die durchschnittliche Inter-Rater-Korrelation, jeweils gemessen zwischen einem Bewerter und dem Durchschnitt der übrigen vier, betrug für beide Aufnahmetypen r=0,84. Die Berechnung der Intra-Rater-Korrelation, gemessen an 44 Aufnahmen, ergab r=0,83.

Als beste Korrelationen zwischen den menschlichen Verständlichkeitsbewertungen und den berechneten prosodischen Merkmalen wurden folgende Werte ermittelt (siehe Tabelle 1 [Tab. 1]).

Diskussion

Die perzeptive Bewertung hat ergeben, dass die Verständlichkeit der Telefonaufnahmen etwas schlechter ist als die der synchron erstellten Aufnahmen des Nahbesprechungsmikrofons. Die Inter- und Intra-Rater-Korrelation der Hörer wird dadurch jedoch nicht negativ beeinflusst.

Der Vergleich der menschlichen und der automatischen Bewertung zeigt den Einfluss der Signalqualität. Die Korrelationen der dauerbasierten Merkmale und der normierten Signalenergie zu den perzeptiv ermittelten Werten weisen darauf hin, dass die Sprechrate und die Stimmqualität in direktem Zusammenhang zur Verständlichkeit stehen. Die Detektion von stimmlosen Bereichen und der normierten Energie werden durch das Fehlen der Frequenzbereiche über 3.400 Hertz beeinflusst. Diese werden während der Telefonübertragung aus der Aufnahme entfernt. Die dauerbasierten Merkmale unterliegen diesem Einfluss kaum. Deshalb unterscheiden sich bei ihnen die Korrelationen für die beiden Aufnahmetypen nur unwesentlich.

Frühere Untersuchungen mit anderen Stimmpathologien [1], [2], [3] zeigten bessere Korrelationen. Der Grund hierfür ist der relativ schwache Pathologiegrad der Stimme nach Larynxteilresektion. Einzelne Merkmale können diesen nicht trennscharf abbilden. Zukünftige Arbeiten werden deshalb die Kombination mehrerer Merkmale und die Bestimmung einer optimalen Merkmalsmenge mithilfe von Regressionsverfahren umfassen. Auch die Merkmalsmenge selbst wird um Merkmale erweitert werden, die den zeitlichen Verlauf der Werte der bisher betrachteten Merkmale berücksichtigen. Diese Information fehlt zur Zeit aufgrund der Mittelung der Merkmalswerte über die gesamte Aufnahmedauer.

Im Hinblick auf die breite klinische Anwendung der Messmethode kann folgendes geschlossen werden: Die maschinelle Bewertung der pathologischen Stimme nach Larynxteilresektion ist auch per Telefon prinzipiell möglich.

Danksagung

Diese Arbeit wurde von der Deutschen Krebshilfe (Fördernr. 107873) gefördert.


Literatur

1.
Haderlein T. Automatic Evaluation of Tracheoesophageal Substitute Voices. Berlin: Logos Verlag; 2007. (Studien zur Mustererkennung ; 25)
2.
Bocklet T, Toy H, Nöth E, Schuster M, Eysholdt U, Rosanowski F, Gottwald F, Haderlein T. Automatic Evaluation of Tracheoesophageal Substitute Voice: Sustained Vowel versus Standard Text. Folia Phoniatr Logop. 2009;61(2):112-6. DOI: 10.1159/000209338 Externer Link
3.
Maier A, Hönig F, Bocklet T, Nöth E, Stelzle F, Nkenke E, Schuster M. Automatic detection of articulation disorders in children with cleft lip and palate. J Acoust Soc Am. 2009;126(5):2589-602. DOI: 10.1121/1.3216913 Externer Link