gms | German Medical Science

28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.
2. Dreiländertagung D-A-CH

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.
Schweizerische Gesellschaft für Phoniatrie; Sektion Phoniatrie der Österreichischen Gesellschaft für HNO-Heilkunde, Kopf- und Halschirurgie

09.09. - 11.09.2011, Zürich, Schweiz

Automatische Bestimmung der mittleren Sprechstimmlage beim Vorlesen des Textes „Nordwind und Sonne“

Vortrag

  • corresponding author presenting/speaker Tadeus Nawka - Klinik für Audiologie und Phoniatrie, Charité – Universitätsmedizin Berlin, Deutschland
  • author Dmitri Belogradski - Xion GmbH, Berlin, Deutschland
  • author Philipp Caffier - Klinik für Audiologie und Phoniatrie, Charité – Universitätsmedizin Berlin, Deutschland
  • Manfred Gross - Klinik für Audiologie und Phoniatrie, Charité – Universitätsmedizin Berlin, Deutschland
  • author Alexios Martin - Charité Universitätsmedizin Berlin, Klinik für Audiologie und Phoniatrie, Berlin, Deutschland
  • author Anya Reinhardt - Charité Universitätsmedizin Berlin, Klinik für Audiologie und Phoniatrie, Berlin, Deutschland
  • author Lutz-Christian Anders - Martin-Luther-Universität Halle-Wittenberg, Seminar für Sprechwissenschaft und Phonetik, Halle, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 28. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP), 2. Dreiländertagung D-A-CH. Zürich, 09.-11.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11dgppV25

DOI: 10.3205/11dgpp35, URN: urn:nbn:de:0183-11dgpp350

Published: August 18, 2011

© 2011 Nawka et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Die auditive Bestimmung der mittleren Sprechstimmlage ist schwierig. Die Grundfrequenz der stimmhaften Laute ist so variabel und ändert sich so schnell, dass das Gehör sie kaum nachvollziehen kann. Für die Diagnostik von Sprechstimmstörungen, für die professionelle Ausbildung von Sprechern und zur Indikationsstellung von Stimmübungstherapie ist es jedoch von Interesse, die Sprechstimme möglichst genau zu charakterisieren. Eine Methode der automatischen Erkennung wird geprüft und anhand von auditiven Urteilen validiert.

Material und Methoden: Von 109 aufeinander folgenden Patienten (37% m) wurden die Aufnahmen von „Der Nordwind und die Sonne“ mit Hilfe des Programms DiVAS analysiert. Die Grundfrequenz wurde über FFT, Tiefpassfilterung, Autokorrelation und peak-to-peak Messung ermittelt und die Wertepaare von Frequenz und Schallpegel in das Formular des Stimmumfangsprofils eingetragen. Für die mittlere Sprechstimmlage (MSL) wurden der Medianwert und der Modalwert bestimmt. Außerdem wurden die MSL der gleichen Stimmen auditiv bestimmt.

Ergebnisse: Männer- und Frauenstimmen lassen sich signifikant voneinander trennen. Die Bestimmung von Medianwert und arithmetischem Mittel liegen eng beieinander und korrelieren in hohem Maße. Die Korrelation des Medianwertes zum auditiven Befund ist am größten.

Diskussion: Die automatische Bestimmung der MSL ist zuverlässig und setzt keine speziellen Fähigkeiten des Untersuchers voraus. Sie kann aus einem aufgezeichneten Text ermittelt werden und stellt daher keinen zusätzlichen Zeitaufwand für die Diagnostik dar. Die Sprechstimme ist dem Stimmgebrauch der Patienten vertrauter als die Singstimme, die Aufzeichnung des Stimmumfangs beim Lesen eines Standardtextes einfacher. Die klinische Relevanz dieses Parameters wird sich erst dann erweisen, wenn systematische Ergebnisuntersuchungen gemacht worden sind.


Text

Einleitung

Eine Beschreibung der Stimme schließt die Angabe von Tonhöhe und Lautstärke ein. Für die Sprechstimme ist diese Aufgabe komplex wegen der ständigen Wechsel von Lauten. Die auditive Bestimmung der mittleren Sprechstimmlage ist schwierig, weil die Stimme atonal ist. Die Grundfrequenz der stimmhaften Laute ist so variabel und ändert sich so schnell, dass das Gehör sie kaum nachvollziehen kann. Der Schallpegel fluktuiert ebenfalls. Für die Diagnostik von Sprechstimmstörungen, für die professionelle Ausbildung von Sprechern und zur Indikationsstellung von Stimmübungstherapie ist es jedoch von Interesse, die Sprechstimme möglichst genau zu charakterisieren. Eine Methode der automatischen Erkennung wird geprüft und anhand von auditiven Urteilen validiert.

Folgende Hypothesen wurden geprüft:

1.
Männer- und Frauenstimmen lassen sich signifikant voneinander trennen.
2.
Die Anwendung des arithmetischen Mittelwertes wird durch Fehlbestimmung der Grundfrequenz verzerrt und entspricht nicht dem auditiven Ergebnis.
3.
Modalwert und Medianwert liegen eng beieinander und korrelieren in hohem Maße.
4.
Die Korrelation des Modalwerts zum auditiven Befund ist am größten.

Material und Methoden

Es wurden 109 aufeinander folgende Patienten untersucht. Davon waren 69 weiblich (17–79, Median 46 Jahre) und 40 männlich (12–80, Median 52 Jahre). Deren Aufnahmen von „Der Nordwind und die Sonne“ wurden mit Hilfe des Programms DiVAS und Praat analysiert. Die Grundfrequenz wurde ermittelt und die Wertepaare von Frequenz und Schallpegel in das Formular des Stimmumfangsprofils eingetragen. Für die mittlere Sprechstimmlage (MSL) wurden folgende Werte bestimmt: Medianwert, Modalwert bei Rundung der Momentanfrequenzen auf 1 Hz und 5 Hz, arithmetischer Mittelwert. Außerdem wurden die MSL der gleichen Stimmen auditiv von zwei Beurteilern bestimmt. Um eine optimale Vergleichbarkeit zu erzielen, wurden die Frequenzen der mittleren Sprechstimmlage den Halbtönen zugeordnet mit Subkontra C (16 Hz) als Ausgangspunkt, der als Halbton 0 bezeichnet wird.

Ergebnisse

Männer- und Frauenstimmen lassen sich signifikant voneinander trennen (Abbildung 1[Abb. 1]). Der Medianwert liegt bei den Männerstimmen bei c (132 Hz) und bei Frauenstimmen bei g (196 Hz).

Die Anwendung des arithmetischen Mittelwertes durch das Programm Praat, das als Referenz dient, wies nur geringe Fehlbestimmungen der Grundfrequenz auf und korreliert am besten mit dem Modalwert, der mit DiVAS ermittelt wurde. Ebenso ist die Korrelation des Medianwerts zum auditiven Befund ist am größten. Die Modalwerte korrelieren am geringsten sowohl mit Median- und arithmetischem Mittelwert als auch mit den auditiv bestimmten Werten (Tabelle 1 [Tab. 1]).

Der Vergleich der Mittelwerte der auditiv und der automatisch bestimmten MSL zeigt, dass im Mittel die auditive Tonhöhenbeurteilung signifikant zwei Halbtöne über der automatischen liegt (Abbildung 2 [Abb. 2]).

Diskussion und Schlussfolgerung

Die automatische Bestimmung der MSL ist zuverlässig und setzt keine speziellen Fähigkeiten des Untersuchers voraus. Sie kann aus einem aufgezeichneten Text ermittelt werden und stellt daher keinen zusätzlichen Zeitaufwand für die Diagnostik dar.

Die erste Hypothese, dass sich Frauen- von Männerstimmen signifikant trennen lassen, hat sich bestätigt. Die mittlere Sprechstimmlage der Männer liegt um c (132 Hz) herum höher und die der Frauen um g (196 Hz) herum etwas niedriger als angenommen.

Die zweite Hypothese, dass das arithmetische Mittel das Ergebnis der Bestimmung der MSL verzerrt, hat sich bei Anwendung des Programms Praat nicht bestätigt. Die Grundfrequenzbestimmung wies kaum Extremwerte auf. Bei präziser Bestimmung der Grundfrequenz ist das arithmetische Mittel ein realistischer Wert für die MSL. Da aber die Sprechstimme durch ihre große Variabilität sowohl in der Prosodie als auch durch die Einflüsse der Heiserkeit Schwierigkeiten bei der Analyse bereiten kann, sollte ein robusteres Maß genommen werden. Als brauchbare Methode hat sich in dieser Untersuchung die Bestimmung des Medianwertes aller ermittelten Momentanfrequenzen ergeben. Damit werden Fehlmessungen durch weniger genaue Analyseprogramme wie Praat weitgehend ausgeblendet. Die automatische Bestimmung von extrem heiseren Stimmen liefert Ergebnisse, die nicht plausibel sind und als Artefakte angesehen werden müssen. Auf eine auditive Kontrolle der Sprechstimme vor der Analyse kann deshalb nicht verzichtet werden.

Die dritte Hypothese, weist auf eine Beziehung zwischen Medianwert und Modalwert hin, die sich statistisch nicht so stark darstellt, wie die zu den auditiven Bewertungen. Sie wird deshalb abgelehnt.

Die Vermutung der vierten Hypothese, dass die am häufigsten auftretende Frequenz, der Modalwert, dem auditiven Eindruck stärker entspricht, hat sich nicht bestätigt. Der Modalwert ist, im Gegenteil, nicht optimal für die Bestimmung der MSL. Die Wahrnehmung bei der auditiven Bestimmung der mittleren Sprechstimmlage bei den für die Sprechstimme charakteristischen sehr schnell verlaufenden gleitenden Frequenzänderungen verläuft offenbar nach dem Muster einer Mittelung. Die signifikant um zwei Halbtöne höhere auditive Beurteilung spricht dafür, dass der Hörer die betonteren und damit meist lauteren und höheren stimmhaften Anteile der Sprechstimme stärker bewertet als die unbetonten, leiseren und tieferen.

Die Sprechstimme ist den Patienten im Gebrauch vertrauter als die Singstimme. Die Aufzeichnung des Stimmumfangs beim Lesen eines Textes ist einfach und kann unter standardisierten Bedingungen vorgenommen werden. Ausnahmen bilden Patienten die nicht lesen können, oder die die geforderte Sprache nicht beherrschen. Es ist allerdings kein Problem, den Text „Der Nordwind und die Sonne“ den Patienten in ihrer Muttersprache zur Verfügung zu stellen. Der Medianwert der MSL kann auch aus Aufzählungen bestimmt werden. Die klinische Relevanz dieses Parameters wird sich erst dann erweisen, wenn systematische Ergebnisuntersuchungen gemacht worden sind.