gms | German Medical Science

30. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

20.09. - 22.09.2013, Bochum

Hinreichende Sprachsegmente zur Geschlechtsidentifikation von Sprechern

Vortrag

  • corresponding author presenting/speaker Michael Lehmann - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen, Universitätsklinikum und Medizinische Fakultät der RWTH Aachen University, Aachen, Deutschland
  • author Klaus Willmes - Lehr- und Forschungsgebiet Neuropsychologie an der Neurologischen Klinik, Universitätsklinikum und Medizinische Fakultät der RWTH Aachen University, Aachen, Deutschland
  • author Bernhard Lehnert - Klinik und Poliklinik für Hals-, Nasen-, Ohrenkrankheiten, Kopf- und Halschirurgie, Universitätsmedizin Greifswald, Greifswald, Deutschland
  • author Christiane Neuschaefer-Rube - Klinik für Phoniatrie, Pädaudiologie und Kommunikationsstörungen, Universitätsklinikum und Medizinische Fakultät der RWTH Aachen University, Aachen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 30. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Bochum, 20.-22.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocV16

doi: 10.3205/13dgpp39, urn:nbn:de:0183-13dgpp394

Published: September 5, 2013

© 2013 Lehmann et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: In bisherigen Untersuchungen zu den akustischen Parametern der menschlichen Stimme, die eine Geschlechtsdifferenzierung ermöglichen, wurde uneinheitliches Stimulusmaterial verwendet. Ziel der vorliegenden Studie war es daher, systematisch zu untersuchen, welche Segmentlänge erforderlich ist, um männliche und weibliche Sprecher anhand natürlicher Sprachproduktionen sicher zu unterscheiden.

Material und Methoden: Es wurden phonetisch ausgewogene Sätze von 6 Sprechern beider Geschlechter mit tiefer, mittlerer und hoher Sprechstimmlage aufgezeichnet, aus denen 174 Sprachsegmente (isolierte Vokale, CV-Segmente bestehend aus einem Plosiv und einem Vokal, 1-silbige Wörter, 3-silbige Wörter und Sätze) herausgeschnitten wurden, die nachfolgend 63 Ratern beiderlei Geschlechts präsentiert wurden. Diese wurden aufgefordert, das Sprechergeschlecht zu identifizieren und die subjektive Sicherheit dieses Urteils in einer 4-stufigen Rating-Skala anzugeben.

Ergebnisse: Die CV-Segmente wurden im Mittel in 2,9% der Fälle dem Gegengeschlecht zugeordnet und damit statistisch signifikant (p<0.05) seltener inkorrekt zugeordnet als isolierte Vokale und 1-silbige Wörter (jeweils 5,6% Fehlerrate). Bei der Zuordnung der Laute mit hoher männlicher Sprechstimmlage wurden die meisten Fehler begangen (18,7%). Für das weibliche Geschlecht war der Einfluss der Sprechstimmlage dagegen nicht statistisch signifikant. Die weiblichen Rater beurteilten die Sprachsegmente mit größerer subjektiver Sicherheit und begingen weniger Fehler (p<0.01). Die Artikulationsstelle des Plosivlauts und dessen Stimmhaftigkeit hatten keinen statistisch fassbaren Einfluss auf das Ratingverhalten der dichotomen Geschlechtszuweisung.

Diskussion: Bereits einzelne Silben ermöglichen eine korrekte und subjektiv sichere Geschlechtererkennung. Wir vermuten, dass bei einsilbigen Wörtern die semantische Information von der Aufgabe der Geschlechtererkennung ablenkt.


Text

Hintergrund

Es gibt bereits einige Untersuchungen zu den akustischen Parametern der menschlichen Stimme, die eine Geschlechtsdifferenzierung ermöglichen (u.a. [1], [2], [3]) Hier haben sich insbesondere die Grundfrequenz und die Formantfrequenzen als die entscheidenden Differenzierungskriterien herausgestellt. Allerdings wurde in den bisherigen Studien ein uneinheitliches Stimulusmaterial verwendet, teils einzelne Silben, teils ganze Worte oder Sätze sowie natürliche Sprachproduktionen oder synthetische Stimuli. Ziel der vorliegenden Untersuchungen war es daher, systematisch herauszuarbeiten, welche Segmentlänge erforderlich ist, um männliche und weibliche Sprecher anhand natürlicher Sprachproduktionen sicher zu unterscheiden. Es war des Weiteren unser Ziel, auf diese Weise geeignetes Stimulusmaterial für bildgebende Untersuchungen zu generieren. Denn im Gegensatz zu den zahlreichen Studien zur neuronalen Repräsentation von Sprachperzeption im menschlichen Gehirn (u.a. [4], [5], [6]) befinden sich die Untersuchungen bezüglich der anatomischen Strukturen, die in die paralinguistischen Aspekte der Stimmperzeption einbezogen sind, noch in den Anfängen.

Material und Methoden

Unter der Prämisse der Generierung eines möglichst realitätsnahen Untersuchungsdesigns wurden phonetisch ausgewogene Sätze von 6 Sprechern beider Geschlechter mit tiefer, mittlerer und hoher Sprechstimmlage aufgezeichnet, aus denen 174 Sprachsegmente (isolierte Vokale, CV-Segmente bestehend aus einem Plosiv und einem Vokal, 1-silbige Wörter, 3-silbige Wörter und Sätze) herausgeschnitten wurden, die entsprechend unverändert belassen und nicht weiter bearbeitet wurden. Die Sprachsegmente wurden in die 3 Kategorien hochgeschlechtsspezifisch (Sprecher mit tiefer, Sprecherin mit hoher Sprechstimmlage), geschlechtsspezifisch (Sprecher bzw. Sprecherin mit mittlerer Sprechstimmlage) und geschlechtsunspezifisch (Sprecher mit hoher, Sprecherin mit tiefer Sprechstimmlage) eingeteilt. Die Sprachproduktionen der 6 Sprecher wurden in randomisierter Reihenfolge angeordnet, um anschließend Audio-CDs als Grundlage für eine Perzeptionsstudie zu erstellen. Insgesamt bewerteten im Rahmen der Perzeptionsstudie 63 Rater die aufgezeichneten Sprachsegmente, die in ruhiger Umgebung über Kopfhörer dargeboten wurden. Diese Probanden wurden aufgefordert, das Sprechergeschlecht zu identifizieren und die subjektive Sicherheit dieses Urteils in einer 4-stufigen Rating-Skala anzugeben. Für diese beiden Ratings war nach jedem dargebotenen Sprachsegment ein Zeitraum von 6 Sekunden eingeräumt.

Ergebnisse

Die CV-Segmente wurden im Mittel in 2,9% der Fälle dem Gegengeschlecht zugeordnet und damit statistisch signifikant (p<0.05) seltener inkorrekt zugeordnet als isolierte Vokale und 1-silbige Wörter (jeweils 5,6% Fehlerrate). Bei der Zuordnung der Laute mit hoher männlicher Sprechstimmlage (geschlechtsunspezifisch) wurden die meisten Fehler begangen (18,7%). Für das weibliche Geschlecht war der Einfluss der Sprechstimmlage dagegen nicht statistisch signifikant. Die weiblichen Rater beurteilten die Sprachsegmente mit größerer subjektiver Sicherheit und begingen weniger Fehler (p<0.01). Die Artikulationsstelle des Plosivlauts und dessen Stimmhaftigkeit hatten keinen statistisch fassbaren Einfluss auf das Ratingverhalten der dichotomen Geschlechtszuweisung.

Diskussion

Wir kamen zu dem Schluss, dass bereits einzelne Silben eine korrekte und subjektiv sichere Geschlechtererkennung ermöglichen. Da die einsilbigen CV-Segmente häufiger korrekt und mit größerer subjektiver Sicherheit zugeordnet wurden als die Vokale, gehen wir davon aus, dass neben der Grundfrequenz die Formantfrequenzen einen signifikanten Einfluss auf die Möglichkeit einer Geschlechtsdifferenzierung haben. Wir vermuten weiterhin, dass bei einsilbigen Wörtern die semantische Information von der Aufgabe der Geschlechtererkennung ablenkt, da die CV-Segmente häufiger korrekt zugeordnet wurden als einsilbige Worte.

Fazit

Wir empfehlen, im Rahmen von Untersuchungen zu den anatomischen Strukturen, die in die paralinguistischen Aspekte der Stimmperzeption einbezogen sind, sinnfreie einsilbige Sprachproduktionen zu verwenden, da diese eine Geschlechtsdifferenzierung ermöglichen und gleichzeitig relevante Distraktoren wie Semantik und Assoziationen ausgeschlossen sein sollten. Weiterhin sollten Sprachproduktionen mit für das jeweilige Geschlecht spezifischer Grundfrequenz verwendet werden.


Literatur

1.
Bachorowski JA, Owren MJ. Acoustic correlates of talker sex and individual talker identity are present in a short vowel segment produced in running speech. J Acoust Soc Am. 1999 Aug;106(2):1054-63.
2.
Gelfer MP, Mikos VA. The relative contributions of speaking fundamental frequency and formant frequencies to gender identification based on isolated vowels. J Voice. 2005 Dec;19(4):544-54. DOI: 10.1016/j.jvoice.2004.10.006 External link
3.
Lass NJ, Hughes KR, Bowyer MD, Waters LT, Bourne VT. Speaker sex identification from voiced, whispered, and filtered isolated vowels. J Acoust Soc Am. 1976 Mar;59(3):675-8.
4.
Belin P, Zatorre RJ, Ahad P. Human temporal-lobe response to vocal sounds. Brain Res Cogn Brain Res. 2002 Feb;13(1):17-26.
5.
Binder JR, Frost JA, Hammeke TA, Bellgowan PS, Springer JA, Kaufman JN, Possing ET. Human temporal lobe activation by speech and nonspeech sounds. Cereb Cortex. 2000 May;10(5):512-28.
6.
Démonet JF, Chollet F, Ramsay S, Cardebat D, Nespoulous JL, Wise R, Rascol A, Frackowiak R. The anatomy of phonological and semantic processing in normal subjects. Brain. 1992 Dec;115 (Pt 6):1753-68.