Article
Hinreichende Sprachsegmente zur Geschlechtsidentifikation von Sprechern
Search Medline for
Authors
Published: | September 5, 2013 |
---|
Outline
Zusammenfassung
Hintergrund: In bisherigen Untersuchungen zu den akustischen Parametern der menschlichen Stimme, die eine Geschlechtsdifferenzierung ermöglichen, wurde uneinheitliches Stimulusmaterial verwendet. Ziel der vorliegenden Studie war es daher, systematisch zu untersuchen, welche Segmentlänge erforderlich ist, um männliche und weibliche Sprecher anhand natürlicher Sprachproduktionen sicher zu unterscheiden.
Material und Methoden: Es wurden phonetisch ausgewogene Sätze von 6 Sprechern beider Geschlechter mit tiefer, mittlerer und hoher Sprechstimmlage aufgezeichnet, aus denen 174 Sprachsegmente (isolierte Vokale, CV-Segmente bestehend aus einem Plosiv und einem Vokal, 1-silbige Wörter, 3-silbige Wörter und Sätze) herausgeschnitten wurden, die nachfolgend 63 Ratern beiderlei Geschlechts präsentiert wurden. Diese wurden aufgefordert, das Sprechergeschlecht zu identifizieren und die subjektive Sicherheit dieses Urteils in einer 4-stufigen Rating-Skala anzugeben.
Ergebnisse: Die CV-Segmente wurden im Mittel in 2,9% der Fälle dem Gegengeschlecht zugeordnet und damit statistisch signifikant (p<0.05) seltener inkorrekt zugeordnet als isolierte Vokale und 1-silbige Wörter (jeweils 5,6% Fehlerrate). Bei der Zuordnung der Laute mit hoher männlicher Sprechstimmlage wurden die meisten Fehler begangen (18,7%). Für das weibliche Geschlecht war der Einfluss der Sprechstimmlage dagegen nicht statistisch signifikant. Die weiblichen Rater beurteilten die Sprachsegmente mit größerer subjektiver Sicherheit und begingen weniger Fehler (p<0.01). Die Artikulationsstelle des Plosivlauts und dessen Stimmhaftigkeit hatten keinen statistisch fassbaren Einfluss auf das Ratingverhalten der dichotomen Geschlechtszuweisung.
Diskussion: Bereits einzelne Silben ermöglichen eine korrekte und subjektiv sichere Geschlechtererkennung. Wir vermuten, dass bei einsilbigen Wörtern die semantische Information von der Aufgabe der Geschlechtererkennung ablenkt.
Text
Hintergrund
Es gibt bereits einige Untersuchungen zu den akustischen Parametern der menschlichen Stimme, die eine Geschlechtsdifferenzierung ermöglichen (u.a. [1], [2], [3]) Hier haben sich insbesondere die Grundfrequenz und die Formantfrequenzen als die entscheidenden Differenzierungskriterien herausgestellt. Allerdings wurde in den bisherigen Studien ein uneinheitliches Stimulusmaterial verwendet, teils einzelne Silben, teils ganze Worte oder Sätze sowie natürliche Sprachproduktionen oder synthetische Stimuli. Ziel der vorliegenden Untersuchungen war es daher, systematisch herauszuarbeiten, welche Segmentlänge erforderlich ist, um männliche und weibliche Sprecher anhand natürlicher Sprachproduktionen sicher zu unterscheiden. Es war des Weiteren unser Ziel, auf diese Weise geeignetes Stimulusmaterial für bildgebende Untersuchungen zu generieren. Denn im Gegensatz zu den zahlreichen Studien zur neuronalen Repräsentation von Sprachperzeption im menschlichen Gehirn (u.a. [4], [5], [6]) befinden sich die Untersuchungen bezüglich der anatomischen Strukturen, die in die paralinguistischen Aspekte der Stimmperzeption einbezogen sind, noch in den Anfängen.
Material und Methoden
Unter der Prämisse der Generierung eines möglichst realitätsnahen Untersuchungsdesigns wurden phonetisch ausgewogene Sätze von 6 Sprechern beider Geschlechter mit tiefer, mittlerer und hoher Sprechstimmlage aufgezeichnet, aus denen 174 Sprachsegmente (isolierte Vokale, CV-Segmente bestehend aus einem Plosiv und einem Vokal, 1-silbige Wörter, 3-silbige Wörter und Sätze) herausgeschnitten wurden, die entsprechend unverändert belassen und nicht weiter bearbeitet wurden. Die Sprachsegmente wurden in die 3 Kategorien hochgeschlechtsspezifisch (Sprecher mit tiefer, Sprecherin mit hoher Sprechstimmlage), geschlechtsspezifisch (Sprecher bzw. Sprecherin mit mittlerer Sprechstimmlage) und geschlechtsunspezifisch (Sprecher mit hoher, Sprecherin mit tiefer Sprechstimmlage) eingeteilt. Die Sprachproduktionen der 6 Sprecher wurden in randomisierter Reihenfolge angeordnet, um anschließend Audio-CDs als Grundlage für eine Perzeptionsstudie zu erstellen. Insgesamt bewerteten im Rahmen der Perzeptionsstudie 63 Rater die aufgezeichneten Sprachsegmente, die in ruhiger Umgebung über Kopfhörer dargeboten wurden. Diese Probanden wurden aufgefordert, das Sprechergeschlecht zu identifizieren und die subjektive Sicherheit dieses Urteils in einer 4-stufigen Rating-Skala anzugeben. Für diese beiden Ratings war nach jedem dargebotenen Sprachsegment ein Zeitraum von 6 Sekunden eingeräumt.
Ergebnisse
Die CV-Segmente wurden im Mittel in 2,9% der Fälle dem Gegengeschlecht zugeordnet und damit statistisch signifikant (p<0.05) seltener inkorrekt zugeordnet als isolierte Vokale und 1-silbige Wörter (jeweils 5,6% Fehlerrate). Bei der Zuordnung der Laute mit hoher männlicher Sprechstimmlage (geschlechtsunspezifisch) wurden die meisten Fehler begangen (18,7%). Für das weibliche Geschlecht war der Einfluss der Sprechstimmlage dagegen nicht statistisch signifikant. Die weiblichen Rater beurteilten die Sprachsegmente mit größerer subjektiver Sicherheit und begingen weniger Fehler (p<0.01). Die Artikulationsstelle des Plosivlauts und dessen Stimmhaftigkeit hatten keinen statistisch fassbaren Einfluss auf das Ratingverhalten der dichotomen Geschlechtszuweisung.
Diskussion
Wir kamen zu dem Schluss, dass bereits einzelne Silben eine korrekte und subjektiv sichere Geschlechtererkennung ermöglichen. Da die einsilbigen CV-Segmente häufiger korrekt und mit größerer subjektiver Sicherheit zugeordnet wurden als die Vokale, gehen wir davon aus, dass neben der Grundfrequenz die Formantfrequenzen einen signifikanten Einfluss auf die Möglichkeit einer Geschlechtsdifferenzierung haben. Wir vermuten weiterhin, dass bei einsilbigen Wörtern die semantische Information von der Aufgabe der Geschlechtererkennung ablenkt, da die CV-Segmente häufiger korrekt zugeordnet wurden als einsilbige Worte.
Fazit
Wir empfehlen, im Rahmen von Untersuchungen zu den anatomischen Strukturen, die in die paralinguistischen Aspekte der Stimmperzeption einbezogen sind, sinnfreie einsilbige Sprachproduktionen zu verwenden, da diese eine Geschlechtsdifferenzierung ermöglichen und gleichzeitig relevante Distraktoren wie Semantik und Assoziationen ausgeschlossen sein sollten. Weiterhin sollten Sprachproduktionen mit für das jeweilige Geschlecht spezifischer Grundfrequenz verwendet werden.
Literatur
- 1.
- Bachorowski JA, Owren MJ. Acoustic correlates of talker sex and individual talker identity are present in a short vowel segment produced in running speech. J Acoust Soc Am. 1999 Aug;106(2):1054-63.
- 2.
- Gelfer MP, Mikos VA. The relative contributions of speaking fundamental frequency and formant frequencies to gender identification based on isolated vowels. J Voice. 2005 Dec;19(4):544-54. DOI: 10.1016/j.jvoice.2004.10.006
- 3.
- Lass NJ, Hughes KR, Bowyer MD, Waters LT, Bourne VT. Speaker sex identification from voiced, whispered, and filtered isolated vowels. J Acoust Soc Am. 1976 Mar;59(3):675-8.
- 4.
- Belin P, Zatorre RJ, Ahad P. Human temporal-lobe response to vocal sounds. Brain Res Cogn Brain Res. 2002 Feb;13(1):17-26.
- 5.
- Binder JR, Frost JA, Hammeke TA, Bellgowan PS, Springer JA, Kaufman JN, Possing ET. Human temporal lobe activation by speech and nonspeech sounds. Cereb Cortex. 2000 May;10(5):512-28.
- 6.
- Démonet JF, Chollet F, Ramsay S, Cardebat D, Nespoulous JL, Wise R, Rascol A, Frackowiak R. The anatomy of phonological and semantic processing in normal subjects. Brain. 1992 Dec;115 (Pt 6):1753-68.