gms | German Medical Science

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

28.09. - 01.10.2023, Köln

Parameterbasierte Stimmanalyse zur Geschlechtszuordnung – der TransVoiceAnalyser

Vortrag

  • corresponding author presenting/speaker Lennart Heinrich Pieper - Charité – Universitätsmedizin Berlin, Freie Universität Berlin und Humboldt-Universität zu Berlin, Klinik für Audiologie und Phoniatrie, Berlin, Deutschland
  • Leon Liebig - Institut für Akustik und Sprachkommunikation, Technische Universität Dresden, Dresden, Deutschland
  • author Mario Fleischer - Charité – Universitätsmedizin Berlin, Freie Universität Berlin und Humboldt-Universität zu Berlin, Klinik für Audiologie und Phoniatrie, Berlin, Deutschland
  • author Dirk Mürbe - Charité – Universitätsmedizin Berlin, Freie Universität Berlin und Humboldt-Universität zu Berlin, Klinik für Audiologie und Phoniatrie, Berlin, Deutschland
  • author Alexander Mainka - Charité – Universitätsmedizin Berlin, Freie Universität Berlin und Humboldt-Universität zu Berlin, Klinik für Audiologie und Phoniatrie, Berlin, Deutschland

39. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Köln, 28.09.-01.10.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV31

doi: 10.3205/23dgpp55, urn:nbn:de:0183-23dgpp558

Veröffentlicht: 20. September 2023

© 2023 Pieper et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Die Stimme ist ein wichtiges Merkmal der Identität. Somit nimmt auch die Stimmangleichung eine zentrale Rolle im Rahmen der Transition bei Trans* Personen ein. Eine Stimmanalysesoftware, die in der Lage ist die Stimmen von Trans* Personen automatisiert in männliche oder weibliche Kategorien einzuteilen hilft, den Stimmtherapie- und Behandlungsverlauf während der Transition möglichst objektiv bewerten zu können. Ziel unserer Arbeit war es, eine solche Software zu entwickeln und sie einer breiten Nutzerschaft zugänglich zu machen.

Material und Methoden: 89 Stimmaufnahmen von insgesamt 35 cis-Frauen, 36 cis-Männern sowie 18 Trans* Frauen wurden analysiert. Dabei wurden verschiedene akustische Merkmale der Stimme (Grundfrequenz f0, Standardabweichung der Grundfrequenz, harmonic-to-noise ratio (HNR), spektraler Slope und Tilt, cepstral peak prominence-smoothed (CPPS), Jitter, Shimmer, Frequency of Half Energy (FHE) und Spectral Centroid) vollautomatisch extrahiert.

Im Rahmen eines Hörexperiments wurden die Stimmaufnahmen zusätzlich von 28 Laien und 14 sachkundigen Personen hinsichtlich ihrer Geschlechterzuordnung auf einer 6-Punkte Likert-Skala bewertet, um den Zusammenhang zwischen den akustischen Merkmalen und der geschlechtsspezifischen Wahrnehmung der Stimme zu untersuchen. Nach Überprüfung der Reliabilität der Bewertungen führten wir eine Ordered-Logistic-Regression (OLR) durch, um den Zusammenhang zwischen den akustischen Merkmalen und der geschlechtsspezifischen Wahrnehmung der Stimme zu modellieren.

Ergebnisse: Nach Ausschluss stark korrelierender akustischer Parameter (Standardabweichung der Grundfrequenz, Jitter, Shimmer und Spectral Centroid) zeigten f0 und CPPS den größten Einfluss auf die Ergebnisgüte. Eine hohe prädiktive Genauigkeit wurde durch sukzessives Training des Modells nachgewiesen. Anhand der ermittelten Ergebnisse konnte mittels OLR der „TransVoiceAnalyzer“ als interaktives Programms zur automatisierten Bewertung der Stimme entwickelt werden, das als Web-App verfügbar ist.

Diskussion: Das entwickelte Programm erlaubt eine automatisierte, objektive, geschlechtsspezifische Bewertung der Stimme. Die Integration weiterer Stimmaufnahmen transidentitärer Personen in das Training der Software würde die Vorhersagegenauigkeit und Robustheit weiter steigern.

Fazit: Der „TransVoiceAnalyzer“ kann im Prozess der Stimmtransition ergänzend eingesetzt werden, um Therapie- bzw. Behandlungsverlauf zu monitoren.


Text

Hintergrund

Die Stimme ist ein wichtiges Merkmal der Identität und erlaubt als sekundäres Geschlechtsmerkmal eine audioperzeptive Geschlechtszuordnung. Somit nimmt auch die Stimmangleichung eine zentrale Rolle im Rahmen der Transition bei transidenten Personen ein.

Während die mittlere Sprechstimmlage (F0) bei Frauen bei 170 Hz angegeben wird, liegt sie bei Männern mit circa 110 Hz etwa eine Quinte tiefer [1]. Die Grundfrequenz scheint dabei den größten Einfluss auf die audioperzeptive Zuordnung der Stimme zu einem Geschlecht zu haben, kann jedoch alleine nur 46,1% der Varianz erklären [2], [3]. Eine Grundfrequenzerhöhung auf 155 oder 160 Hz sollte erreicht werden, damit trans* Frauen audioperzeptiv weiblich gelesen werden [4], [5].

Neben der mittleren Sprechstimmlage identifizierten Leung et al. vier weitere hauptausschlaggebende Parameter für die audioperzeptive Geschlechtszuordnung: Resonanz, Lautstärke, Artikulation und Intonation [3]. Auch die Behauchtheit der Stimme und der Stimmeinsatz (engl. harsh voice) scheinen von Bedeutung zu sein [6], [7], [8], [9], [10]. In einer Analyse von Stimmcharakteristika zwischen trans* Frauen und Cis-Frauen zeigten Menezes et al. folgende Unterschiede mit Auswirkung auf die audioperzeptive Geschlechtszuordnung auf: mittlere Sprechstimmlage, Laustärke, glottales Rauschen (engl. glottal noise excitation (GNE)), Sprechstimmprofil, die ersten drei Formanten für den Vokal /a/ sowie emotionale Prosodie [11]. Keine Unterschiede zwischen trans* und Cis-Frauen hingegen fanden van Borsel et al. hinsichtlich des Sprechtempos [12].

Ziel unserer Arbeit war es, eine Stimmanalyse-Software zu entwickeln, die in der Lage ist, die Stimmen von Personen anhand mehrerer Stimmparameter automatisiert in männliche oder weibliche Kategorien einzuteilen und somit dabei helfen könnte, den Stimmtherapie- und Behandlungsverlauf, z.B. während der Transition bei transidenten Personen, möglichst objektiv zu begleiten.

Material und Methoden

Stimmaufnahmen von 89 Proband:innen wurden in der Studie analysiert. Alle Proband:innen waren aufgefordert, den phonologisch ausgeglichenen Standardtext „Der Nordwind und die Sonne“ unter standardisierten Aufnahmebedingungen vorzulesen. Im Anschluss wurden bei allen Proband:innen zwei isolierte Sätze der Stimmaufnahme ausgewählt und ausgewertet. Stimmaufnahmen von insgesamt 35 cis-Frauen, 36 cis-Männern sowie 18 trans* Frauen wurden hinsichtlich folgender akustischer Merkmale der Stimme analysiert, die vollautomatisch extrahiert wurden: Grundfrequenz f0, Standardabweichung der Grundfrequenz, harmonic-to-noise ratio (HNR), spektraler Slope und Tilt, cepstral peak prominence-smoothed (CPPS), Jitter, Shimmer, Frequency of Half Energy (FHE) und spectral centroid (SC).

In einem weiteren Schritt wurde ein Hörexperiment in PRAAT durchgeführt. Im Rahmen des Hörexperiments wurden die im Durchschnitt ca. 19 Sekunden langen Stimmaufnahmen von 28 Laien und 14 sachkundigen Personen hinsichtlich ihrer Geschlechterzuordnung auf einer symmetrischen und ausgewogenen 6-Punkte Likert-Skala bewertet. Dabei stand der Skalenwert 1 für weiblich und der Skalenwert 6 für männlich. Die Stimmaufnahmen wurden dem Rater in wechselnder Reihenfolge vorgespielt, wobei jede Stimmaufnahme von jedem einzelnen Rater zweimal bewertet wurde.

Anhand der erhobenen Daten aus Stimmanalyse und Hörexperiment wurde anschließend der Zusammenhang zwischen den akustischen Merkmalen und der geschlechtsspezifischen Wahrnehmung der Stimme untersucht. Nach Ausschluss stark korrelierender akustischer Parameter konnten die Parameter mit der größten Ergebnisgüte extrahiert werden. Anschließend wurde eine Ordered-Logistic-Regression (OLR) durchgeführt, um den Zusammenhang zwischen den akustischen Merkmalen und der geschlechtsspezifischen Wahrnehmung der Stimme zu modellieren.

Ergebnisse

Nach Korrelationsanalyse der akustischen Daten der Datenbasis und Eliminierung von Korrelationen <0.6 zeigte sich, dass nur f0, HNR, CPPS, Spectral Tilt & Slope sowie FHE zur weiteren Auswertung genutzt werden können. Es konnte zudem gezeigte werden, dass der Grad der Professionalität des Raters keinen statistisch signifikanten Einfluss hat sowie eine Wiederholbarkeit der Bewertung gewährleistet werden kann (Wilcoxon r=0.14).

Das OLR-Modell liefert eine diskrete Verteilung über die zu erwartende Geschlechtszuordnung durch eine Zuhörerschaft auf Grundlage der verwendeten Likert-Scale (Abbildung 1 [Abb. 1]). Eine hohe prädiktive Genauigkeit wurde durch multiples Training des Modells nachgewiesen. Die Genauigkeit der Prädiktion der OLR-Modellierung liegt bei (maximale Abweichung 2 Punktwerte auf der Likert-Skala) >80 %. Anhand der ermittelten Ergebnisse konnte mittels OLR der „TransVoiceAnalyzer“ als interaktives Programm zur automatisierten Bewertung der Stimme entwickelt werden, das als Web-App verfügbar ist und in das nun weitere Stimmaufnahmen eingebracht und analysiert werden können.

Diskussion

Das entwickelte Programm erlaubt eine automatisierte Bewertung des Feminisierungsgrades der Stimme. Die Unabhängigkeit des Modells von der Professionalität des Raters unterstreicht zudem die Möglichkeit neu eingebrachte Daten durch das Modell reliabel bewerten zu lassen. Für die Analyse durch den „TransVoiceAnalyzer“ sollten Audiodateien verwendet werden, die unter entsprechend standardisierten Bedingungen erhoben wurden, wie sie auch im Rahmen der Studie galten. Zudem sollte das Audiofile ebenfalls auf einen vordefinierten Audioabschnitt („Der Nordwind blies mit aller Macht...“ bis „...zog der Wanderer seinen Mantel aus.“) gekürzt und auf möglichst flüssiges Sprechen und mögliche Störgeräusche hin vorab überprüft werden (z.B. Räuspern, Husten etc.). Die Integration weiterer Stimmaufnahmen transidenten Personen in das Training der Software ist wünschenswert und würde die Vorhersagegenauigkeit und Robustheit weiter steigern.

Fazit

Der „TransVoiceAnalyzer“ kann im Prozess der Stimmtransition ergänzend eingesetzt werden, um Therapie- bzw. Behandlungsverlauf zu monitoren. Zudem lässt sich die Wahrscheinlichkeit eines erfolgreichen Passings bzw. der dafür notwendige weitere Therapiebedarf ableiten.


Literatur

1.
Berg M, Fuchs M, Wirkner K, Loeffler M, Engel C, Berger T. The speaking voice in the general population: Normative data and associations to sociodemographic and lifestyle factors. Journal of Voice. 2017;31(2):257.e13-.e24.
2.
Gelfer MP, Mikos VA. The relative contributions of speaking fundamental frequency and formant frequencies to gender identification based on isolated vowels. Journal of Voice. 2005;19(4):544-54.
3.
Leung Y, Oates J, Chan SP. Voice, articulation, and prosody contribute to listener perceptions of speaker gender: A systematic review and meta-analysis. Journal of Speech, Language, and Hearing Research. 2018;61(2):266-97.
4.
Wolfe VI, Ratusnik DL, Smith FH, Northrop G. Intonation and fundamental frequency in male-to-female transsexuals. Journal of Speech and Hearing Disorders. 1990;55(1):43-50.
5.
Spencer LE. Speech characteristics of male-to-female transsexuals: a perceptual and acoustic study. Folia Phoniatrica. 1988;40(1):31-42.
6.
Van Borsel J, Janssens J, De Bodt M. Breathiness as a feminine voice characteristic: A perceptual approach. Journal of Voice. 2009;23(3):291-4.
7.
Klatt DH, Klatt LC. Analysis, synthesis, and perception of voice quality variations among female and male talkers. Journal of the Acoustical Society of America. 1990;87(2):820-57.
8.
Biemans M. Gender Variation in Voice Quality. Utrecht: LOT Publications; 2000.
9.
Leung Y, Oates J, Chan SP, Papp V. Associations between speaking fundamental frequency, vowel formant frequencies, and listener perceptions of speaker gender and vocal femininity–masculinity. Journal of Speech, Language, and Hearing Research. 2021;64(7):2600-22.
10.
Hillenbrand JM, Clark MJ. The role of f 0 and formant frequencies in distinguishing the voices of men and women. Attention, Perception, & Psychophysics. 2009;71:1150-66.
11.
Menezes DP, de Lira ZS, de Araújo ANB, de Almeida AAF, Gomes AdOC, Moraes BT, et al. Prosodic Differences in the Voices of Transgender and Cisgender Women: Self-Perception of Voice - An Auditory and Acoustic Analysis. Journal of Voice. 2022. pii: S0892-1997(21)00449-5.
12.
Van Borsel J, De Maesschalck D. Speech rate in males, females, and male-to-female transsexuals. Clinical Linguistics & Phonetics. 2008;22(9):679-85.