gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Sasaya: Eine Software für die automatische Offline-Transkription qualitativer Interviews

Meeting Abstract

Suche in Medline nach

  • Patrick Brzoska - Universität Witten/Herdecke, Fakultät für Gesundheit (Department für Humanmedizin), Lehrstuhl für Versorgungsforschung, Witten, Germany
  • Yüce Yilmaz-Aslan - Universität Witten/Herdecke, Fakultät für Gesundheit (Department für Humanmedizin), Lehrstuhl für Versorgungsforschung, Witten, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 466

doi: 10.3205/24gmds390, urn:nbn:de:0183-24gmds3902

Veröffentlicht: 6. September 2024

© 2024 Brzoska et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: In der qualitativen Forschung spielen Transkriptionen eine entscheidende Rolle für die Analyse von Interviewdaten [1]. Die manuelle Transkription ist allerdings oft sehr zeitaufwändig und verlangsamt den Forschungsprozess [2]. KI-gestützte Softwarelösungen wie OpenAI Whisper stellen vor diesem Hintergrund ein vielversprechendes Hilfsmittel dar [3]. OpenAI Whisper ist ein quelloffenes Spracherkennungssystem mit hoher Genauigkeit bei der Transkription von Audiodaten in unterschiedlichen Sprachen und Kontexten. Die Einrichtung von OpenAI Whisper und seine Integration in den Arbeitsablauf der qualitativen Forschung können jedoch eine Herausforderung darstellen, da sie u.a. grundlegende Programmierkenntnisse erfordern. In diesem Beitrag stellen wir Sasaya vor, eine selbst entwickelte GUI-basierte Freeware für Windows und MacOS zur Transkription von Audio- und Videodateien, die eine Implementierung von OpenAI Whisper zur Verfügung stellt, welche ohne weitere Installation, portabel und ohne Administratorrechte genutzt werden kann sowie auf die Nutzung auf typischer (leistungsschwacher) Büro-Hardware optimiert ist. Die Transkription mittels Sasaya wird zudem lokal und offline auf dem Gerät des/der Nutzer/in durchgeführt, was vor allem unter Datenschutzgesichtspunkten einen Vorteil gegenüber onlinebasierten Lösungen darstellt. Anhand zweier Beispielinterviews veranschaulichen wir die Funktionalität und Performanz der Software.

Methode: Die Nutzung wird unter Verwendung unterschiedlicher OpenAI-Whisper-Sprachmodelle anhand eines ca. 33-minütigen englischsprachigen Radio-Interviews sowie eines ca. 51-minütigen deutschsprachigen leitfadenbasierten qualitativen Interviews illustriert. Die Performanz wird im Hinblick auf die Genauigkeit sowie Geschwindigkeit der Transkription untersucht; letztere wird als Quotient aus der Dauer der Transkription und der Interviewlänge ermittelt.

Ergebnisse: Wie erwartet, dauert die Transkription umso länger, je größer das genutzte Sprachmodell ist, wobei das kleinere Modell etwa eine viermal so schnelle Transkription wie das große Modell ermöglicht. Auf einem Apple MacBook Air (M1, 16 GB RAM, 2020) dauert die Transkription mit dem mittleren Modell etwa so lange wie die Audiowiedergabe in Echtzeit. Bei einem Lenovo Thinkpad X280 (i7, 16 GB RAM, 2018) dauert sie geringfügig länger. Für das große Sprachmodell entspricht die Transkriptionszeit ca. der doppelten Interviewlänge. Die Genauigkeit der Transkription unterscheidet sich zwischen den Modellen und vor allem das mittlere und das große Modell schneiden gut ab. Je nach Qualität und Sprache der Audiodatei liefert das große Modell manchmal bessere Ergebnisse als das mittlere Modell, manchmal ist aber auch das Gegenteil der Fall ist.

Diskussion: Sasaya ermöglicht es Nutzer/innen, KI-gesteuerte Transkriptionen sehr niedrigschwellig in den eigenen Forschungsprozess zu integrieren. Die Optimierung für Standard-Hardware ermöglicht einen unproblematischen Einsatz in vielfältigen Forschungs- und Lehrumgebungen, wovon sowohl Forschende als auch Studierende profitieren können. Wie andere Implementierungen ist auch Sasaya durch die Einschränkungen von KI-basierten Spracherkennungssystemen begrenzt, wie z.B. mögliche Halluzinationen, geringere Genauigkeit in bestimmten Sprachen sowie Schwierigkeiten bei der Spracherkennung von sich überlappenden Audioinhalten oder Audiosegmenten in geringer Qualität.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Kowal S, O'Connell DC. Transcription as a crucial step of data analysis. The SAGE handbook of qualitative data analysis. 2014. p. 64-79.
2.
Jones R. Data collection and transcription in discourse analysis: A technological history. The Bloomsbury Handbook of Discourse Analysis. 2021. p. 9.
3.
Abram MD, Mancini KT, Parker RD. Methods to integrate natural language processing into qualitative research. International Journal of Qualitative Methods. 2020;19:1609406920984608.