gms | German Medical Science

40. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12.09. - 15.09.2024, Berlin

Generative Künstliche Intelligenz in der logopädischen Therapie

Vortrag

Suche in Medline nach

  • author presenting/speaker Magdalena Forster - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • corresponding author Andreas M. Kist - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland

40. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Berlin, 12.-15.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocV10

doi: 10.3205/24dgpp11, urn:nbn:de:0183-24dgpp112

Veröffentlicht: 20. August 2024

© 2024 Forster et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Zusammenfassung

Hintergrund: Im Rahmen einer explorativen Studie wurde die Eignung einer generativen künstlichen Intelligenz zur Materialerstellung für die logopädische Therapie überprüft. Dies wurde anhand einer exemplarischen Aufgabe zur Bildauswahl nach sprachlicher Vorgabe aus der Therapie von Sprachverständnisstörungen untersucht. Die Qualität der Ergebnisse sollte durch Fachpersonal verifiziert werden. Sowohl sprachliches als auch grafisch darstellendes Material wurde mit ChatGPT und DALL-E 3 generiert.

Material und Methoden: Mittels Prompt-Engineering wurde die automatische Generierung von Sätzen und die Variation der Satzglieder nach vorgegebenen Regeln durch ChatGPT untersucht. Als grammatikalische Vorlage wurde eine Subjekt-Prädikat-Objekt-Struktur gewählt. Auf Basis dieser Sätze wurde passendes Bildmaterial in einem fotorealistischen und einem schlichten Line-Art-Stil mit DALL-E 3 generiert. In einer Probandenstudie wurden die erstellten Materialien von sprachgesundem Fachpersonal qualitativ und quantitativ eingeordnet und auf die Stärke des inhaltlichen Kontrasts hin bewertet.

Ergebnisse: Trotz inhaltlicher Vorauswahl des sprachlichen Materials hinsichtlich der voraussichtlichen Abbildbarkeit zeigte sich eine große qualitative Varianz in der grafischen Umsetzung. Von Probanden wurde der inhaltliche Kontrast im Durchschnitt mit 2,92 (Likert-Skala 1 bis 5, nicht bis vollkommen eindeutig) bewertet, wobei bei den einzelnen Sets ein Höchstwert von 3,97 und ein Tiefstwert von 1,84 erzielt wurde. Traditionelles Vergleichsmaterial wurde durchschnittlich mit 4,02 beurteilt.

Diskussion: Der Aufwand für die Gestaltung des Prompts war für annähernd adäquate Ergebnisse unverhältnismäßig hoch. Linguistische Besonderheiten der deutschen Sprache sowie sprachliche Kontraste wurden teilweise kaum beachtet, da die generative KI intern die meist geschlechtlich neutrale Sprache Englisch verwendet. Kompositionen waren meist nicht eindeutig einem Satz zuzuordnen. Ebenso bestätigten fehlerhafte grafische Darstellungen die unbedingt erforderliche Kontrolle der Materialien durch sprachtherapeutisches Fachpersonal. In Ausnahmefällen konnte das KI-generierte Material mit traditionellem konkurrieren.

Fazit: Die Nutzung einer generativen KI zur Materialerstellung in der logopädischen Therapie ist zum aktuellen Zeitpunkt für die exemplarisch gewählte Aufgabenstellung für eine vollautomatische Generierung als bedingt effektiv zu bewerten und erfordert weitere Forschung zum Eingabeformat sowie der Eindeutigkeit generativer künstlicher Intelligenz.


Text

Hintergrund

Im Rahmen einer explorativen Studie wurde die Eignung einer generativen künstlichen Intelligenz (KI) zur Materialerstellung für die logopädische Therapie überprüft. Hierfür wurde exemplarisch ein rezeptives Aufgabenformat zur Bildauswahl nach auditiver Vorgabe auf Satzebene mit inhaltlichen abweichenden Ablenkerbildern gewählt. Die Erstellung des nötigen sprachlichen Materials, sowie passender grafischer Darstellungen sollte mit Hilfe der KIs ChatGPT und DALL-E 3 umgesetzt werden.

Die generierten Materialien sollten abschließend mithilfe einer Probandenstudie unter Auszubildenden und Studierenden der Logopädie, sowie staatlich anerkannten Logopäden qualitativ und quantitativ eingeordnet und auf die Stärke des inhaltlichen Kontrasts hin bewertet werden.

Material und Methoden

Zunächst wurde eine initiale Arbeitsanweisung (engl.: Prompt) für die KI zur selbstständigen Generierung von Sätzen in einer Subjekt-Prädikat-Objekt Struktur (SPO) und automatischen Variation der Satzglieder nach vorgegebenen Regeln erarbeitet. Diese wurde anhand der Qualität der erhaltenen Ergebnisse stetig verfeinert (engl.: Prompt Engineering) bis die Ergebnisse den vorher festgelegten Vorgaben zu inhaltlicher und grammatikalischer Korrektheit entsprachen. Mit dem gleichen Vorgehen wurden Prompts für eine optisch möglichst einheitliche und inhaltlich schlüssige Darstellung von Ziel- und Ablenkersätzen erarbeitet. Auf Basis dieser Sätze wurden ebenfalls KI-basiert Grafiken generiert. Zur Verwendung für unterschiedliche Zielgruppen wurden die Grafiken in einem bunten fotorealistischen und einem schlichteren schwarz-weißen Line-Art Stil generiert (Abbildung 1 [Abb. 1]).

Mittels Online-Umfrage unter Fachkräften aus dem logopädischen Bereich wurden die generierten Therapiematerialien anschließend bezüglich der Stärke des inhaltlichen Kontrasts eingeordnet. Außerdem konnten die Teilnehmer die verschiedenen Bildstile in Hinblick auf verschiedene therapeutische Kontexte bewerten.

Ergebnisse

Trotz inhaltlicher Vorauswahl zeigte sich eine große Varianz in der Qualität der grafischen Umsetzung. Der inhaltliche Kontrast wurde auf einer Likert-Skala (1= nicht eindeutig, 5= vollkommen eindeutig) mit durchschnittlich 2,92 Punkten bewertet, wobei bei den einzelnen Sets ein Höchstwert von 3,97 und ein Tiefstwert von 1,84 erzielt wurde. Damit ist das KI generierte Material als nicht gleichwertig zu einem traditionellen Vergleichsmaterial einzuordnen, dessen Kontrast mit durchschnittlich 4,02 Punkten bewertet wurde.

Abbildung 2 [Abb. 2]

Eindeutige Präferenzen in Hinblick auf den Bildstil konnten in der Umfrage nicht festgestellt werden. Jedoch wurde beispielsweise die oft sehr detailreiche Darstellung von Hintergründen oder für die Aufgabenstellung irrelevanten Aspekten in Hinblick auf die therapeutische Nutzung kritisiert.

Weiterhin kam es bei der Generierung des Materials häufig zu Fehlern in der grafischen Darstellung, die teils ohne nachvollziehbaren Grund auftraten. Durch die interne Übersetzung des sprachlichen In- und Outputs die von der KI genutzte Arbeitssprache Englisch kommt es zusätzlich zu Einschränkungen in der Umsetzbarkeit von linguistischen Aspekten wie beispielsweise der Objekttopikalisierung.

Diskussion

Der Aufwand für die Gestaltung des Prompts war für annähernd adäquate Ergebnisse unverhältnismäßig hoch. Linguistische Besonderheiten der deutschen Sprache sowie sprachliche Kontraste wurden aufgrund der internen Arbeitssprache der KI teilweise nicht korrekt umgesetzt. Die Zuordnung des sprachlichen Zielsatzes zur entsprechenden grafischen Darstellung war häufig selbst für die sprachgesunden Probanden der Umfrage nicht mit absoluter Eindeutigkeit möglich, was eine sinnvolle Nutzung der Materialien in der Sprachtherapie in Frage stellt. Nur in Ausnahmefällen konnte das KI-generierte Material qualitativ mit bereits etabliertem Therapiematerial konkurrieren. Ebenso bestätigten fehlerhafte grafische Darstellungen die unbedingt erforderliche Kontrolle der Materialien durch sprachtherapeutisches Fachpersonal.

Fazit

Die Nutzung von generativen KIs ermöglicht eine leicht zugängliche und schnelle Erstellung von sprachlichem und grafisch darstellendem Material. Für die logopädische Therapie ist die Nutzung zu diesem Zweck jedoch zum aktuellen Zeitpunkt aufgrund der qualitativen Einschränkungen nur bedingt geeignet. Die Nutzungsmöglichkeiten im deutschsprachigen Kontext sind durch die interne Übersetzung der KI ins Englische beispielsweise in der gezielten Umsetzung grammatikalischer und semantischer Strukturen limitiert. Hier besteht weiterer Forschungsbedarf in Hinblick auf Verbesserungsmöglichkeiten der verwendeten Prompts. Besonders unter Berücksichtigung der teilweise nicht nachvollziehbaren Fehlumsetzungen ist eine Kontrolle aller generierten Materialien durch geeignetes Fachpersonal vor Verwendung in der Therapie unbedingt erforderlich.