gms | German Medical Science

24. Jahrestagung der Deutschen Gesellschaft für Audiologie

Deutsche Gesellschaft für Audiologie e. V.

14.09. - 17.09.2022, Erfurt

Entwicklung und Evaluation eines Deep Learning-Algorithmus für die Worterkennung aus Lippenbewegungen für die deutsche Sprache

Meeting Abstract

Search Medline for

  • presenting/speaker Nam Pham Dinh - Martin-Luther Universität Halle-Wittenberg, Halle (Saale), DE
  • presenting/speaker Torsten Rahne - Martin-Luther Universität Halle-Wittenberg, Halle (Saale), DE

Deutsche Gesellschaft für Audiologie e.V.. 24. Jahrestagung der Deutschen Gesellschaft für Audiologie. Erfurt, 14.-17.09.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. Doc191

doi: 10.3205/22dga191, urn:nbn:de:0183-22dga1912

Published: September 12, 2022
Published with erratum: January 1, 0001

© 2022 Pham Dinh et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Fragestellung: Zahlreiche Menschen profitieren beim Lippenlesen von den zusätzlichen visuellen Informationen aus den Lippenbewegungen des Sprechenden, welches jedoch sehr fehleranfällig ist. Algorithmen zum Lippenlesen mit auf künstlichen neuronalen Netzwerken basierender künstlicher Intelligenz verbessern die Wortkennung signifikant, stehen jedoch nicht für die deutsche Sprache zur Verfügung.

Methoden: Es wurden 1.806 Videos mit jeweils nur einer deutsch sprechenden Person selektiert, in Wortsegmente unterteilt und mit einer Spracherkennungssoftware Wortklassen zugeordnet. In 38.391 Videosegmenten mit 32 Sprechenden wurden achtzehn mehrsilbige, visuell voneinander unterscheidbare Wörter zum Trainieren und Validieren eines neuronalen Netzwerks verwendet. Die Modelle 3D Convolutional Neural Network, Gated Recurrent Units und die Kombination beider Modelle (GRUConv) wurden ebenso verglichen wie unterschiedliche Bildausschnitte und Farbräume der Videos. Die Korrektklassifikationsrate wurde jeweils innerhalb von 5000 Trainingsepochen ermittelt.

Ergebnisse: Der Vergleich der Farbräume ergab keine relevant unterschiedlichen Korrektklassifikationsraten im Bereich von 69.23% (HSV) bis 72,15% (YcbCr). Bei Zuschneidung auf die Lippen wurde mit 70,29% eine deutlich höhere Korrektklassifikationsrate als bei Zuschnitt auf das gesamte Sprechergesicht (33,82%) erreicht. Mit dem GRUConv-Modell betrugen die maximalen Korrektklassifikationsraten 87,3% bei bekannten Sprechenden und 62,61% in der Validierung mit unbekannten Sprechenden.

Schlussfolgerungen: Das erstmals für die deutsche Sprache entwickelte neuronale Netzwerk zum Lippenlesen zeigt eine sehr große, mit englischsprachigen Algorithmen vergleichbare Genauigkeit. Es funktioniert auch mit unbekannten Sprechenden und kann mit mehr Wortklassen generalisiert werden.


Erratum

Changing the order of authors