gms | German Medical Science

33. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

Regensburg, 22.09. - 25.09.2016

Evaluation handelsüblicher Smartphone-Spracherkennungsprogramme in Bezug auf die Ersatzstimme mit einer Stimmventilprothese bei laryngektomierten Patienten

Poster

Search Medline for

  • corresponding author presenting/speaker Anne Schützenberger - Abteilung Phoniatrie und Pädaudiologie der HNO-Klinik, Universität Erlangen, Erlangen, Deutschland
  • author Anne-Kathrin Kohl - Abteilung Phoniatrie und Pädaudiologie der HNO-Klinik, Universität Erlangen, Erlangen, Deutschland
  • author Christopher Bohr - Abteilung Phoniatrie und Pädaudiologie der HNO-Klinik, Universität Erlangen, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 33. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP). Regensburg, 22.-25.09.2016. Düsseldorf: German Medical Science GMS Publishing House; 2016. DocP16

doi: 10.3205/16dgpp25, urn:nbn:de:0183-16dgpp259

Published: September 8, 2016

© 2016 Schützenberger et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: In den letzten Jahren stieg der kommerzielle Einsatz von automatischen Spracherkennungsprogrammen (ASE) rasant an. Eine Fortsetzung dieses Trends ist auch in den nächsten Jahren zu erwarten. So wird die ASE immer öfter zur Steuerung von Computersystemen und in der Telefonhotline eingesetzt.

Ziel der Untersuchung war es zu evaluieren, ob eine kommerziell erhältliche ASE auch eine maximal gestörte Stimme, nämlich die Ersatzstimme nach einer Laryngektomie erkennt und auch bei diesen Stimmen alltagstauglich eingesetzt werden kann.

Material und Methoden: 12 Probanden und 12 Teilnehmer einer Kontrollgruppe ohne Stimmerkrankung haben jeweils 10 Testsätze in ein iPhone 5S der Marke Apple mit der Spracherkennungssoftware Siri gesprochen.

Die Reaktionen des Spracherkennungsprogrammes wurden in drei Kategorien eingeteilt:

1.
Befehl verstanden
2.
Befehl nicht verstanden
3.
Befehl zum Teil verstanden

Ergebnisse: Die Spracherkennungssoftware Siri hat bei der Probandengruppe 85% und bei der Kontrollgruppe 96% des Testmaterials korrekt verstanden.

Diskussion: Die hohe Erkennungsrate für die Probandengruppe lässt sich durch die grundsätzliche Funktionsweise von Spracherkennungsprogrammen erklären: Einsatz bestimmter Algorithmen in der Spracherkennung und Vernachlässigung von stimmlichen Parametern.

Fazit: Die handelsübliche ASE funktioniert auch bei maximal gestörten Stimmen, wie der Ersatzstimme bei laryngektomierten Patienten, die mit einer Stimmventilprothese versorgt sind.


Text

Hintergrund

In den letzten Jahren stieg der kommerzielle Einsatz von automatischen Spracherkennungsprogrammen (ASE) rasant an. Eine Fortsetzung dieses Trends ist auch in den nächsten Jahren zu erwarten. So wird die ASE immer öfter beispielsweise zur Steuerung von Computersystemen, des Telefons, automatisierter Auskunftssysteme und in der Telefonhotline eingesetzt [1].

Diese Umstrukturierung stellt vor allen Dingen ältere Menschen vor eine Herausforderung. Schon der technische Fortschritt der Bedienung eines Smartphones und die sprachliche Steuerung von Geräten ist für sie Neuland. Die Entwicklung der Sprachsteuerung kann aber auch eine Erleichterung darstellen. Je älter man ist, desto mehr Einschränkungen bestehen auch in der Feinmotorik und im Sehvermögen. Durch die ASE können diese Einschränkungen kompensiert werden.

Mit dem demographischen Wandel hin zu einer alternden Bevölkerung steigt auch die Zahl der an Krebs erkrankten Menschen. Rund 3.500 Menschen erkrankten im Jahr 2012 an einem Larynxkarzinom [2]. Eine Therapieoption stellt in vielen Fällen die Laryngektomie (LE) dar.

Ziel der Untersuchung war es zu evaluieren, ob eine kommerziell erhältliche ASE auch eine maximal gestörte Stimme, nämlich die Ersatzstimme nach einer Laryngektomie (erzeugt mit Hilfe einer Stimmventilprothese) erkennt und auch bei diesen Stimmen alltagstauglich eingesetzt werden kann.

Material und Methoden

Untersucht wurden 12 Probanden (laryngektomierte Patienten mit Stimmventilprothese versorgt). 10 Männer und 2 Frauen im Alter von 52–85 Jahren, Median 66,5 Jahre) und 12 Teilnehmer einer Kontrollgruppe ohne Stimmerkrankung (8 Männer und 4 Frauen im Alter von 53–85 Jahren, Median 63,5 Jahre).

Diese haben jeweils 10 Testsätze in ein iPhone 5S der Marke Apple mit der Spracherkennungssoftware Siri gesprochen. Die Testsätze wurden in Online-Ratgebern als ein Teil der wichtigsten Sprachbefehle beschrieben.

Die Reaktionen des Spracherkennungsprogrammes wurden in drei Kategorien eingeteilt:

1.
Befehl verstanden
2.
Befehl nicht verstanden
3.
Befehl zum Teil verstanden

Ergebnisse

Die Spracherkennungssoftware Siri hat bei der Probandengruppe 77% der Befehle verstanden, 7% der befehle nicht verstanden und 16% der Befehle zum Teil verstanden.

Bei der Kontrollgruppe wurden 92% der Befehle verstanden, 7% zum Teil verstanden und 1% nicht verstanden.

Diskussion

Die hohe Erkennungsrate für die Probandengruppe lässt sich durch die grundsätzliche Funktionsweise von Spracherkennungsprogrammen erklären: Einsatz bestimmter Algorithmen in der Spracherkennung und Vernachlässigung von stimmlichen Parametern.

Die Stimme eines laryngektomierten Patienten wird nicht in der Glottis, sondern im pharyngoösophagealen Segment gebildet. Dadurch kommt es zu einer Veränderung der Grundfrequenz, die prinzipiell absinkt, jedoch häufig schwer zu bestimmen ist [3], [4].

Die Grundfrequenz enthält jedoch keine Informationen über den Inhalt des Gesprochenen und wird im Spracherkennungsprozess eliminiert [5], [1].

Fazit/Schlussfolgerung

Die handelsübliche ASE funktioniert auch bei maximal gestörten Stimmen, wie der Ersatzstimme bei laryngektomierten Patienten, die mit einer Stimmventilprothese versorgt sind.


Literatur

1.
Pfister B, Kaufmann T. Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Berlin, Heidelberg: Springer-Verlag; 2008.
2.
Robert-Koch-Institut, Gesellschaft der epidemiologischen Krebsregister in Deutschland e.V. Krebs in Deutschland 2011/2012. 10. Auflage. Berlin; 2015.
3.
Deore N, Datta S, Dwivedi RC, Palav R, Shah R, Sayed SI, Jagde M, Kazi R. Acoustic analysis of tracheo-oesophageal voice in male total laryngectomy patients. Ann R Coll Surg Engl. 2011 Oct;93(7):523-7. DOI: 10.1308/147870811X13137608454975 External link
4.
Debruyne F, Delaere P, Wouters J, Uwents P. Acoustic analysis of tracheo-oesophageal versus oesophageal speech. J Laryngol Otol. 1994 Apr;108(4):325-8. DOI: 10.1017/S0022215100126660 External link
5.
Reetz H. Artikulatorische und akustische Phonetik. 2. Verbesserte Auflage. WVT: Wissenschaftlicher Verlag Trier; 2003.