Article
Evaluation handelsüblicher Smartphone-Spracherkennungsprogramme in Bezug auf die Ersatzstimme mit einer Stimmventilprothese bei laryngektomierten Patienten
Search Medline for
Authors
Published: | September 8, 2016 |
---|
Outline
Zusammenfassung
Hintergrund: In den letzten Jahren stieg der kommerzielle Einsatz von automatischen Spracherkennungsprogrammen (ASE) rasant an. Eine Fortsetzung dieses Trends ist auch in den nächsten Jahren zu erwarten. So wird die ASE immer öfter zur Steuerung von Computersystemen und in der Telefonhotline eingesetzt.
Ziel der Untersuchung war es zu evaluieren, ob eine kommerziell erhältliche ASE auch eine maximal gestörte Stimme, nämlich die Ersatzstimme nach einer Laryngektomie erkennt und auch bei diesen Stimmen alltagstauglich eingesetzt werden kann.
Material und Methoden: 12 Probanden und 12 Teilnehmer einer Kontrollgruppe ohne Stimmerkrankung haben jeweils 10 Testsätze in ein iPhone 5S der Marke Apple mit der Spracherkennungssoftware Siri gesprochen.
Die Reaktionen des Spracherkennungsprogrammes wurden in drei Kategorien eingeteilt:
- 1.
- Befehl verstanden
- 2.
- Befehl nicht verstanden
- 3.
- Befehl zum Teil verstanden
Ergebnisse: Die Spracherkennungssoftware Siri hat bei der Probandengruppe 85% und bei der Kontrollgruppe 96% des Testmaterials korrekt verstanden.
Diskussion: Die hohe Erkennungsrate für die Probandengruppe lässt sich durch die grundsätzliche Funktionsweise von Spracherkennungsprogrammen erklären: Einsatz bestimmter Algorithmen in der Spracherkennung und Vernachlässigung von stimmlichen Parametern.
Fazit: Die handelsübliche ASE funktioniert auch bei maximal gestörten Stimmen, wie der Ersatzstimme bei laryngektomierten Patienten, die mit einer Stimmventilprothese versorgt sind.
Text
Hintergrund
In den letzten Jahren stieg der kommerzielle Einsatz von automatischen Spracherkennungsprogrammen (ASE) rasant an. Eine Fortsetzung dieses Trends ist auch in den nächsten Jahren zu erwarten. So wird die ASE immer öfter beispielsweise zur Steuerung von Computersystemen, des Telefons, automatisierter Auskunftssysteme und in der Telefonhotline eingesetzt [1].
Diese Umstrukturierung stellt vor allen Dingen ältere Menschen vor eine Herausforderung. Schon der technische Fortschritt der Bedienung eines Smartphones und die sprachliche Steuerung von Geräten ist für sie Neuland. Die Entwicklung der Sprachsteuerung kann aber auch eine Erleichterung darstellen. Je älter man ist, desto mehr Einschränkungen bestehen auch in der Feinmotorik und im Sehvermögen. Durch die ASE können diese Einschränkungen kompensiert werden.
Mit dem demographischen Wandel hin zu einer alternden Bevölkerung steigt auch die Zahl der an Krebs erkrankten Menschen. Rund 3.500 Menschen erkrankten im Jahr 2012 an einem Larynxkarzinom [2]. Eine Therapieoption stellt in vielen Fällen die Laryngektomie (LE) dar.
Ziel der Untersuchung war es zu evaluieren, ob eine kommerziell erhältliche ASE auch eine maximal gestörte Stimme, nämlich die Ersatzstimme nach einer Laryngektomie (erzeugt mit Hilfe einer Stimmventilprothese) erkennt und auch bei diesen Stimmen alltagstauglich eingesetzt werden kann.
Material und Methoden
Untersucht wurden 12 Probanden (laryngektomierte Patienten mit Stimmventilprothese versorgt). 10 Männer und 2 Frauen im Alter von 52–85 Jahren, Median 66,5 Jahre) und 12 Teilnehmer einer Kontrollgruppe ohne Stimmerkrankung (8 Männer und 4 Frauen im Alter von 53–85 Jahren, Median 63,5 Jahre).
Diese haben jeweils 10 Testsätze in ein iPhone 5S der Marke Apple mit der Spracherkennungssoftware Siri gesprochen. Die Testsätze wurden in Online-Ratgebern als ein Teil der wichtigsten Sprachbefehle beschrieben.
Die Reaktionen des Spracherkennungsprogrammes wurden in drei Kategorien eingeteilt:
- 1.
- Befehl verstanden
- 2.
- Befehl nicht verstanden
- 3.
- Befehl zum Teil verstanden
Ergebnisse
Die Spracherkennungssoftware Siri hat bei der Probandengruppe 77% der Befehle verstanden, 7% der befehle nicht verstanden und 16% der Befehle zum Teil verstanden.
Bei der Kontrollgruppe wurden 92% der Befehle verstanden, 7% zum Teil verstanden und 1% nicht verstanden.
Diskussion
Die hohe Erkennungsrate für die Probandengruppe lässt sich durch die grundsätzliche Funktionsweise von Spracherkennungsprogrammen erklären: Einsatz bestimmter Algorithmen in der Spracherkennung und Vernachlässigung von stimmlichen Parametern.
Die Stimme eines laryngektomierten Patienten wird nicht in der Glottis, sondern im pharyngoösophagealen Segment gebildet. Dadurch kommt es zu einer Veränderung der Grundfrequenz, die prinzipiell absinkt, jedoch häufig schwer zu bestimmen ist [3], [4].
Die Grundfrequenz enthält jedoch keine Informationen über den Inhalt des Gesprochenen und wird im Spracherkennungsprozess eliminiert [5], [1].
Fazit/Schlussfolgerung
Die handelsübliche ASE funktioniert auch bei maximal gestörten Stimmen, wie der Ersatzstimme bei laryngektomierten Patienten, die mit einer Stimmventilprothese versorgt sind.
Literatur
- 1.
- Pfister B, Kaufmann T. Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Berlin, Heidelberg: Springer-Verlag; 2008.
- 2.
- Robert-Koch-Institut, Gesellschaft der epidemiologischen Krebsregister in Deutschland e.V. Krebs in Deutschland 2011/2012. 10. Auflage. Berlin; 2015.
- 3.
- Deore N, Datta S, Dwivedi RC, Palav R, Shah R, Sayed SI, Jagde M, Kazi R. Acoustic analysis of tracheo-oesophageal voice in male total laryngectomy patients. Ann R Coll Surg Engl. 2011 Oct;93(7):523-7. DOI: 10.1308/147870811X13137608454975
- 4.
- Debruyne F, Delaere P, Wouters J, Uwents P. Acoustic analysis of tracheo-oesophageal versus oesophageal speech. J Laryngol Otol. 1994 Apr;108(4):325-8. DOI: 10.1017/S0022215100126660
- 5.
- Reetz H. Artikulatorische und akustische Phonetik. 2. Verbesserte Auflage. WVT: Wissenschaftlicher Verlag Trier; 2003.