gms | German Medical Science

21. Wissenschaftliche Jahrestagung der DGPP

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie

10. bis 12.09.2004, Freiburg/Breisgau

Pilotstudie zum Schwingungsverhalten des Tongenerators der tracheoösophagealen Ersatzstimme

Vortrag

  • author presenting/speaker Jörg Lohscheller - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Raphael Schwarz - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Tobias Wurzbacher - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • author Maria Schuster - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland
  • Ulrich Eysholdt - Universitätsklinikum Erlangen, Abteilung für Phoniatrie und Pädaudiologie, Erlangen, Deutschland

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 21. Wissenschaftliche Jahrestagung der DGPP. Freiburg/Breisgau, 10.-12.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04dgppV44

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/dgpp2004/04dgpp73.shtml

Published: September 9, 2004

© 2004 Lohscheller et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Bei Laryngektomierten mit Stimmventilprothesen ist die Qualität der Ersatzstimme von der Schwingungscharakteristik des pharyngo-ösophagealen Segmentes (PE-Segment) abhängig. Im Hinblick auf eine spätere klinische Nutzung, z.B. beim Wunsch nach einer Verbesserung der Stimmqualität, soll in dieser Pilotstudie der Zusammenhang zwischen den dynamischen Eigenschaften des PE-Segmentes und dem akustischen Stimmsignal untersucht werden. Dazu wurden bei 12 männlichen Laryngektomierten während der Phonation digitale Hochgeschwindigkeitsaufnahmen (HG-Aufnahme) des PE-Segmentes und gleichzeitig das akustische Stimmsignal aufgenommen. Zur Auswertung der dabei gewonnenen Datensätze wurde ein Bildverarbeitungsverfahren entwickelt, das die Bewegungen des PE-Segmentes analysiert. Durch ein Expertengremium wurden in den Aufnahmen die Konfiguration sowie die Schwingungsmuster des PE-Segmentes bestimmt. Dabei fanden sich nur geringe intra- und interindividuelle übereinstimmende Bewertungen. Große Übereinstimmungen fanden sich hingegen zwischen der visuellen und der durch die Bildverarbeitung ermittelten Zahl der Schwingungszyklen. Zudem konnte der Zusammenhang zwischen dem akustischen Signal und dem extrahierten PE-Schwingungsmuster verifiziert werden. Nach den Daten dieser Studie wird die Pathophysiologie der tracheoösophagealen Ersatzstimme durch den vorgestellten Analysevorgang auch für klinische Zwecke sinnvoll abgebildet.


Text

Einleitung

Bei Laryngektomierten mit Stimmventilprothesen ist die Qualität der Ersatzstimme von der Schwingungscharakteristik des pharyngo-ösophagealen (PE) Segmentes abhängig [1]. Durch Verwendung einer Hochgeschwindigkeitskamera in Verbindung mit einem starren Lupenendoskop lassen sich die zum Teil stark irregulären Bewegungen des PE-Segmentes während der Phonation visualisieren [2]. In bisherigen Arbeiten wurden die zeitlichen Deformationen von PE-Segmenten jedoch vorwiegend subjektiv klassifiziert [3]. Zur quantitativen Erfassung und Analyse von PE-Bewegungen wurde daher ein automatisches Bildverarbeitungsverfahren entwickelt, das aus Hochgeschwindigkeitsaufnahmen (HG-Aufnahmen) die zeitabhängigen Deformationen eines PE-Segmentes extrahiert [4], [5].

Im Hinblick auf eine spätere klinische Nutzung, z.B. beim Wunsch nach einer Verbesserung der Stimmqualität, soll in dieser Pilotstudie der Zusammenhang zwischen den dynamischen Eigenschaften des PE-Segmentes und dem akustischen Stimmsignal untersucht werden. Die Ergebnisse des verwendeten Bildverarbeitungsverfahrens werden dabei mit den subjektiven Bewertungen eines Expertengremiums verglichen.

Methode

In dieser Studie wurden von 12 laryngektomierten Patienten, im Alter zwischen 50 bis 68 Jahren, HG-Aufnahmen des PE-Segmentes durchgeführt. Es kamen dabei zwei Kamera-Systeme (KS) mit unterschiedlichen Auflösungen und Abtastraten zum Einsatz (KS I: Auflösung 64 x 128 Pixel, Abtastrate: 3704 Hz; KS II: Auflösung: 256 x 128 Pixel, Abtastrate: 4000 H). Simultan zu den Hochgeschwindigkeitsaufnahmen (HG-Aufnahmen) wird das abgestrahlte akustische Stimmsignal aufgezeichnet (Abtastrate I/II: 44.4 kHz, Auflösung I: 16/ bit, Auflösung II: 8 bit).

Für jede HG-Aufnahme wurde mit Hilfe der entwickelten Bildverarbeitung in 352 aufeinanderfolgenden Einzelbildern die sich zeitlich ändernde PE-Geometrie extrahiert. So konnten quantitative Informationen über die Lage, Form und Anzahl der PE-Schwingungen gewonnen und in Bezug zu dem akustischen Stimmsignal gesetzt werden.

Die segmentierten HG-Aufnahmen wurden zudem von einem sechsköpfigen Expertengremium bewertet. Die subjektiven Angaben über das Schwingungsmuster der PE-Bewegungen wurden mit den durch die Bildverarbeitung ermittelten Daten verglichen.

Ergebnis

Die Bildverarbeitung ist in der Lage den Schwingungsverlauf der PE-Segmente in den HG-Aufnahmen erfolgreich zu verfolgen. Für zwei HG-Aufnahmen sind beispielhaft in Abbildung 1 [Abb. 1] jeweils ein segmentiertes Standbild (links), die extrahierten Frequenzen der PE-Schwingungen (Mitte) und die Frequenzen der akustischen Ersatzstimmsignale (rechts) dargestellt. Die charakteristischen Frequenzanteile der PE-Bewegung stimmen in allen HG-Aufnahmen mit denen des akustischen Stimmsignals überein.

Durch ein Expertengremium wurden anschließend aus den HG-Aufnahmen das zeitliche Schwingungsmuster der PE-Segmente bestimmt sowie die Qualität der PE-Segmentierung bewertet. Für jede HG-Aufnahme sind in Abbildung 2 (links) [Abb. 2] die durch die Bildverarbeitung ermittelte Anzahl der PE-Zyklen (PEZ-B) und die durch das Expertengremium bestimmte PE-Zyklenanzahl (PEZ-V) dargestellt. In allen Aufnahmen stimmen die subjektiven und quantitativen Auswertungen im hohen Maße überein.

Trotz dieser hohen Übereinstimmung schwankt die Bewertung der Segmentierungsergebnisse erheblich. Der Medianwert der Qualitätsbewertung (Q-S) ist für jede HG-Aufnahme rechts in Abbildung 2 [Abb. 2] aufgetragen und liegt zwischen den Werten 2 (schlecht) bis 4 (gut). Es fanden sich zudem nur äußerst geringe interindividuelle übereinstimmende Bewertungen.

Diskussion

Bei der Auswertung aller zwölf HG-Sequenzen zeigte sich eine Übereinstimmung zwischen der zeitlichen Änderung der extrahierten PE-Bewegung und des akustischen Stimmsignals. Durch die kombinierte Auswertung von PE-Bewegung und Stimmsignal lässt sich für jede Sequenz die Grundfrequenz der Ersatzstimme ableiten. Sie wird definiert als niedrigste dominante Frequenz, die sowohl in der PE-Bewegung als auch dem Stimmsignal vorliegt. Nach dieser Definition liegt die Grundfrequenz der Ersatzstimme für die HG-Sequenzen 3 und 8 somit bei 126 Hz bzw. 80 Hz (siehe [Abb. 1]). Der Mittelwert der ausgewerteten zwölf Sequenzen liegt bei 147 Hz mit einer Standardabweichung von 45 Hz.

Die Anzahl der durch das Expertengremium visuell bestimmten PE-Zyklen stimmt mit der Zyklenanzahl überein, die durch das Bildverarbeitungsverfahren ermittelt werden konnte. Diese Übereinstimmung als auch die hohe Korrelation zwischen PE-Bewegung und Ersatzstimmsignal belegen, dass der Bildverarbeitungsalgorithmus in der Lage ist, die für die Erzeugung der Ersatzstimme relevanten PE-Bewegungen zu extrahieren.

Obwohl nach obigen Kriterien grundsätzlich von einer ausreichend guten Segmentierungsqualität ausgegangen werden kann, treten dennoch große Unterschiede bei der Bewertung der Segmentierungsqualität auf. Diese Diskrepanz rührt daher, dass jeder Betrachter individuell entscheidet, welche PE-Bewegungen in einer HG-Sequenz für die Stimmgebung relevant erscheinen. Eine subjektive Bewertung der HG-Aufnahmen von PE-Segmenten, die darauf abzielt Schwingungsmuster zu klassifizieren, ist somit stets einer hohen Inter-Rater-Variabilität unterworfen.

Nach den Daten dieser Studie wird die Pathophysiologie der tracheoösophagealen Ersatzstimme durch den vorgestellten Analysevorgang auch für klinische Zwecke sinnvoll abgebildet. Die Bildverarbeitung stellt somit ein wichtiges Werkzeug zur Verfügung, mit dem eine Bewertung von HG-Aufnahmen von PE-Segmenten nach einheitlichen Kriterien quantitative und reproduzierbar durchgeführt werden kann.


Literatur

1.
Van As C, Tigges M, Hilgers F, Eysholdt U. Oesophageal Vibration in Voice Rehabilitation after Laryngectomy. Advances in Quantitative Laryngoscopy, Verlag Abt. Phoniatrie 1997;95-102
2.
Eysholdt U, Tigges M, Wittenberg T, Pröschel U. Direct Evaluation of High-Speed Recordings of Vocal Fold Vibration. Folia Phoniatr Logop, 1996;48:163-170
3.
Tigges M, van As C, Wittenberg T, Hilgers F, Eysholdt U. Direkte Beobachtung der tracheo-ösophagealen Phonation bei 46 Laryngektomierten. Aktuelle phoniatrisch-pädaudiologische Aspekte, Heidelberg: Median Verlag 1999;131-133
4.
Lohscheller J, Döllinger M, Schuster, M, Eysholdt U, Hoppe U. The Laryngectomee Substitute Voice: Image Processing of Endoscopic Recordings by Fusion with Acoustic Signals. Meth. Inf. Med. 2003;3, in Druck
5.
Lohscheller J, Schuster M, Eysholdt U, Hoppe U. Investigation of the tracheo-esophageal voice generating element by means of active contour models, Advances in Quantitative Laryngology, Voice and Speech Research, Hamburg: 2003