gms | German Medical Science

20. Wissenschaftliche Jahrestagung der DGPP Deutsche Gesellschaft für Phoniatrie und Pädaudiologie

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

12. bis 14.09.2003, Rostock

Quantitative Untersuchung des Schwingungsverhaltens des Tongenerators bei tracheoösophagealer Ersatzstimmphonation

Vortrag

  • corresponding author Jörg Lohscheller - Abteilung für Phoniatrie und Pädaudiologie, Bohlenplatz 21, 91054 Erlangen, Fax: ++49 (9131) 85-3 92 72, Tel: ++49 (9131) 85-3 26 03
  • author Maria Schuster - Abteilung für Phoniatrie und Pädaudiologie, Bohlenplatz 21, 91054 Erlangen, Fax: +49 (0)91 31 - 85 392 72, Tel: +49 (0)91 31 - 85 327 82
  • author Raphael Schwarz - Abteilung für Phoniatrie und Pädaudiologie, Bohlenplatz 21, 91054 Erlangen, Fax: ++49 (91 31) 85 - 3 92 72, Tel: ++49 (91 31) 85 - 3 26 03
  • Ulrich Eysholdt - Abteilung für Phoniatrie und Pädaudiologie, Bohlenplatz 21, 91054 Erlangen
  • author Ulrich Hoppe - Abteilung für Phoniatrie und Pädaudiologie, Bohlenplatz 21, 91054 Erlangen, Fax: +49 (0)91 31 - 85 392 72 , Tel.: +49 (0)91 31 - 85 338 15

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie. 20. Wissenschaftliche Jahrestagung der DGPP. Rostock, 12.-14.09.2003. Düsseldorf, Köln: German Medical Science; 2003. DocV19

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/dgpp2003/03dgpp028.shtml

Published: September 12, 2003

© 2003 Lohscheller et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Bei Laryngektomierten mit Stimmventilprothese ist die Qualität der Ersatzstimme von der Schwingungscharakteristik des pharyngo-ösophagealen Segmentes (PE-Segment) abhängig. Eine Verbesserung der Stimmqualität erfordert es, den Zusammenhang zwischen den dynamischen Eigenschaften des PE-Segmentes und dem akustischen Signal zu untersuchen. Dazu wurden bei Laryngektomierten während der Phonation gleichzeitig digitale Hochgeschwindigkeitsaufnahmen (HG-Aufnahme) des PE-Segmentes und das akustische Stimmsignal aufgenommen. Zur Auswertung der Datensätze wurde ein Bildverarbeitungsverfahren entwickelt. Der Algorithmus ermöglicht die Bestimmung der für das akustische Signal relevanten Bildanteile (Region of Interest, ROI) und verfolgt die Bewegungen des PE-Segments innerhalb einer HG-Aufnahme. Das Schwingungsmuster kann visualisiert und in Bezug zu dem akustischen Signal gesetzt werden. Die Anwendbarkeit des Algorithmus wird anhand von drei HG-Aufnahmen demonstriert. Die Analyse der Ergebnisse zeigt den Zusammenhang zwischen dem Schwingungsmuster des PE-Segments und dem akustischen Signal.


Text

Einleitung

Bei Laryngektomierten mit Stimmventilprothese dient das pharyngo-ösophageal Segment (PE-Segment) als Tongenerator der Ersatzstimme. Die Schwingungscharakteristik des PE-Segments bedingt wesentlich die Qualität der Ersatzstimme. Zur quantitativen Untersuchung des Zusammenhanges zwischen den dynamischen Eigenschaften des PE-Segmentes und des akustischen Stimmsignals wurden bei laryngektomierten Patienten sowohl digitale Hochgeschwindigkeitsaufnahmen (HG-Aufnahmen) als auch das akustische Stimmsignal während der Phonation aufgezeichnet. Zur Auswertung der HG-Datensätze wurde ein Bildverarbeitungsverfahren entwickelt. Der Algorithmus ermöglicht die Bestimmung der für das akustische Signal relevanten Bildanteile (Region of Interest, ROI) und verfolgt die Deformationen des PE-Segments innerhalb einer HG-Aufnahme. Das Schwingungsmuster kann visualisiert und in Bezug zu dem akustischen Signal gesetzt werden. Die Anwendbarkeit des Algorithmus wird anhand von drei HG-Aufnahmen demonstriert.

Methode

Die Schwingungen des PE-Segmentes werden während der Phonation mit einer digitalen Hochgeschwindigkeitskamera aufgezeichnet, die eine Auflösung von 64 x 128 Bildpunkten und einer Abtastrate von 3704 Bilder pro Sekunde besitzt [1]. In den HG-Aufnahmen lässt sich die ösophageale Schleimhaut des PE-Segmentes identifizieren, die während des Phonation den Luftstrom moduliert und so als Ersatzstimmgenerator dient. Die Öffnung, die sich zwischen den Schleimhautfalten des PE-Segmentes ausbildet, wird in Analogie zur normalen Stimmgebung als Neoglottis bezeichnet [2]. Simultan zu den HG-Aufnahmen wird das abgestrahlte akustische Stimmsignal aufgezeichnet (Abtastrate 44.4 kHz, Auflösung: 16 bit). Bei dem zur Auswertung der HG-Aufnahmen entwickelten Bildverarbeitungsalgorithmus handelt es sich um ein zweistufiges Verfahren. Der erste Teil des Verfahrens dient als Initialisierung, um die relevanten Bildbereiche einer HG-Aufnahme (Region of Interest, ROI) zu identifizieren [3]. Dazu werden drei charakteristische Eigenschaften der Bildpixel genutzt. Durch die Auswertung dieser Pixeleigenschaften lässt sich der Beitrag eines jeden Pixels zum Stimmgebungsprozess mit Werten zwischen Null und Eins kodieren. Aus dem ROI lassen sich die ungefähre Lage und Ausdehnung der Neoglottis ermitteln. Im zweiten Teil des Verfahrens werden durch die Kombination eines Schwellwertverfahrens mit einem „Aktiven Konturen Algorithmus" die Kanten der Neoglottis in jedem Bild einer HG-Aufnahme verfolgt [4], [5]. Die Deformationen der Neoglottis lassen sich so quantitativ ermitteln und mit dem akustischen Stimmsignal in Bezug setzten.

Ergebnisse

Die Anwendbarkeit des Bildverarbeitungsalgorithmus zur Verfolgung der Neoglottiskontur wird anhand von drei HG-Aufnahmen (HA-1, HA-2, HA-3) gezeigt. Bei allen Aufnahmen wurden insgesamt 352 Bilder einer HG-Aufnahmen ausgewertet, was einem Zeitintervall von 95 ms entspricht. Die im Initialisierungsteil des Algorithmus ermittelte ROI ist für jede HG-Aufnahme in der ersten Zeile von Abbildung 1 [Abb. 1] dargestellt. Die innerhalb der weißen Konturen liegenden Bildanteile umfassen jeweils die Pixel einer ROI, die den größten Beitrag am Prozess der Ersatzstimmgebung aufweisen. Diese Konturen werden als mittlere Lage und Ausdehnung der Neoglottis einer HG-Aufnahme definiert und dienen als Initialisierung für den nachfolgenden Objektverfolgungsalgorithmus. Das Ergebnis der Konturverfolgung ist für jede HG-Aufnahme anhand von drei Einzelbildern dargestellt. Die weißen Konturen innerhalb eines Bildes stellen die detektierten Kanten der Neoglottis dar. Die Deformationen des PE-Segmentes einer HG-Aufnahme lassen sich durch die Auswertung der sich zeitlich verändernden Fläche der Neoglottis quantitativ beschreiben und mit dem Stimmsignal in Bezug setzen. Abbildung 2 [Abb. 2] zeigt die Betragsspektren der aus den drei HG-Aufnahmen extrahierten Neoglottisflächen |N(f)| und die Betragsspektren der dazugehörigen Stimmsignale |S(f)|. In jedem Spektrum lassen sich dominante Frequenzen fi identifizieren. Die niedrigsten Frequenzen f0 variieren zwischen 126 Hz und 189 Hz. Die Spektren der HG-Aufnahmen HA-1 und HA-3 besitzen ein harmonisches Struktur, das sich auch in den dazugehörigen Spektren der Stimmsignale wiederfinden lässt. Der maximale relative Fehler zwischen den Frequenzen fi der Neoglottisflächen und der dazugehörigen Stimmsignale ist kleiner als 10% und wird von der Abtastrate der HG-Kamera und der Länge der ausgewerteten HG-Aufnahme beeinflusst.

Diskussion

Die Auswertung von HG-Aufnahmen des PE-Segmentes wurden bisher lediglich subjektiv durchgeführt [6]. Das hier vorgestellte Bildverarbeitungsverfahren ist in der Lage die PE-Deformationen in HG-Aufnahmen - die eine ausreichende Bildqualität aufweisen (geringe Schleimbildung, keine Unschärfe und Verdeckung der Neoglottis während der Schwingung) - quantitativ auszuwerten. Durch Analyse der Neoglottisfläche lassen sich die Deformationen des PE-Segmentes in Verhältnis zum akustischen Stimmsignal setzten. Die charakteristischen Frequenzen aus den HG-Aufnahmen und des Stimmsignals belegen den engen Zusammenhang zwischen dem Schwingungsmuster des PE-Segmentes und der Ersatzstimmgebung. Die Ergebnisse stimmen mit videofluoroskopischen Untersuchungen des PE-Segmentes überein, die eine enge Korrelation zwischen den dynamischen Eigenschaften des PE-Segmentes und der Qualität der Ersatzstimmgebung zeigen [7].


Literatur

1.
Eysholdt U, Tigges M, Wittenberg T, Pröschel U. Direct Evaluation of High-Speed Recordings of Vocal Fold Vibration. Folia Phoniatr Logop, 1996;48:163-170.
2.
Van As C, Tigges M, Hilgers F, Eysholdt U. Oesophageal Vibration in Voice Rehabilitation after Laryngectomy. Advances in Quantitative Laryngoscopy, Verlag Abt. Phoniatrie 1997;95-102.
3.
Lohscheller J, Döllinger M, Schuster, M, Eysholdt U, Hoppe U. The Laryngectomee Substitute Voice: Image Processing of Endoscopic Recordings by Fusion with Acoustic Signals. Meth. Inf. Med. 2003;3, in Druck.
4.
Xu C, Prince JL. Gradient Vector Flow: A New External Force for Snakes, IEEE CVPR, 1997: 66-71.
5.
Lohscheller J, Schuster M, Eysholdt U, Hoppe U. Investigation of the tracheo-esophageal voice generating element by means of active contour models, Advances in Quantitative Laryngology, Voice and Speech Research, Hamburg: 2003.
6.
Tigges M, van As C, Wittenberg T, Hilgers F, Eysholdt U. Direkte Beobachtung der tracheo-ösophagealen Phonation bei 46 Laryngektomierten. Aktuelle phoniatrisch-pädaudiologische Aspekte, Heidelberg: Median Verlag 1999;131-133.
7.
Sloane PM, Griffin JF, O'Dwyer TP. Esophageal insufflation and videofluoroscopy for evaluation of esophaegeal speech in laryngectomy patients: clinical implications. Radiology, 1991;181:433-437.