gms | German Medical Science

100 Jahre Phoniatrie in Deutschland
22. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie
24. Kongress der Union Europäischer Phoniater

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.

16. bis 18.09.2005, Berlin

Ein System zur netzwerkbasierten Aufnahme, Analyse und Auswertung von Stimmsignalen

A method to the recording, analysis and evaluation of voice signals based on networks

Vortrag

Suche in Medline nach

  • corresponding author presenting/speaker Malte Kob - Lehr- und Forschungsgebiet für Phoniatrie und Pädaudiologie, RWTH - Universitätsklinikum Aachen, Aachen, Deutschland
  • author Sebastian Krämer - Lehr- und Forschungsgebiet für Phoniatrie und Pädaudiologie, RWTH - Universitätsklinikum Aachen, Aachen, Deutschland
  • author Christiane Neuschaefer-Rube - Lehr- und Forschungsgebiet für Phoniatrie und Pädaudiologie, RWTH - Universitätsklinikum Aachen, Aachen, Deutschland

100 Jahre Phoniatrie in Deutschland. 22. Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie, 24. Kongress der Union der Europäischen Phoniater. Berlin, 16.-18.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05dgppV33

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/dgpp2005/05dgpp092.shtml

Veröffentlicht: 15. September 2005

© 2005 Kob et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Noch gibt es keine einheitlichen nationalen oder internationalen Normen zur Durchführung hochqualitativer Stimmaufnahmen oder zur Analyse von Stimmpathologien, was die Durchführung vergleichender Studien sehr erschwert. Existierende Produkte sind entweder recht teuer und/oder decken nur einen Teil der Anforderungen in der Stimmdiagnostik ab. Ziel der seit 2003 im Rahmen studentischer Arbeiten der RWTH und FH Aachen/Jülich am Lehr- und Forschungsgebiet für Phoniatrie und Pädaudiologie entwickelten Software ist es, ein System zur dezentralen Aufnahme von qualitätsgesicherten Signalen zu schaffen, die nachfolgend zentral gespeichert und ausgewertet werden. Neben dem Vorteil des ortsungebundenen Zugriffs auf die Daten erhöht die Vermeidung der lokalen Ablage patientenbezogener Daten die Datensicherheit. Die Aufnahmequalität der importierten oder per Soundkarte direkt erstellten Aufnahme wird von einem JAVA-Applet automatisch beurteilt und stellt eine Eignung der Signale für nachfolgende Analysen sicher. Module mit Algorithmen zur Analyse von Stimmparametern können über JAVA-Servlets einfach in das System integriert werden. Es lassen sich sowohl therapiebegleitende Verlaufsbefunde ausgewählter Parameter als auch gruppenbezogene Vergleichsmessungen erstellen. Die Speicherung der Daten im XML-Format erlaubt einen Im- und Export beliebiger anderer Formate. Ein differenziertes Rechtesystem stellt den Datenschutz sicher.


Text

Einleitung

In diesem Vortrag wird ein System vorgestellt, mit dem es möglich ist, qualitätsgeprüfte Aufnahmen von Stimmsignalen an verteilten Rechnern vorzunehmen und sie auf einen Server zur Speicherung und Analyse zu übertragen. Aufgabe des Systems ist es, mit Hilfe akustischer Stimmparameter die logopädischen und phoniatrischen Befunde zu ergänzen und die Diagnosefindung zu unterstützen. Weiteres Ziel ist die Dokumentation von Therapieverläufen anhand der zeitlichen Veränderung krankheitsspezifischer Stimmparameter. Gegenüber der Stimmanalyse auf Einplatz-Rechnern hat das verteilte System den Vorteil, dass keine sensiblen Patientendaten auf dem Aufnahmerechner verbleiben und rechenintensive Analysen von einem leistungsstarken Server vorgenommen werden können (siehe Abbildung 1, links [Abb. 1]). Der Aufnahmerechner (Client) übernimmt hierbei die Aufnahme und die Ergebnisdarstellung. Zur Umsetzung dieses Systems wurde die Sprache Java gewählt, da sie besonders gut eine Kommunikation über Netzwerke ermöglicht und es einfach ist Erweiterungen, sogenannte Plugins, zu erstellen [1]. Dazu wurde das System mit einer offen definierten Schnittstelle ausgestattet, die es Dritten ermöglicht Erweiterungen zu erstellen und die Leistungsfähigkeit des Systems zu verbessern. Für die Darstellung der Ergebnisse sollen leicht erfassbare Visualisierungen benutzt werden, die eine schnelle Interpretation des Stimmparameters erlauben. Um den Verlauf von Therapien zu verfolgen, können beliebige Parameter, die vom System berechnet wurden, über der Zeit dargestellt werden.

Alle Daten werden zentral in einer relationalen Datenbank gespeichert, was einen schnellen Zugriff sicher stellt. Die Ablage der Ergebnisdaten geschieht überwiegend im XML-Format (eXtensible Markup Language). Dies bietet die Möglichkeit, die Ergebnisse in beliebige andere Formate zu wandeln und gestattet anderen Befundanalyse-Systemen die Daten einfach einzulesen bzw. zu bearbeiten.

Methode

Aufnahme:

Damit die nachfolgenden Analysen mit verwertbarem Befundmaterial durchgeführt werden können, ist die Qualitätsüberprüfung schon bei der Aufnahme wichtig. Hier werden bei der Aufnahme zwei Qualitätsmerkmale ermittelt und dargestellt. Das ist zum einen der Signal-Rausch-Abstand (SNR, engl. Signal-to-Noise-Ratio), der die Stärke des Signals in Bezug auf das enthaltene Rauschen angibt und zum anderen die Prüfung ob das Signal übersteuert wurde. Kommt es zu einer Übersteuerung, einem „Clipping", so wird das Signal nicht adäquat gespeichert, da es bei der Wandlung vom Analogen ins Digitale den Zahlenbereich in den gespeichert werden kann überschreitet. Tritt dieses Clipping auf, so muss die Aufnahme mit korrigierter Mikrophonaussteuerung wiederholt werden. Bei der Aufnahme werden Clippingbereiche im Signalverlauf rot dargestellt (siehe Abbildung 1, Mitte [Abb. 1]) und automatisch verworfen [2], [3].

Bei jeder Aufnahme gibt es Signalteile, die nicht für eine Auswertung verwendet werden sollten, z.B. der Beginn oder das Ende der Aufnahme (bei geringen Pegeln ist der SNR noch zu niedrig). Werden in einer Aufnahme Sequenzen aufgenommen, so gibt es Pausen, die als irrelevant markiert und ausgeschnitten werden können.

Analyse:

Die Analysen sind jeweils als Module (oder Plugins) ausgeführt. Das bedeutet, sie sind nicht starr ins System integriert, sondern werden zur Laufzeit eingebunden. So entsteht die Möglichkeit ohne großen Aufwand neue Analysemodule zu erstellen und dem System hinzuzufügen. Jedem Modul steht dabei die Möglichkeit zur Verfügung einen Teil der Benutzeroberfläche selbst bestimmt zu verwenden und seine Ergebnisse dem Anwender zu präsentieren.

Der Teil des Analysemoduls, der die Darstellung übernimmt ist als Java-Applet ausgeführt, da er auf dem Client läuft. Die Teile, die die rechenintensiven Auswertungen der Signale vornehmen, sollten aber auf dem leistungsstarken Server berechnet werden. Diese Teile müssen dann als Java-Servlet implementiert sein. Das System bietet Plugins viele Möglichkeiten auf die Daten der Patienten und die Aufnahmen zuzugreifen. So kann ein neues Modul einfach erstellt werden, da die meisten komplizierten Zugriffe vom System zur Verfügung gestellt werden.

Die bisher im System vorhandenen Analysemodule sind:

- Grundfrequenzanalyse (siehe Abbildung 1, rechts [Abb. 1])

- Jitter- und Shimmer-Analyse

- Göttinger-Heiserkeitsdiagramm

- Stimmfeld-Darstellung (siehe Abbildung 2, links [Abb. 2])

- Frequenzspektrum

- Verlaufsstudienmodul

Weitere Module (z.B. LPC-Analyse) zur Stimm- und Sprechsignalanalyse sind in Entwicklung.

Darstellung:

Zur Rohwert-Analyse wurden verschiedene grafische Visualisierungstools entwickelt (siehe Abbildungen 1, rechts [Abb. 1] und 2, links [Abb. 2]).

Hierbei wird jedem Applet ein bestimmter Bereich der Bedienoberfläche zugewiesen, wobei zwischen den einzelnen Analyse-Applets mit Karteikartenreitern (so genannten Tabs) umgeschaltet werden kann. Das ermöglicht dem Ersteller des Analysemoduls eine freie Gestaltung der Darstellung.

Die Auswahl der darzustellenden Aufnahme findet in einer baumartigen Liste statt (siehe Abbildung 2, Mitte [Abb. 2]), die zu jedem Patienten die vorhandenen Aufnahmen und Datensätze, wie zum Beispiel Stimmfelder, chronologisch anordnet. Dabei wurde darauf geachtet den Typ der jeweiligen Eingangsdaten mittels Icons zu symbolisieren.

Die Analyseergebnisse der in der Liste ausgewählten Datensätze werden dann in einem eigenen Teil des Fensters dargestellt (siehe Abbildungen 1, rechts [Abb. 1] und 2, links [Abb. 2]). Module, die den ausgewählten Datensatz nicht auswerten können, werden deaktiviert.

Ergebnis - Auswertung

Die über die Aufnahmen gewonnenen Rohdaten können sowohl in Form von Einzelauswertungen, als auch vergleichend als Gruppen- oder Zeitverläufe ausgegeben werden. Ein solcher Verlauf ist in Abbildung 2, rechts [Abb. 2] dargestellt. Im linken Fensterteil (siehe Abbildung 2, Mitte [Abb. 2]) werden die einzelnen Aufnahmen angezeigt und können zur Darstellung ausgewählt werden. Dabei werden die verschiedenen Untersuchungsgänge untereinander aufgelistet. Im rechten Fensterteil kann dann der Parameter, der gezeichnet werden soll, ausgewählt werden. Hierzu werden alle Parameter, die in der Datenbank existieren, zur Verfügung gestellt. Im Beispiel kann man nun also sehen, ob sich die Grundfrequenz im Mittel verändert hat.

Diskussion

Das System wird zurzeit im klinischen und wissenschaftlichen Alltag erprobt. Anschließend ist der Einsatz für die klinikinterne Befunddokumentation in der Stimmdiagnostik und -therapie vorgesehen. Mit der Möglichkeit des Ausbaus mit weiteren Analyseverfahren, können auch bisher nicht in der Praxis verfügbare Methoden einfach nutzbar gemacht werden. Die prinzipielle Verfügbarkeit über das Internet erweitert den potentiellen Nutzerkreis, so dass z.B. logopädische Praxen ohne eigene Geräte zur akustischen Stimmanalyse die Verfahren nutzen könnten. Für die Forschung interessant sind die Möglichkeiten überregional kooperierender Datenaufnehmer im Falle von Multi-Center-Studien.


Literatur

1.
S. Krämer: Analyse und Visualisierung von Stimmparametern mit einer Java-basierten Client/Server Umgebung. Diplomarbeit, Fachhochschule Jülich, 2004
2.
P. Schwabe: Assessment of Sound Quality from recorded voice samples. Studienarbeit am Lehr- und Forschungsgebiet für Phoniatrie und Pädaudiologie der RWTH Aachen, 2004
3.
P. Hof: Graphical Representation of Voice Recordings for Medical Analysis. Studienarbeit am Lehr- und Forschungsgebiet für Phoniatrie und Pädaudiologie der RWTH Aachen, 2004
4.
B. Lißmann, R. Katzer, M. Kob: Akustische Klassifikation von Stimmstörungen, Forschritte der Akustik - DAGA 2003, 788-789