gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Verwendung syntaktischer Informationen zur Verarbeitung medizinischer Texte

Meeting Abstract

Search Medline for

  • Kerstin Denecke - ID Berlin, Berlin
  • F. Diekmann - Berlin
  • I. Kohlhof - Berlin

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds021

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2005/05gmds491.shtml

Published: September 8, 2005

© 2005 Denecke et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung

Medizinische Dokumentation spielt im klinischen Alltag zur Unterstützung und Begleitung eines Behandlungsprozesses eine große Rolle. Um einen Arzt beim Erstellen und Verarbeiten von elektronischen medizinischen Dokumenten zu unterstützen, wäre es hilfreich, wenn seine natürliche Sprache rechnergestützt ausgewertet und weiterverarbeitet werden könnte. Doch die Vielzahl an Ausdrucksmöglichkeiten der natürlichen Sprache erschwert eine automatische Verarbeitung. Bestehen dennoch Möglichkeiten, zufriedenstellende Ergebnisse bei einer rechnergestützten Verarbeitung zu erhalten?

Wir betrachten diese Fragestellung anhand der computergestützten Kodierung deutschsprachiger Diagnosen und Prozeduren nach den Klassifikationssystemen ICD-10 bzw. OPS-301 [1]. Dazu werden Potenziale syntaktischer Analyse medizinischer Phrasen untersucht. Auf Grundlage von syntaktischen Strukturen werden Verbesserungspotenziale der computergestützten Kodierung analysiert.

Material und Methoden

Computergestützte Kodierung

Ein Kodiertool unterstützt einen Arzt bei der Kodierung, indem zu einer Sucheingabe (Diagnose oder Prozedur) eine Liste von Klassifikationstexten, die auf die Sucheingabe passen könnten, geliefert werden. Aus dieser muss ein Arzt dann noch den gewünschten Zieltext auswählen. Erstrebenswert sind Listen mit möglichst wenigen Einträgen, die vor allem den gewünschten Text enthalten. Problematisch ist dabei, zu verschiedenen freitextlich formulierten Diagnosen bzw. Prozeduren, die aber den selben Sachverhalt ausdrücken, jeweils den inhaltlich entsprechenden Klassifikationstext zu finden.

Syntaktische Analyse - Chunk Parsing

Aufgrund der Besonderheiten der medizinischen Sprache (morphologisch-syntaktische Reduktion (Telegrammstil), Wortkompositionen, oft keine finiten Verben, d.h. keine grammatisch wohlgeformten Sätze) kann sie am besten einer flachen, robusten Analyse durch einen Parser unterworfen werden. Für die Untersuchungen wurde daher ein flacher Chunk-Parser ausgewählt, der versucht, die syntaktische Struktur einer Phrase so weit wie möglich zu erschließen und robust gegenüber fehlerhaften bzw. unbekannten Wörtern ist.

In vielen Grammatikmodellen [2] wird davon ausgegangen, dass der Kopf einer Phrase ein besonders relevantes Element ist und deren grammatisches Verhalten bestimmt. In der Phrase die rote Haut zum Beispiel steuert das Nomen Haut das Genus Femininum von Artikel und Adjektiv. Die anderen Konstituenten einer Phrase, zusammengefasst als Modifikatoren, können vor oder hinter dem Kopf stehen (Hier im Beispiel steht das Adjektiv rote als Modifikator vor dem Nomen.).

Linguistische Eigenschaften des Eingabematerials

Für die Untersuchungen dieser Arbeit werden aus der Menge der medizinischen Texte Klassifikationstexte der ICD-10 bzw. des OPS-301 sowie freitextlich formulierte Diagnosen und Prozeduren aus anonymisierten Originaldokumenten gewählt. Während freitextlich formulierte Diagnosen und Prozeduren sehr flexibel im Ausdruck sind, zeigen die Klassifikationstexte aufgrund einer terminologischen Standardisierung nur eine begrenzte Varianz im Ausdruck. Zu dem Klassifikationstext S20.2 Prellung des Thorax sind zum Beispiel die folgenden Sucheingaben möglich: Prellung des Thorax; Thoraxprellung; geprellter Thorax; Thorax, der geprellt ist.

Ergebnisse

Auf Grundlage der vorgestellten grammatischen Relationen in Phrasen (Kopf, Modifikator) wird das folgende Konzept zur Verwendung der vom Parser gelieferten Strukturen aufgestellt: Zu einer Sucheingabe sollen passende Klassifikationstexte ermittelt werden. Dazu analysiert ein Parser Such- und Zieltext syntaktisch und liefert Informationen zu den einzelnen Konstituenten sowie deren Relationen. Bei der Zusammenstellung der Klassifikationstexte für die Ergebnisliste werden die grammatischen Relationen (Kopf, Modifikator) berücksichtigt.

Die Informationen zu Relationen sind wichtig, da Wörter in Abhängigkeit von ihrer grammatischen Relation innerhalb der Phrase unterschiedliche Bedeutungen hervorrufen können. Zum Beispiel ist die Bedeutung von Muskelbauch (= Bauch des Muskels, Bauch ist Kopf des Kompositums) nicht gleich der des Wortes Bauchmuskel (= Muskel des Bauches, Muskel ist Kopf des Kompositums). Daher müssen beim Vergleich der Wörter immer auch die syntaktischen Informationen berücksichtigt werden. Da der Kopf einer Phrase deren bedeutungsvollster Teil ist (vgl. Material und Methoden) müssen Such- und Zieltext im Kopf der Phrase übereinstimmen bzw. sollte zumindest der Kopf der Eingabe im Klassifikationstext enthalten sein. Nur so erhält man eine möglichst große inhaltliche Übereinstimmung. Abbildung 1 [Abb. 1] zeigt den Ablauf der computergestützten Kodierung mit integrierter syntaktischer Analyse nach dem beschriebenen Konzept.

In einem nächsten Schritt wurde auf Basis dieses Grundkonzeptes die Verarbeitung der drei Strukturtypen Wortkomposition (z.B. Urogenitalkrankheiten, Herz-Kreislauf-Monitoring), Negation (z.B. keine Refluxösophagitis) und Koordination (z.B. Oberarm- und Unterschenkelfraktur, Thoraxprellung und Oberarmfraktur) in Hinblick auf die angestrebte Verbesserung der computergestützten Kodierung untersucht. Insgesamt wurde festgestellt:

  • Die Berücksichtigung syntaktischer Funktionen ermöglicht eine differenziertere Suche und kann damit die Qualität der computergestützten Kodierung wesentlich verbessern (u.a. Ergebnislisten der Suche verkürzen).
  • Die syntaktischen Strukturen und Annotationen einer linguistischen Analyse können besonders die korrekte Verarbeitung negierter Phrasen und Wortkompositionen unterstützen.
  • Koordinationsstrukturen können nur begrenzt allein mit syntaktischen Informationen bearbeitet werden, da sie häufig strukturell mehrdeutig sind.

Diskussion

Neben den ermittelten Verbesserungsmöglichkeiten bei der computergestützten Verarbeitung natürlicher Sprache, zeigen die Untersuchungen auch, dass nicht alle auftretenden Problemstellungen allein mit syntaktischen Informationen gelöst werden können.

In den Überlegungen werden nur die durch Syntax erzeugten Relationen betrachtet. Die dahinterliegenden semantischen Konzepte bleiben ohne Berücksichtigung. Damit sind einige Probleme nicht lösbar (syntaktische Mehrdeutigkeiten auflösen, inhaltliche Bedeutung von Präpositionen erfassen, Ellipsen erkennen und korrekt weiter verarbeiten). Um diesen Problemen zu begegnen, kann eine syntaktische Analyse durch eine Komponente zur semantischen Repräsentation (z.B. ein semantisches Netz) ergänzt werden und auf diese Weise die Inhalte syntaktischer Einheiten semantisch untergraben. Übergeordnetes Ziel von Untersuchungen wie dieser hier ist die automatische Verarbeitung natürlichsprachlicher medizinischer Texte und damit das gezielte Wiederfinden und Wiederverwenden von Informationen. Das Erkennen grundlegender syntaktischer Beziehungen, die ein Parser liefert, verbessert die Voraussetzungen dafür wesentlich.


Literatur

1.
DIMDI (Hrsg.). Internationale Statistische Klassifikation der Krankheiten und verwandter Gesundheitsprobleme. 10.Revision, Version 2004, German Modification. Operationen- und Prozedurenschlüssel nach § 301 SGB-V. Version 2004. http://www.dimdi.de.
2.
Stechow, A, Sternefeld, W. Bausteine syntaktischen Wissens. Westdeutscher Verlag, Opladen, 1988
3.
Denecke, K. Diplomarbeit: Zum Parsen medizinischer Freitexte: Möglichkeiten und Grenzen. Technische Universität Braunschweig, August 2004