gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Wie können Ambiguitäten bei der automatisierten Diagnosekodierung aufgelöst werden?

Meeting Abstract (gmds2004)

Suche in Medline nach

  • corresponding author presenting/speaker Hans Rudolf Straub - Semfinder AG, Kreuzlingen, Schweiz
  • Norbert Frei - Fachhochschule St. Gallen, St. Gallen, Schweiz
  • Csaba Perger - Semfinder AG, Kreuzlingen, Schweiz
  • Annette Ulrich - Semfinder AG, Kreuzlingen, Schweiz

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds170

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds170.shtml

Veröffentlicht: 14. September 2004

© 2004 Straub et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Die automatisierte Diagnosekodierung stellt es sich zur Aufgabe, aus Texten möglichst ohne weitere Eingriffe direkt zum richtigen Kode (ICD-10) zu gelangen. Das Ziel wird durch verschiedene Aspekte erschwert - z.B. durch die Tatsache, dass eine Diagnose oft mehrere Kodes gleichzeitig erfordert und durch die "kombinatorische Explosion", die es verunmöglicht, Listen anzulegen, die zu jedem Kode alle denkbaren Texte bereithalten. Eine besondere Herausforderung stellen Ambiguitäten dar, Diagnosewörter, die je nach Kontext verschiedene Bedeutung haben können.

Beispiele

Ambiguitäten sind häufiger als man erwartet. Auf folgende Kategorien sei speziell hingewiesen:

A: Abkürzungen:

Im Klinikalltag werden oft Buchstabentriplets wie HWI (Harnwegsinfekt / Hinterwandinfarkt) oder SVT (Sinusvenenthrombose / supraventrikuläre Tachykardie) verwendet, die je nach Fachgebiet ihre klare Bedeutung haben, allein aber mehrdeutig sind.

B: Übertragene Bedeutungen:

Anatomisch ist "Kopf" genauso wie "Arm" oder "Rumpf" ein Körperteil und somit im Kontext der medizinischen Diagnosen klar einzuordnen. Allerdings ist der Ausdruck "Kopf" auch in der Anatomie des Armes (Kopf des Humerus) und des Rumpfes (Kopf des Pankreas) vorzufinden. Solche übertragenen Wortbedeutungen - ähnliches gilt für Hals (Cervix), Korpus und Fuss - dürfen ein Computerprogramm nicht auf falsche Fährten führen.

C: Mehrdeutiger semantischer Typ:

Das Wort "Blase" kann sowohl ein Organ (Harnblase/Gallenblase) wie ein Symptom (Hautblase) meinen. Diese Art Ambiguität ist häufiger als man denkt. So kann z.B. ein "Verschluss" ein pathologisches Geschehen sein (im weitesten Sinn eine Diagnose) oder auch ein ärztlicher Eingriff (eine Prozedur).

D: Gleicher semantischer Typ mit unterschiedlicher Bedeutung je nach Kontext:

Eine "AV-Fistel" kann pathologisch sein (angeboren, erworben, traumatisch, postoperativ) oder bewusst angelegt (Dialyseshunt). Obwohl es sich immer um dasselbe handelt - nämlich um einen Kurzschluss zwischen Arterie und Vene - ist die Bedeutung verschieden, sowohl medizinisch wie bezüglich Kodierung.

E: Gleicher Begriff mit unterschiedlicher Kodierung je nach Attributen:

Eine "Appendizitis" kann mit unterschiedlichen Kodes belegt werden, je nach Vorhandensein und Art der Komplikationen. Die Mehrdeutigkeit bezieht sich somit nicht auf das Wort und seine Bedeutung, sondern auf die Konsequenz bezüglich der Kodierung. Interessanterweise kommt es in der Programmierung der Wissensbasis gar nicht darauf an, ob ein mehrdeutiges Wort vorliegt oder ob ein eindeutiges Wort nicht selber genügend Informationen mitbringt für eine eindeutige Verschlüsselung. In beiden Fällen muss aus dem Kontext zusätzliche Information eingeholt werden - und es stellt sich die Frage, wo und wie. Diese wollen wir hier beantworten.

Lösung

Im Prinzip muss die automatisierte Kodierung soviel aus dem eingegebenen Text extrahieren wie möglich. Wenn die Ambiguität auch dann noch nicht aufgelöst werden kann, muss das Programm dem Anwender eine möglichst gezielte Frage stellen.

So kann aus der Eingabe "HWI mit E. coli" die Ambiguität bei "HWI" eindeutig aufgelöst werden, denn die Coli-Bakterien charakterisieren die Diagnose als Infekt und nicht als Infarkt. Ebenso ist bei einem "HWI mit VHF" das Vorhofflimmern (VHF) ein so starker Hinweis auf das kardiale Geschehen, dass ein Harnwegsinfekt auszuschliessen und ein Hinterwandinfarkt anzunehmen ist.

In beiden Fällen stellt sich die Frage, wie die Schlussregeln (Inferenzen) möglichst einfach im Regelpool der Wissensbasis abgebildet werden können. Wie können wir mit möglichst wenig Regeln möglichst viele potentielle Eingaben desambiguieren?

Entscheidend ist, dass wir bei der Desambiguierung die Schlüsselinformation möglichst direkt abfragen können. Bei "HWI mit E. coli" ist die Schlüsselinformation diejenige, dass es sich um einen Erreger handelt. Umgekehrt ist beim "VHF" die ungenannte, aber implizite Information "Herz" die Schlüsselinformation, die bei "HWI mit VHF" entscheidet. Wir müssen also dafür sorgen, dass die impliziten Informationen "Erreger" aus "E.coli" und "Herz" aus "VHF" bei der Interpretation automatisch und klar abrufbar entstehen.

Ein genuin semantisches System kann die beiden Schlüsselinformationen einfach und direkt für Abfragen zur Verfügung stellen. Die Ambiguität kann dadurch mit wenigen Regeln für sehr viele Fälle gelöst werden und dem Anwender werden für die Kodierung keine zusätzlichen Fragen gestellt.

Umgekehrt kann das System aber auch feststellen, in welchen Fällen es nicht über genügend Information für die Kodierung verfügt. Auch eine solche Konstellation kann nur semantisch, d.h. unter inhaltlicher Interpretation des gesamten verfügbaren Eingabetextes entschieden werden. Falls eine Frage an den Kodierer notwendig wird, kann das System - wiederum mit semantischen Methoden - die Frage zielgerichtet stellen.

Ergebnisse und Diskussion

Ambiguitäten sind bei der Erschliessung natürlichsprachlicher Texte sehr häufig. Da bei der Auflösung der Ambiguitäten implizites Wissen eine Rolle spielt, sind rein stringvergleichende Methoden (Thesauren, Morpheme) nicht wirkungsvoll einsetzbar. Wahrscheinlichkeitsbasierte Methoden wären vorstellbar, sind in Anbetracht der Komplexität der Fälle aber schwer zu handhaben und unsicher zu kontrollieren. Mit dem Einsatz einer genuin semantischen Methode hingegen (Begriffsmoleküle [1]) können die Regeln für die Auflösung der Ambiguität sehr einfach und direkt dargestellt werden.

Dies ist nur möglich, weil das den Begriffsmolekülen zugrundeliegende Datenmodell eine komplexe Modellierung erlaubt. Mit einfachen hierarchischen oder multidimensionalen Ontologien (SNOMED) könnten die komplexen Sachverhalte nur sehr umständlich formuliert werden. Neben dem Datenmodell spielt auch das optische Erscheinungsbild, die Notation der Regeln eine grosse Rolle. Weil die Wissensbasis für die Diagnosekodierung sehr umfangreich ist und die Regeln auf eine verschachtelte Art ineinandergreifen, ist es nötig, die Regeln einfach lesbar darzustellen. Die Begriffsmoleküle, die auf die einfache Darstellung und die schnelle Lesbarkeit komplexer Zusammenhänge hin konzipiert wurden, ermöglichen es, auch die sehr ausgedehnte Wissensbasis für die ICD-10 Diagnosekodierung durchschaubar, wartbar und erweiterbar zu halten - gerade auch bei komplizierten Aufgaben wie der automatisierten Auflösung von Ambiguitäten.


Literatur

1.
Straub HR. Das interpretierende System, Wortverständnis und Begriffsrepräsentation in Mensch und Maschine. Wolfertswil: Z/I/M-Verlag, 2001