gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Generierung von Diagnosehypothesen für die DRG-Kodierung durch semantische Analyse der Medikation in Arztbriefen

Meeting Abstract

  • Thorsten Seddig - Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg i. Br., Deutschland
  • Susanne Hanser - Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg i. Br., Deutschland
  • Felix Blazer - Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg i. Br., Deutschland
  • Kornel Markó - Averbis GmbH, Freiburg i. Br., Deutschland
  • Philipp Daumke - Averbis GmbH, Freiburg i. Br., Deutschland
  • Stefan Schulz - Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg i. Br., Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMI3-1

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds111.shtml

Veröffentlicht: 10. September 2008

© 2008 Seddig et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Die Qualität der pauschalierten Patientenklassifizierung nach dem DRG (Diagnosis related groups) - System zur Bewertung der Entgelte für stationäre Leistungen macht eine sorgfältige ICD-10-Kodierung unabdingbar. Obwohl sich in den vergangenen Jahren die Kodierqualität deutlich verbessert hat, ist nach wie vor von einer signifikanten Rate von Unterkodierungen – insbesondere von Nebendiagnosen – auszugehen [1], [2]. Die Durchsicht der Patientenakte durch Medizincontroller, um „vergessene“ Diagnosen aufzuspüren und zu ergänzen, ist mühsame und zeitaufwändige Detektivarbeit und daher auf Stichproben beschränkt. Hierbei ist oft die üblicherweise im Arztbrief enthaltene Entlassmedikation ein wertvolles Indiz.

Im Rahmen eines Pilotprojektes sollen Hypothesen generiert werden, die eine Beziehung zwischen Medikamenten und Diagnosen in Arztbriefen widerspiegeln. Diese Hypothesen sollen dann die Vorhersage (DRG-) relevanter Diagnosen bei gegebener Medikation in Arztbriefen automatisieren. Wir berichten hier über eine erste Studie im Rahmen dieses Projektes, welche sich auf Patienten mit M. Parkinson beschränkt.

Material und Methoden

Um generell eine Parkinsonmedikation in einem elektronischen Dokument lokalisieren zu können, haben wir einen Klassifikator entwickelt, der auf der Maximum Entropy - Technologie [3] aufbaut. Zunächst extrahierten wir aus den Medikamenten-Fachinformationen von MMI (http://www.mmi.de/, geprüft am 18.04.08) und Abdamed (http://www.abdata.de/, geprüft am 18.04.08) 213 Namen von Parkinsonmedikamenten und –wirkstoffen. Dieser Klassifikator nimmt die Parkinsonmedikamente und ihre Wirkstoffe als Lexikoneinträge und vergleicht in einem Arztbrief alle vorkommenden Wörter daraufhin, ob ihre Editierdistanz nach Levenshtein [4] zu einem Lexikoneintrag gleich 0 ist. Alle Buchstaben wurden dabei in Kleinbuchstaben normiert. Dies induziert eine Hypothese auf eine Parkinsonmedikation. Allerdings ist nicht jede in einem Arztbrief erwähnte Parkinsonmedikation auch der Anlass für eine (DRG-) relevante Parkinsondiagnose. So könnten im Abschnitt zur Familienanamnese Medikamente erwähnt werden, die Angehörige in der Vergangenheit eingenommen haben. Um solche Erwähnungen von Parkinsonmedikamenten generell von denen in der Entlassmedikation unterscheiden zu können, versuchten wir, typische Textabschnitte in Arztbriefen zu identifizieren.

Die untersuchten Arztbriefe lagen im RTF-Format vor. Hier ist ein Abschnitt durch die wiederholte Zeichenfolge „

“ (Zeilenumbruch) gekennzeichnet. Es gibt viele Wörter, die wie das Wort „Anamnese“ auf einen solchen Abschnitt hindeuten können (Familienanamnese, ...). Um diesen Sachverhalt besser abbilden zu können, verwenden wir das MorphoSaurus-System [5], welches Wörter in ihre Bestandteile zerlegt und bedeutungsgleiche Wortfragmente auf semantische Bezeichner abbildet. Dasselbe Verfahren wird auch für die Lokalisierung von Abschnitten verwendet, die eine Entlassmedikation enthalten. Als Ergebnis erhalten wir zwei verschiedene Abschnittstypen (Anamnese und Entlassmedikation), welche wie kombiniert mit dem lokalisierten Parkinsonmedikament als Kontexteigenschaften betrachten. Diese Kontexteigenschaften korrelieren mit den (DRG-) relevanten Parkinsondiagnosen, die wir nach dem Modell der Formal Concept Analysis [6] als Kontextobjekte betrachten. Wir sprechen dann von einem hypothetischen Kontext. Die Evaluation wird nun Aufschluss darüber geben, inwieweit dieser manuell aufgestellte hypothetische Kontext die realen Sachverhalte richtig widerspiegelt.

Evaluation

Für das Jahr 2007 wurde für 100 Patienten manuell im Klinikinformationssystem [7] nachgewiesen, dass bei ihnen eine Parkinsondiagnose (ICD-10 G20 - G22) vorlag. Ausgehend von diesen Behandlungsfällen wurden dann alle (700) Arztbriefe aus 2006 und 2007 angefordert. Um auch vergleichbare Behandlungsfälle ohne Parkinson-Diagnose zu erhalten, wurde bei einem Teil der Parkinsonfälle bewusst auf ältere Behandlungsfälle der selektierten Patienten zurückgegriffen. Auf diese Weise stellten wir randomisiert eine Testmenge aus 200 Arztbriefen und eine Trainings- und Verifikationsmenge von 500 Arztbriefen zusammen. Wir klassifizierten diese Fälle manuell durch sorgfältige Durchsicht der Arztbriefe nach den folgenden Kriterien.

1.
M. Parkinson aufgrund der Angaben im Arztbrief vorhanden: ja / nein
2.
Parkinsonmedikation im Arztbrief erwähnt: ja / nein.

Ergebnisse

Aus den 200 Arztbriefen der Testmenge ist in 182 Fällen nach Expertenmeinung dem Patienten eine Parkinsondiagnose zuzuschreiben. In 168 Behandlungsfällen wurde die Parkinsondiagnose im Arztbrief erwähnt (Tabelle 1 [Tab. 1]). Bei 14 Behandlungsfällen war eine solche Diagnose offensichtlich vergessen worden. 12 der 14 Behandlungsfälle, in denen die Parkinsondiagnose im Arztbrief fehlte, konnten mit der Hilfe dieses Textmining-Verfahrens identifiziert werden. Somit ergibt dies einen Recall von 86% und eine Precision von 100%. Dass es keine falsch positiven Fälle gab, lässt sich dadurch erklären, dass der Einsatz von Parkinsonmedikamenten sehr spezifisch ist und es kaum Fälle gibt, in denen diese Medikamente auch bei anderen Krankheitsbildern verschrieben werden. In den beiden nicht gefundenen Fällen handelte es sich zum einen um einen Rechtschreibfehler und zum anderen um ein RTF-Artefakt, welches den Medikamentnamen „Madopar“ in der Mitte trennte.

Diskussion

Die Ergebnisse ermutigen uns, das Verfahren auf andere Krankheiten auszuweiten. Hierbei müssen allerdings folgende Punkte Berücksichtigung finden:

  • In den meisten Fällen haben Medikamente mehrere Indikationen, so dass der Schluss von Medikamenten auf Krankheiten nicht eindeutig ist und somit auch mit falsch positiven Fällen zu rechnen ist.
  • Da Personennamen und Medikamentennamen ähnlich sein können, ist der Editierdistanzvergleich kein eindeutiges Indiz für einen Medikamentennamen. Aufgrund des Dokumentenformats und der wenig standardisierten Formulierung ist mit vielen Varianten zu rechnen.
  • Der menschliche Faktor bei der Erstellung der Arztbriefe spielt eine wichtige Rolle im Falle von Rechtschreibfehlern und der freien Anordnung der Inhalte in Textabschnitten.

Literatur

1.
Stausberg J. Die Kodierqualität der stationären Versorgung. Bundesgesundheitsblatt, Gesundheitsforschung, Gesundheitschutz 2007; 20: 1039–46.
2.
Linczak G. Studie zur Kodierqualität in der OP-Dokumentation einer unfallchirurgischen Klinik. MDI 2004, Heft 2 – 2004, Seiten: 58 – 60.
3.
Ratnaparkhi A. Maximum Entropy Models for Natural Language Ambiguity Resolution. PhD thesis, University of Pennsylvania 1998.
4.
Levenshtein VI. Binary codes capable of correcting deletions, insertions, and reversals. In: Doklady Akademii Nauk SSSR, 163(4) S. 845-848, 1965 (Russisch). Englische Übersetzung in: Soviet Physics Doklady 1966; 10(8): 707-10.
5.
Markó K, Daumke P, Schulz S, Klar R, Hahn U. Large-Scale Evaluation of a Medical Cross-Language Information Retrieval System. Proceedings of the 12th World Congress on Medical Informatics, MedInfo '07, Brisbane, Australia (Studies in Health Technology and Informatics, Vol. 129). 2007: 392-6.
6.
Ganter B, Stumme G, Wille R (Eds.). Formal Concept Analysis, Foundations and Applications. Lecture Notes in Computer Science 3626 Springer 2005, ISBN 3-540-27891-5.
7.
Klar R, Schrader U, Timmermann U, Zaiß A. The Information System of the Freiburger University Hospital. In: Adlassing, KP, et al.(Hrsg.). Medical Informatics Europe'91, Proceedings, Vienna, Austria, August91, Springer Verlag Berlin 1991, 46-50