gms | German Medical Science

54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. bis 10.09.2009, Essen

Verbesserung der Codierqualität durch eine effektive automatische Tippfehlerkorrektur

Meeting Abstract

  • Lukas Faulstich - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin
  • Frank Müller - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin
  • Florian Hofmann - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin
  • Bamba Dione - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Essen, 07.-10.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09gmds177

DOI: 10.3205/09gmds177, URN: urn:nbn:de:0183-09gmds1774

Published: September 2, 2009

© 2009 Faulstich et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Bei der medizinischen Codierung suchen Nutzer von Codiersystemen in medizinischen Klassifikationen. Dabei enthalten etwa 10% der Sucheinhgaben Tippfehler. Werden diese nicht effektiv korrigiert, entstehen Irritationen, die den Codierablauf behindern und wertvolle Zeit kosten. Das Codiersystem ID DIACOS® besitzt daher seit langem eine Autokorrektur. Um diese allerdings noch mehr den spezifischen Bedürfnissen medizinischer Texte anzupassen, bedarf es einer Evaluierung anhand von Testdaten, die Sucheingaben mit Tippfehlern geeignete Zielcodes zuordnen.

Da große manuell erstellte Testdatensätze einen hohen Aufwand erfordern, haben wir ein automatisches Verfahren entwickelt, mit dem Testdaten erzeugt wurden. Tippfehler entstehen keineswegs zufällig. Manche Fehler sind sehr viel wahrscheinlicher als andere (z.B. ei <-> ie). Daher wurden zunächst Tippfehler aus echten Sucheingaben auf Muster untersucht. Diese Muster wurden genutzt, um in Klassifikationstexten (z.B. ICD) automatisch typische Tippfehler zu erzeugen, die hier aufgrund von Sprache (Latein/Griechisch) und Inhalt von Tippfehlern „normaler“ Sprache abweichen. Solche Tippfehler sind z.B. „retinla“ oder „Dermatitsi“. Mit den so erzeugten Texten wurde dann der entsprechende Code gesucht. Eine Untersuchung der Fehlermuster zeigte die spezifischen Schwächen des bisherigen Autokorrekturalgorithmus. Obgleich in Textverarbeitungsprogrammen vielfach eingesetzt, ist die Schreibfehlerkorrektur durchaus Gegenstand aktueller Forschung [1]. Der neu implementierte Algorithmus basiert auf einer modifizierten Levenstein-Distanz [2]. Dazu wurde der klassische Dynamic-Programming-Algorithmus [3] optimiert und mit einem an üblichen Rechtschreibfehlern orientierten Kostenmodell versehen, das sich aus den Erfahrungen mit den automatisch erzeugten Tippfehlern speist.

Der Anteil der nicht gefundenen Codes sank nach der Einführung des neuen Autokorrekturalgorithmus um 35% auf den automatisch erzeugten Tippfehlern. Gleichzeitig verbesserten sich die Suchergebnisse auf den Nutzer-Echteingaben leicht, ohne dass sich Verschlechterungen aufgrund des neuen Algorithmus zeigten. Ungewollte Nebeneffekte konnten also ausgeschlossen werden. Mit dem verbesserten Korrekturalgorithmus werden durch Tippfehler verursachte Verzögerungen im Codierablauf deutlich verringert und gleichzeitig die Codierqualität gesteigert, indem Nutzern bessere Suchergebnisse angeboten werden.


Literatur

1.
Fossati D, Di Eugenio B. I saw TREE trees in the park: How to correct real-word spelling mistakes. LREC. 2008:896-90. http://www.lrec-conf.org/proceedings/lrec2008/pdf/227_paper.pdf External link
2.
Levenshtein VI. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady. 1966;10:707–710.
3.
Wagner RA, Fischer MJ. The string-to-string correction problem. J ACM. 1974;21:168-173.