GMS | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) | Verbesserung der Codierqualität durch eine effektive automatische Tippfehlerkorrektur

54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. bis 10.09.2009, Essen

Artikel

XML Version

Artikel empfehlen

Verbesserung der Codierqualität durch eine effektive automatische Tippfehlerkorrektur

Meeting Abstract

Suche in Medline nach

Lukas Faulstich - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin
Frank Müller - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin
Florian Hofmann - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin
Bamba Dione - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Essen, 07.-10.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09gmds177

doi: 10.3205/09gmds177, urn:nbn:de:0183-09gmds1774

Veröffentlicht:	2. September 2009

© 2009 Faulstich et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.

Gliederung

Text

Bei der medizinischen Codierung suchen Nutzer von Codiersystemen in medizinischen Klassifikationen. Dabei enthalten etwa 10% der Sucheinhgaben Tippfehler. Werden diese nicht effektiv korrigiert, entstehen Irritationen, die den Codierablauf behindern und wertvolle Zeit kosten. Das Codiersystem ID DIACOS® besitzt daher seit langem eine Autokorrektur. Um diese allerdings noch mehr den spezifischen Bedürfnissen medizinischer Texte anzupassen, bedarf es einer Evaluierung anhand von Testdaten, die Sucheingaben mit Tippfehlern geeignete Zielcodes zuordnen.

Da große manuell erstellte Testdatensätze einen hohen Aufwand erfordern, haben wir ein automatisches Verfahren entwickelt, mit dem Testdaten erzeugt wurden. Tippfehler entstehen keineswegs zufällig. Manche Fehler sind sehr viel wahrscheinlicher als andere (z.B. ei <-> ie). Daher wurden zunächst Tippfehler aus echten Sucheingaben auf Muster untersucht. Diese Muster wurden genutzt, um in Klassifikationstexten (z.B. ICD) automatisch typische Tippfehler zu erzeugen, die hier aufgrund von Sprache (Latein/Griechisch) und Inhalt von Tippfehlern „normaler“ Sprache abweichen. Solche Tippfehler sind z.B. „retinla“ oder „Dermatitsi“. Mit den so erzeugten Texten wurde dann der entsprechende Code gesucht. Eine Untersuchung der Fehlermuster zeigte die spezifischen Schwächen des bisherigen Autokorrekturalgorithmus. Obgleich in Textverarbeitungsprogrammen vielfach eingesetzt, ist die Schreibfehlerkorrektur durchaus Gegenstand aktueller Forschung [1]. Der neu implementierte Algorithmus basiert auf einer modifizierten Levenstein-Distanz [2]. Dazu wurde der klassische Dynamic-Programming-Algorithmus [3] optimiert und mit einem an üblichen Rechtschreibfehlern orientierten Kostenmodell versehen, das sich aus den Erfahrungen mit den automatisch erzeugten Tippfehlern speist.

Der Anteil der nicht gefundenen Codes sank nach der Einführung des neuen Autokorrekturalgorithmus um 35% auf den automatisch erzeugten Tippfehlern. Gleichzeitig verbesserten sich die Suchergebnisse auf den Nutzer-Echteingaben leicht, ohne dass sich Verschlechterungen aufgrund des neuen Algorithmus zeigten. Ungewollte Nebeneffekte konnten also ausgeschlossen werden. Mit dem verbesserten Korrekturalgorithmus werden durch Tippfehler verursachte Verzögerungen im Codierablauf deutlich verringert und gleichzeitig die Codierqualität gesteigert, indem Nutzern bessere Suchergebnisse angeboten werden.

Gliederung

Literatur

1.: Fossati D, Di Eugenio B. I saw TREE trees in the park: How to correct real-word spelling mistakes. LREC. 2008:896-90. http://www.lrec-conf.org/proceedings/lrec2008/pdf/227_paper.pdf
2.: Levenshtein VI. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady. 1966;10:707–710.
3.: Wagner RA, Fischer MJ. The string-to-string correction problem. J ACM. 1974;21:168-173.

gms | German Medical Science

54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

Artikel

Verbesserung der Codierqualität durch eine effektive automatische Tippfehlerkorrektur

Suche in Medline nach

Autoren

Gliederung

Text

Literatur