gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Multi-label Klassifikation von medizinischen Freitextdokumenten

Meeting Abstract

  • Stephan Spat - JOANNEUM Research GesmbH, Graz
  • Bruno Cadonna - JOANNEUM Research GesmbH, Graz
  • Ivo Rakovac - JOANNEUM Research GesmbH, Graz
  • Christian Gütl - Technische Universität Graz, Graz
  • Hubert Leitner - Steiermärkische Krankenanstaltenges. m.b.H., Graz
  • Güther Stark - Steiermärkische Krankenanstaltenges. m.b.H., Graz
  • Peter Beck - JOANNEUM Research GesmbH, Graz

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds390

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2007/07gmds390.shtml

Published: September 6, 2007

© 2007 Spat et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung / Hintergrund: Nahezu bei jeder Behandlung in medizinischen Einrichtungen werden medizinische Dokumente – oft als unstrukturierter Freitext – produziert und in elektronischen Patientenakten gespeichert. Mit dem stetigen Zuwachs an gespeicherten Freitextdokumenten, wächst der Bedarf an Methoden zur Auffindung relevanter Informationen. In dieser Arbeit beschreiben wir die Entwicklung und Evaluierung eines Systems zur automatisierten multi-label Klassifikation von medizinischen Textdokumenten in vordefinierte Kategorien.

Material / Methoden: Es wurden 1.500 unstrukturierte Textdokumente aus der elektronischen Patientenakte eines österreichischen allgemeinen Krankenhauses exportiert. Ein Fachexperte (Arzt) klassifizierte jedes Dokument manuell in einen oder mehrere der folgenden medizinischen Fachbereiche: Chirurgie, Gefäßchirurgie, Unfallchirurgie, Interne Medizin, Neurologie, Anästhesie/Intensiv, Radiologie und Physiotherapie. Durchschnittlich wurden 1,47 Labels (Kategorien) einem Dokument zugeordnet. Wir entwickelten ein multi-label Dokumentenklassifikationssystem (DKS) basierend auf WEKA [1], einem Open-Source Framework für Maschinelles Lernen. Vier Klassifikationsalgorithmen wurden anhand der manuell klassifizierten Dokumente mittels „10-fold cross validation“ [1] evaluiert: Naïve Bayes, k-NN, SMO und J48. Der Einfluss von Text-Vorverarbeitung (z.B. Stoppwortentfernung, Stemming, Kleinschreibung) auf das Klassifikationsergebnis wurde untersucht. Die F1-Measure [2] wurde als Erfolgsmaßzahl verwendet.

Ergebnisse: Die F1-Measures der Klassifikationsalgorithmen ohne Text-Vorverarbeitung betrugen:

  • Naïve Bayes: 0,811
  • 1-NN: 0,864
  • SMO: 0,850
  • J48: 0,877

Die Text-Vorverarbeitung, verbesserte die Ergebnisse folgendermaßen (prozentuelle Verbesserung):

  • Naïve Bayes: 0,824 (+1,53%)
  • 1-NN: 0,871 (+0,83%)
  • SMO: 0,864 (+1,61%)
  • J48: 0,886 (+1,05%)

Diskussion / Schlussfolgerungen: Die Ergebnisse zeigen, dass die automatisierte Klassifikation von medizinischen Freitextdokumenten aus einem allgemeinen Krankenhaus in medizinische Fachbereiche gute F1-Measures, vergleichbar mit [3], erreicht. Weiters deuten die Ergebnisse darauf hin, dass J48, 1-NN und SMO dem Naïve Bayes Klassifikationsalgorithmus vorzuziehen sind, was von [4] bestätigt wird. Es konnte eine Verbesserung des Klassifikationsergebnisses durch den Einsatz von Text-Vorverarbeitung gezeigt werden (vergleiche mit [5]). Das implementierte DKS wird in einem Prototyp für ein Information Retrieval System für medizinische Freitextdokumente eingesetzt.


Literatur

1.
Witten IH, Frank E. Data Mining: Practical machine learning tools and techniques. 2nd Edition, Morgan Kaufmann, San Francisco, 2005.
2.
Hripcsak G, Rothschild AS. Agreement, the F-Measure, and Reliability in Information Retrieval. J Am Med Inform Assoc. 2005;12(3):296-8.
3.
Wilcox A, Hripcsak G. Classification algorithms applied to narrative reports. Proc AMIA Symp. 1999:455-9.
4.
Joachims T. Text categorization with support vector machines: learning with many relevant features. In: Proceedings of ECML-98, 10th European Conference on Machine Learning, edited by C. Nédellec and C. Rouveirol, 1398. Springer Verlag, Heidelberg, DE, Chemnitz, DE, 1998. p. 137–42.
5.
Gonçalves T, Quaresma P. The impact of nlp techniques in the multilabel text classification problem. In: Intelligent Information Systems. 2004. p. 424–8.