gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Entwicklung einer NLP-Pipeline für die deutsche medizinische Literatur

Meeting Abstract

Suche in Medline nach

  • Thorsten Seddig - Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg i. Br., Deutschland
  • Philipp Daumke - Averbis GmbH, Freiburg i. Br., Deutschland
  • Jan Paetzold - Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg i. Br., Deutschland
  • Kornel Markó - Averbis GmbH, Freiburg i. Br., Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMI21-5

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds215.shtml

Veröffentlicht: 10. September 2008

© 2008 Seddig et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Medizinische Dokumente enthalten sehr vielfältig brauchbare Informationen. Speziell in Arztbriefen findet man ICD-10 Kodierungen die für die DRG-Einstufung relevant sind. Ob diese Kodierungen nun seitens des Krankheitsbildes des Patienten korrekt sind oder ob sie im Rahmen der DRG-Einstufung relevant sind, kann mit der Hilfe von Textmining Methoden untermauert werden. Viele dieser Informationen liegen in freitextlicher Form vor. Darum ist es wichtig diese Formulierungen automatisch zu erkennen, um daraus Rückschlüsse auf deren Inhalte ziehen zu können.

In dieser Arbeit wird über die Entwicklung eines Systems zur automatischen Verarbeitung natürlicher Sprache berichtet, dass speziell für die deutsche Medizinsprache entwickelt wurde. Es besteht aus einem Satzerkenner, einem Worterkenner, Wortartenerkenner sowie einem Chunker. Diese Komponenten bauen auf der OpenNLP-Plattform [1], [2] auf. Wir arbeiten dabei mit einem statistischen Lernverfahren (Maximum Entropie) und somit nicht regelbasiert. Zum Trainieren unserer Komponenten verwenden wird das Annotated Medical Corpus (FRAMED) [3]. Die Ergebnisse sind vielversprechend und entsprechen den Ergebnissen typischer NLP-Systeme aus der Allgemeinsprache [4]. Wir wenden diese Pipeline auf die deutsche Literatur (medizinische Terminologien) an.

NLP-Pipeline

Die oben erwähnten Komponenten bauen in der angegebenen Reihenfolge aufeinander auf. Für jede Komponente muss ein separater Trainings-Korpus bereitgestellt werden. Zuerst werden die Sätze erkannt. Darauf aufbauend werden die einzelnen Wörter und Zeichen in dem Satz als Token typisiert. Der Wortartenerkenner typisiert jedes Token mit seiner Wortart. Der Chunker erkennt Satzphrasen aus den Token und deren Wortarten eines Satzes.

Trainingskorpus

Für das Trainieren der NLP-Pipeline wurde das Freiburger Annotated Medical Corpus (FRAMED) [3] verwendet. Es wurde an der Abteilung für medizinische Informatik in Freiburg aus verschiedenen medizinischen Quellen (Tabellen, Arztbriefe, Laborberichte) annotiert. Das Korpus besteht aus ca. 7.000 Sätzen mit 100.000 Wörtern. Für die Evaluation der vorgestellten NLP-Pipeline wurde das Korpus, welches in der ursprünglichen Form mit Sätzen, Wörtern und Wortarten annotiert wurde, zusätzlich um Chunks erweitert. Für die Annotation der Wortarten wird STTS (http://www.sfs.uni-tuebingen.de/Elwis/stts/stts.html, geprüft 19.04.08) verwendet, für die Annotation der Chunks verwenden wir die IOB-Notation [5]. Insofern sind diese deutschsprachigen Wortarten und Phrasen ein Teil des erlernten natürlichen Sprachmodells.

Evaluation

Für die Evaluation wurde der Trainingskorpus in einem automatischen Verfahren aufgeteilt in 90% Trainingsdaten und 10% Testdaten. Die NLP-Pipeline wurde auf den Trainingsdaten trainiert und das System anschließend auf den Testdaten evaluiert. Die Evaluation wurde für jedes NLP-Werkzeug 10 mal ausgeführt und anschließend ein Mittelwert berechnet. Tabelle 1 [Tab. 1] gibt eine Übersicht über die erzielten Ergebnisse:

Verwandte Arbeiten

Am JULIE Lehrstuhl in Jena [4] wurde eine NLP-Pipeline auf die englische Literatur angewendet und evaluiert (speziell der PennBioIE Korpus). Es handelt sich dabei auch um eine NLP-Pipeline aus der OpenNLP-Plattform. Die Satzerkennung lag bei diesem System bei 97,4%. Der Worterkenner erreichte eine Genauigkeit von 99%. Unser Wortartenerkenner schließt etwas schlechter ab wie in [4], mit 98,9%. Dies war zu erwarten, da sich das Tag-Set in [4] wesentlich von dem Stuttgarter Tag-Set unterscheidet und die deutsche Sprache im Satzaufbau vielfältiger ist (komplexerer allgemeiner Satzaufbau). Der Chunker erreichte bei dem PennBioIE Korpus 89,5%. Der Framed-Corpus wurde automatisch, d.h. mit einem regelbasierten Verfahren, annotiert, da es bis heute keine manuell durchgeführte Annotierung des Corpus gibt. Unter diesen Gesichtspunkten wurde ein F1-Maß von 95,1% erreicht.

Das MEDLEE System [6], [7] ist ein regelbasiertes System, welches ebenfalls in der medizinischen Domäne angewendet worden ist. Dieses System versucht den freien Text auf medizinische Terminologien abzubilden. Es ist in drei Phasen aufgebaut. Zuerst wird der Text geparst. Anschließend werden die gefundenen Terme durch ein Mapping auf Mehr-Wort-Phrasen weiter vereinfacht bzw. spezialisiert. Die letzte Phase beschäftigt sich nur mit dem Mapping der bislang gefundenen Terme auf ein kontrolliertes Vokabular (Terminologische Klassifizierung). Der Recall liegt bei 85% und die Precision liegt bei 87%. Die MEDLEE Ergebnisse sind auf alle Phasen gemeinsam bezogen. Da wir uns erst in der ersten Phase befinden, können wir diese Ergebnisse nur unter diesem Vorbehalt mit unseren Ergebnissen vergleichen.

Hinsichtlich der Portabilität auf andere Sprachen, wie bei unserer Parser-Pipeline gezeigt, können wir unser Verfahren sprachübergreifend übertragen. Dies bezieht sich auf die praktische Umsetzung. Es ist ausreichend das Trainingskorpus anzupassen. Wir müssen die Implementierung nur geringfügig verändern. Davon ist bei dem regelbasierten MEDLEE System nicht auszugehen. Ein sprachübergreifendes Mapping auf medizinische Terme ist bei MEDLEE nicht in Erwägung gezogen worden. In diesem Zusammenhang spielt das MorphoSaurus System [8] eine wichtige Rolle. Dieses System erlaubt ein tieferes Parsing der ersten Phase, indem die Subwörter der einzelnen Terme sprach- und konzeptübergreifend auf gemeinsame Bezeichner abgebildet werden. Dies unterstützt ein sprach- und konzeptübergreifendes Mapping.

Diskussion

Die erzielten Evaluationsergebnisse sind insgesamt sehr ermutigend und entsprechen denen gängiger NLP-Systeme, die auf Zeitungstexten trainiert wurden. Wie in [6], [7] beschrieben, dienen solche Werkzeuge als wichtige Grundlage für differenziertere Fragestellungen medizinischer Sprachverarbeitung. Dazu zählen die automatisierte Erkennung von Diagnosen aus ärztlichen Arztbriefen zum Zweck der Leistungsabrechnung ebenso, wie die Entwicklung von Arzneimittelwarnsystemen basierend auf einem automatischen Abgleich von Patienteninformationen mit pharmazeutischen Fachinformationen. Derartige Systeme werden derzeit von den Autoren entwickelt [9].


Literatur

1.
Berger A, Della Pietra S, Della Pietra V. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics, vol. 22, no. 1, March 1996
2.
Ratnaparkhi A. Maximum Entropy Models for Natural Language Ambiguity Resolution. PhD thesis, University of Pennsylvania 1998.
3.
Wermter J, Hahn, U. An Annotated German-Language Medical Text Corpus as Language Resource. LREC 2004 - Proceedings of the 4th International Conference on Language Resources and Evaluation. 2004. pp.473-476.
4.
Buyko, et al. Automatically Adapting an NLP Core Engine to the Biology Domain. BioLink & Bio-Ontoligies SIG Meeting 2006, Fortaleza, Brasil.
5.
Ramshaw LA, Marcus MP. Text Chunking using Transformation-based Learning. In: Proceeding of the 3rd ACL Workshop on Very Large Corpora at ACL’95. 1995.
6.
Friedman C, Alderson PO, Austin JH, Cimino JJ, Johnson SB. A general natural-language text processor for clinical radiology. Columbia University, New York, NY, USA
7.
Suzanne Bakken, Sookyung Hyun, Carol Friedman, Stephen Johnson. A Comparison of Semantic Categories of the ISO Reference Terminology Models for Nursing and the MedLEE Natural Language Processing System, School of Nursing and Department of Biomedical Informatics, Columbia University, New York, New York USA
8.
Markó K, Daumke P, Schulz S, Klar R, Hahn U. Large-Scale Evaluation of a Medical Cross-Language Information Retrieval System. Proceedings of the 12th World Congress on Medical Informatics, MedInfo '07, Brisbane, Australia (Studies in Health Technology and Informatics, Vol. 129). 2007: 392-396
9.
Seddig T, Hanser S, Balzer F, Marko K, Daumke P, Schulz S. Generierung von Diagnosehypothesen für die DRG-Kodierung durch semantische Analyse der Medikation in Arztbriefen, GMDS 2008.