gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

AMIX: Ein System zur automatischen MeSH-Indexierung

Meeting Abstract

Search Medline for

  • Olaf Wilken - Universität zu Lübeck, Lübeck
  • Josef Ingenerf - Universität zu Lübeck, Lübeck

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds436

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2005/05gmds492.shtml

Published: September 8, 2005

© 2005 Wilken et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung

Eine automatische Indexierung von Volltextdokumenten mit Schlagwörtern aus kontrollierten Vokabularien bekommt mit der anvisierten Realisierung des Semantic Web eine neue Dynamik. Die Bemühungen hängen aber entscheidend von der effizienten Bereitstellung der Schlagworte für große Mengen von Volltexten ab. Das gilt auch für die elektronischen Kursmaterialen zum Hochschulstudium der „Medizinischen Informatik“, die im bereits beendeten MEDIN-Projekt entstanden sind. Eines der Ziele war eine kursübergreifende Recherche und Navigation der XML-basierten Online-Kurse in einem MEDIN-Portal [1]. Voraussetzung ist eine möglichst rechnergestützte Verschlagwortung sämtlicher Dokumente.

Als kontrolliertes Vokabular bietet sich die Verwendung des MeSH-Thesaurus an. Vor allem in den 80er und 90er Jahren wurden zahlreiche Systeme zur automatischen MeSH-Indexierung entwickelt. Diese stehen jedoch überwiegend für die englische Sprache zur Verfügung [2], [3]. Für die deutsche Sprache sind allenfalls die Freiburger Ansätze basierend auf dem Morphosaurus-Ansatz zu nennen [4]. Das System AMIX (Automatische MeSH-Indexierung von XML-Dokumenten) wurde einerseits neu entwickelt, weil Systeme nicht verfügbar oder kaum in das komplexe XML-basierte MEDIN-Portal technisch zu integrieren sind. Andererseits zeigen alle Evaluationen vorhandener Lösungen, dass die Vollständigkeit und Korrektheit vollautomatisch extrahierter Schlagworte inhärent limitiert sind. Statt dem Wettbewerb um Recall und Präzision eine weitere Variante hinzuzufügen, wurde Wert auf ein hohes Maß an Parametrisierbarkeit und Interaktivität gelegt. Neben einem vollautomatischen Modus existieren Werkzeuge zur intellektuellen Nachbesserung.

Material und Methoden

Der Indexierungsansatz basiert auf einer Idee, die bereits im Rahmen einer automatisierten SNOMED-Kodierung realisiert [5] und wiederverwendet wurde [6]. Dabei werden prinzipiell zwei identische Phasen sowohl initial zur MeSH-Aufbereitung als auch für die eigentliche Verarbeitung von Dokumenten durchlaufen. In der ersten Phase werden in einem parametrisierbaren Normalisierungsprozess sämtliche Wörter selektiert und transformiert, z.B. Umlaute oder Sonderzeichen. In einer zweiten Phase werden die originalen Mehrwort-Einträge des MeSH rekonstruiert.

Abb. 1 [Abb. 1] zeigt das Ergebnis der initialen Erzeugung von Hilfstabellen. Man erkennt in der Tabelle „MeSH“, wie für jedes selektierte Wort ein eigener Tabelleneintrag mit der jeweiligen Wortnummer erzeugt wurde. Durch die Phasentrennung lassen sich anspruchsvolle Algorithmen auf morphologischer Ebene zur Deflexion von Wortformen oder zur Komposita-Zerlegung unabhängig anwenden, z.B. Ergänzung flektierter Wortformen wie „medizinisch“ (WortNr 1). Hiermit kann der Recall und die Präzision der AMIX-Indexierung in entkoppelten Optimierungsprozessen erhöht werden, z.B. durch Berücksichtigung des deutschen Spezial-Lexikons [7].

Zur Bearbeitung der zu indexierenden Dokumente werden basierend auf den erstellten „Hilfstabellen“ im Wesentlichen die geschilderten zwei Phasen durchlaufen. Auf Einzelheiten wird im Vortrag eingegangen, siehe auch nächstes Kapitel.

Die Implementierung erfolgte in Java. Durch den Einsatz effizienter Algorithmen (z.B. mit Hash-Techniken) konnten beachtliche Laufzeiten erzielt werden. Die Datenbestände werden in MySQL verwaltet. Neben einfachen ASCII-Dokumenten ist aus Sicht der MEDIN-Anwendung die Verarbeitung komplexer XML-Dokumente erforderlich. Ein XML-Parser basierend auf JDOM wurde hierzu integriert.

Ergebnisse und Diskussion

In Abb. 2 [Abb. 2] werden Screen-Shots mehrerer Zustände des AMIX-Systems gezeigt, die während der Indexierung eines Abschnittes dieses Abstracts durchlaufen werden. Für den geladenen Text oder für markierte Textausschnitte wird zunächst die erste Phase gestartet (A). Abhängig von den Einstellungen (z.B. Stoppworte, Trennzeichen) werden die gefundenen Worte aus dem MeSH in einem neuen Fenster angezeigt. Danach wurde die zweite Phase im Modus „vollautomatisch“ gestartet. Gefundene MeSH-Einträge werden blau (hier: unterstrichen) markiert. Zu den gefundenen Ergebnissen lassen sich Informationen inkl. Online-Kodierhilfen aufrufen (B). Die nicht indexierbaren, aber gefundenen Worte werden rot (hier: gestrichelt) markiert. Im Modus „halbautomatisch“ werden zu diesen Kandidaten mögliche MeSH-Einträge angezeigt (C). Der Benutzer kann die Kandidaten (hier zu „projekt“) für eine intellektuelle Indexierung studieren und sich für einen Kandidaten entscheiden. Im manuellen Modus erscheint der Dialog unter (C) für alle gefundenen Worte.

Das AMIX-System wird aktuell für die rechnergestützte Indexierung der Kursmaterialen aus dem MEDIN-Projekt verwendet. Die Ergebnisse sind ermutigend. Weitere Anwendungen des Systems für Verschlagwortungen im Kontext von Semantic Web-Anwendungen werden erwogen.


Literatur

1.
Sagbas, ET, Ingenerf, J, Kulbe, K, Pöppl, SJ (2003). Kursübergreifende Recherche und Navigation von XML-basierten Online-Kursen zur "Medizinischen Informatik" unter Verwendung einer Erweiterung des MeSH-Thesaurus. In: Abstracts der 48. Jahrestagung der GMDS in Münster. Informatik, Biometrie und Epidemiologie in Medizin und Biologie 34 (3): 565-567.
2.
Cooper, GF, Miller, RA (1998). An experiment comparing lexical and statistical methods for extracting MeSH terms from clinical free text. J Am Med Inform Assoc 5 (1): 62-75.
3.
Hersh, W, Leone, TJ (1995). The SAPHIRE server: a new algorithm and implementation. In: Gardner, RM (ed.). SCAMC 95. Philadelphia: Hanley & Belfus, 858-862.
4.
Daumke, P, Markó, K, Schulz, S, Wermter, J (2003). Automatische MeSH-Indexierung auf der Basis morphosemantischer Normalisierung. In: Abstracts. der 48. Jahrestagung der GMDS, Münster, 14-19. September 2003. Informatik, Biometrie und Epidemiologie in Medizin und Biologie 34 (3): 225-228.
5.
Ingenerf, J, Haux, R, Repges, R, Richter, MM (1988). Wissensbasiertes Indexieren von medizinischen Phrasen auf der Basis von SNOMED: Methodik und Realisation von EIDOS. In: Rienhoff, O (ed.). 33. GMDS-Jahrestagung in Hannover, Sept. 1988. 455-461.
6.
Brigl, B, Mieth, M, Haux, R, Gluck, E (1994). The LBI-method for automated indexing of diagnoses by using SNOMED. Part 1. Design and realization. Int J Biomed Comput 37 (3): 237-247.
7.
Weske-Heck, G, Zaiss, A, Zabel, M, Schulz, S, Giere, W, Schopen, M, Klar, R (2002). The German Specialist Lexicon. In: Proc. of the AMIA 2002, Hanley & Belfus, 884-888.