gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Automatische Klassifikation medizinischer Dokumente nach Sprache und Zielgruppe für Text-Retrieval-Systeme

Meeting Abstract

Suche in Medline nach

  • Michael Poprat - Universität Jena, Jena
  • Kornél Markó - Medizinische Informatik, Freiburg
  • Udo Hahn - Universität Jena, Jena

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds541

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds439.shtml

Veröffentlicht: 8. September 2005

© 2005 Poprat et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Die Suche nach Informationen in der Menge der medizinischen Dokumenten, wie sie im Web zu finden ist, stellt Experten (Ärzte, Forscher) und Laien (Bürger, Patienten) vor das Problem, auf eine Suchanfrage hin ihrer Expertise entsprechende Dokumente zu erhalten. Besonders Patienten kennen häufig die Fachausdrücke ihrer Krankheiten und verwenden diese in der Suche, sind aber dann mit Expertentexten konfrontiert, deren Inhalt sie nicht verstehen. Ärzte, die international gebräuchliche Fachtermini verwenden, treffen auf fremdsprachliche Dokumente, die sie oft nicht übersetzen können. Textklassifikationssysteme bieten jedoch die Möglichkeit, Dokumente automatisch nach vorgegebenen Kategorien zu klassifizieren und so Suchergebnisse zu filtern. In der vorliegenden Studien schlagen wir ein solches System vor und zeigen, dass medizinische Texte automatisch und mit einer hohen Präzision nach Sprache und Zielgruppe klassifiziert werden können. Wir motivieren eine Integration dieses Systems in eine multilinguale Dokumenten-Suchmaschine.

Klassifikationsmethode und Korpora

Unter den zahlreichen Textklassifikationsansätzen [1] verwenden wir hier eine vergleichbar einfache Methode, die in der TextCat-Software (http://odur.let.rug.nl/~vannoord/TextCat/, letzter Zugriff: 15.04.05) implementiert ist. Der Ansatz [2] beruht auf dem Vergleich zwischen geordneten n-Gramm-Listen aus Zeichen (s. Tabelle 1 [Tab. 1]), die aus einer Menge bereits klassifizierter Dokumente extrahiert werden (Kategorienmodelle), und geordneten n-Gramm-Listen, die aus den zu klassifizierenden Dokumenten erstellt werden (Dokumentenmodelle). Durch die Summe der Verschiebungen der Positionen gleicher n-Gramme in den Kategorien- und in einem Dokumentenmodell wird ein Gesamtscore errechnet; der minimalste Gesamtscore entscheidet über die Zugehörigkeit des Dokuments zu einer Kategorie.

Da die TextCat-Software in erster Linie für die Erkennung von Sprachen entwickelt wurde, beinhaltet sie bereits Sprachmodelle (language models (LM)) u.a. für das Deutsche (DE), Englische (EN) und Spanische (SP), die wir unverändert für diese Studie übernahmen. Um automatisch nach der Zielgruppe des Dokuments klassifizieren zu können, mussten sprachspezifische Experten- und Laienmodelle erstellt werden. Zu diesem Zweck wurden große Textsammlungen (zwischen 900 und 7000 Dokumente) aus dem Web (netdoctor, scielo, m-ww, mayoclinic, familydoctor; Web-Dokumente wurden von HTML- und anderen Darstellungselementen, von Hyperlinks sowie von häufig wiederkehrenden Zeilen (z.B. Copyright-Vermerke) befreit.) und aus elektronisch verfügbaren Publikationen (Medline, Merck) akquiriert und randomisiert in Test- und Trainingsmengen aufgeteilt (im gleichen Verhältnis). Um sprachspezifische n-Gramm-Modelle für die Kategorie der Experten- und Laientexte zu erstellen, wurden die Trainingsdokumente entsprechend ihrer Sprache und ihrer Zielgruppe (z.B. Merck: Expertentexte, netdoctor: Laientexte) unterteilt.

Experimenteller Aufbau, Ergebnisse und Diskussion

Aus den hier beschriebenen Ansprüchen ergeben sich folgende Klassifikationsstufen: Die Dokumente der Testdatenmenge werden zunächst mit dem TextCat-System und den mitgelieferten Sprachmodellen nach deren Sprache klassifiziert. Die Genauigkeit der Klassifikation (s. Tabelle 2 [Tab. 2]) liegt hierbei für englische und spanische Dokumente bei nahezu 100%, für deutsche Texte bei 95% (Eine Analyse dieser "falsch" klassifizierten Dokumente zeigt, dass deren Inhalt tatsächlich zum größten Teil Englisch ist und die manuelle Sprachklassifikation, nicht aber die automatische Klassifikation falsch ist.).

Im weiteren Schritt werden die nun nach Sprache sortierten Dokumente anhand der in der Trainingsphase erstellten Modelle automatisch in Experten- und Laientexte unterteilt. Auch hier ergeben sich vielversprechende Ergebnisse: 89,4% der deutschen Texten werden korrekt klassifiziert, für das Englische und das Spanische ist die Klassifikationsgenauigkeit im Gesamtergebnis ca. 5 Prozentpunkte höher.

Zwei Auffälligkeiten in den Ergebnissen bleiben zu diskutieren. Zum einen zeigt sich, dass die Klassifikationsgenauigkeit nach Sprache ca. 5-6 Prozentpunkte über dem der Zielgruppenklassifikation liegt. Der Grund hierfür liegt nahe: Sprachen lassen sich leicht an deren Set an Zeichen (z.B. Umlauten) und Zeichenkombinationen charakterisieren. Die Unterscheidung zwischen Experten- und Laiendokumenten unterliegt dagegen inhaltlich-semantischen Kriterien. Es ist umso verblüffender, dass sich diese Differenzierung mit einer solch hohen Präzision auch anhand zeichenbasierter n-Gramm-Listen errechnen lässt.

Eine Antwort auf die geringere Klassifikationsgenauigkeit nach der Zielgruppe für deutsche Texte im Vergleich zu englischen und spanischen liefert ein Blick in die Trainingsdatenmenge: diese besteht zu einem großen Teil aus kurzen und englischsprachigen Dokumenten und ist somit zur Erstellung der Modelle nur suboptimal. Trotzdem versprechen die Ergebnisse für alle Sprachen einen hohen Gebrauchswert des einfachen TextCat-Systems für diese Klassifikationsaufgabe.

Integration des Klassifikationssystems in ein multilinguales Text-Retrieval-System

Die vorliegende Arbeit ist unseres Wissens die erste Studie, in der gezeigt wird, dass medizinische Texte unter dem Blickwinkel der Zielgruppe klassifiziert werden können. Die Autoren in [3] bedienen sich zwar derselben Software, jedoch mit dem Ziel der Genre-Unterscheidung medizinischer Dokumente. Die hohe Klassifikationsgenauigkeit und die einfache Methode legen eine Integration in ein Gesundheitsinformationssystem nahe. Basierend auf dem mehrsprachigen und sprachübergreifenden Mophosaurus-System [4] wurde eine Suchmaschine erstellt, in der ein Prototyp des hier vorgestellten Klassifikationssystems integriert wurde (s. Abbildung 1 [Abb. 1]). Die Information über Sprache und Zielgruppe wurde in einem Präprozess den Dokumenten als Index unter Verwendung der Modelle, die in dieser Studien entstanden sind, hinzugefügt. Diese zusätzlichen Angaben fungieren innerhalb des Systems als Filter, sodass Retrievalergebnisse sowohl nach Sprache als auch nach Zielgruppe automatisch sortiert werden können. Auf zwei Auffälligkeiten, die im Screenshot zu sehen sind, soll hingewiesen werden. Zum einen können innerhalb der Dokumentenquelle „Das Deutsche Ärzteblatt“, das bzgl. seiner Zielgruppe einen heterogenen Charakter aufweist, zwischen Experten- und Laientexten unterschieden werden. Zum anderen war diese Quelle nicht Teil der Trainingsdatenmenge, was andeutet, dass eine Klassifikation beliebiger medizinischer Dokumenten möglich ist.


Literatur

1.
Sebastiani F. Machine learning in automated categorization. ACM Computing Surveys 2002; 34(1): 1-47.
2.
Cavnar WB, Trenkle JM: N-Gram-Based Text Categorization. In: Proc. of 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, 1994
3.
Hahn U, Wermter J: Pumping Documents through a Domain and Genre Classification Pipeline. In: Proceedings of 4th Int. Conference on Language Resources and Evaluation (LREC), 2004
4.
Markó K, Schulz S, Wermter J, Poprat M, Hahn U: Cross-Language Document Retrieval with Morphosaurus. In: Tagungsband der GMDS '04, Innsbruck, Austria. 2004