gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Unterstützung interaktiver Strategien zur Medline-Literatursuche

Meeting Abstract

Suche in Medline nach

  • Cord Spreckelsen - Institut für Medizinische Informatik, RWTH Aachen, Aachen
  • Xin Liu - Institut für Medizinische Informatik, RWTH Aachen, Aachen
  • Klaus Spitzer - Institut für Medizinische Informatik, RWTH Aachen, Aachen

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds396

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2007/07gmds396.shtml

Veröffentlicht: 6. September 2007

© 2007 Spreckelsen et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Mit über 16 Mio. erfassten Fachpublikationen ist Pubmed/Medline [1] das wichtigste Werkzeug zur systematischen Literatursuche im biomedizinischen Bereich. Selbst präzise Suchanfragen führen zu umfangreichen Ergebnismengen. Diese lassen sich oft nicht mehr effizient sichten.

Im Sinne der Cluster-Hypothese [2] unterstützt eine Clusterung ähnlicher Publikationen die Suche. Projektziel ist die Unterstützung interaktiver Suchstrategien. Die Wahl passender Cluster durch die Nutzer fungiert dabei als Relevanz-Feedback. Als Benutzungsschnittstelle wurde ein Visualisierungsansatz entwickelt.

Material und Methoden: Die Anforderungsanalyse identifizierte den Star-Cluster-Algorithmus [3] als geeigneten Ausgangspunkt. Die Auswirkung verschiedener Ansätze zur Repräsentation bzw. Ähnlichkeitsbewertung auf die Clusterqualität wurde untersucht. Verglichen wurden zwei termstatistische Ähnlichkeitsbewertungen: I) Bag of Words und II) N-Gramm Encoding [4] und zwei schlagwortbasierte Verfahren: III) direkter Schlagwortvergleich IV) Vergleich mittels Subsumptionsgrad [5]. Die Bewertung der Clusterqualität [6] erfolgte mittels quantitativer Maße (Kompaktheit [7], CSMeasure [8]).

Ergebnisse: Die Clusterungsverfahren sind in Java implementiert. Zur Auswertung terminologischer Beziehungen (Ansatz IV) wurden die Medical Subjects Headings (MeSH) in einer XML-Datenbank (eXist) gespeichert. Zur Visualisierung dient ein Graph-Layouter. Austauschformat ist tgf (tiny graph format).

Testgrundlage waren Medline-Ergebnisse mit 100 bzw. 200 Einträgen. Erwartungsgemäß erfolgt die Clusterung in den Fällen I) und III) performant. Verfahren II) schneidet bezüglich Laufzeit und Clusterqualität am schlechtesten ab. Die beste Clusterqualität erzielt Ansatz IV - allerdings auf Kosten einer unbefriedigenden Laufzeit. Akzeptable Ergebnisse sich performant bereits mit der schlagwortbasierten Ähnlichkeitsbewertung (III) erzielen. Die Visualisierung der Cluster ist für die untersuchten Ergebnismengen performant, übersichtlich und praktikabel.

Diskussion: Alternative Ansätze sind eine schlagwortbasierte, baumartige Kategorisierung von Medline-Ergebnissen oder ein Data Mining in Medline-Deskriptoren [9]. Beide analysieren die Ergebnismenge einphasig. Demgegenüber setzt z.B. DualNAVI auf eine interaktive Sucheingrenzung durch Relevanzfeedback [10], [11]. Diesen Ansatz verfolgt auch das vorliegende Projekt, wobei abweichend als Feedbackschnittstelle nicht Konzeptnetze, sondern visualisierte Ergebniscluster dienen. Unter Bewertung struktureller Qualitätskriterien konnten erfolgreich geeignete Clusterungs- und Visualisierungsverfahren identifiziert und implementiert werden.


Literatur

1.
National Library of Medicine. Pubmed Portalseite. URL: http://pubmed.org [last accessed: 22.3.2007] Externer Link
2.
Jardine N, van Rijsbergen CJ. The use of hierarchic clustering in information retrieval. Information Storage and Retrieval. 1971;7(5): 217-240.
3.
Aslam JA, Pelekhov E, Rus D. The Star Clustering Algorithm for Static and Dynamic Information Organization. Journal of Graph Algorithms and Applications 2004;8(1): 95-129.
4.
Damashek M. Gauging Similarity via N-Grams: Language-independent Sorting, Categorization, Retrieval of Text. Science 1995; 267: 843-848.
5.
Leung Y. Intelligent Spatial Decision Support Systems. Springer, Berlin, Heidelberg, New York, 1997.
6.
Liu X. Terminologiebasierte Erweiterung termstatistischer Verfahren zur Unterstützung der medizinischen Literatursuche. Diplomarbeit, Studiengang Informatik, RWTH-Aachen, 2006.
7.
Zhang T, Ramakrishnan R, Livny M. Birch - A new data clustering algorithm and its applications. Data Mining and Knowledge Discovery 1(2):141-182.
8.
Chou CH, Su MC, Lai E. A New Cluster Validity Measure and Its Application to Image Compression. Pattern Analysis and Applications 2004;7(2): 205-220.
9.
Tenner H. Data Mining in der medizinischen Literaturdatenbank Medline. Dissertation, Medizinische Fakultät, TU München, 2004.
10.
Takano A, Niwa Y, Nishioka S, Iwayama M, Hisamitsu T, Imaichi O, Sakurai H. Associative information access using DualNAVI. International Conference on Digital Libraries: Research and Practice, 2000 Kyoto, 13-16 Nov. 2000: 192 - 196
11.
Butler D. Souped-up search engines. Nature 2000;405:112–115.