gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Morphoogle - Eine medizinische CLIR Schnittstelle zu einer Web-Suchmaschine

Meeting Abstract

Suche in Medline nach

  • Philipp Daumke - Uniklinik Freiburg, Freiburg
  • Stefan Schulz - Uniklinik Freiburg, Freiburg
  • Kornel Marko - Uniklinik Freiburg, Freiburg

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds476

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds495.shtml

Veröffentlicht: 8. September 2005

© 2005 Daumke et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Medizinische Dokumentensuche stellt eine einzigartige Herausforderung für das Design und die Implementierung von Web-Suchmaschinen dar. Wir präsentieren eine multilinguale Suchmaschine für biomedizinischen Inhalt im WWW (http://www.coling.uni-freiburg.de/~coling/morphoogle/morphoogle.html). Diese basiert auf einer Methode zur automatischen Erzeugung interlingualer Suchanfragen, wodurch aus Nicht-Englischen biomedizinischen Nutzerabfragen mittels einer Standardsuchmaschine eine Menge von englischen Dokumenten als Suchergebnis generiert wird.

Morpho-Semantische Indexierung

Die Morpho-Semantische Indexierung (MSI) ist ein von den Autoren entwickeltes Verfahren, welches verschiedene intra- und interlinguale morphologische Phänomene wie Flexion, Derivation und Komposition berücksichtigt. Ihr Nutzen für die sprachübergreifende Dokumentenrecherche wurde bereits gezeigt [1]. Das Verfahren beinhaltet ein spezielles Subwort-Lexikon, deren Einträge die kleinsten bedeutungstragenden Einheiten biomedizinscher Begriffe darstellen. Subworte gleicher Bedeutung werden in sprachunabhängige Äquivalenzklassen als sogenannte Morphem-Identifiers (MIDs) zusammengefasst.

Die Morpho-Semantische Indexierung biomedizinischer Wörter besteht prinzipiell aus drei Schritten.

1.
orthografische Normalisierung: Zunächst werden sprachspezifische Ersetzungsregeln durchgeführt. So wird das deutsche ‚ß‘ in ‚ss‘ sowie die Umlaute ‚ä‘, ‚ö‘, und ‚ü‘ in ‚ae‘, ‚oe‘ und ‚ue‘ umgewandelt.
2.
Morphologische Segmentierung: Auf Basis des Subwort-Lexikons werden nun die orthografisch normalisierten Dokumente in semantisch sinnvolle Einheiten segmentiert. Mittels eines endlichen Automaten werden dabei ungültige Zerlegungen ausgeschlossen.
3.
Semantische Normalisierung: Anhand der Äquivalenzklassen werden nun alle relevanten lexikalischen Einheiten durch ihre entsprechenden MIDs ersetzt.

Das Ergebnis ist eine morpho-semantisch normalisierte, sprachunabhängige Darstellung dieser Wörter (siehe Abbildung 1 [Abb. 1]).

Biomedizinische CLIR Schnittstelle

Zunächst wurden aus verschiedenen frei verfügbaren, domänen- und sprachspezifischen Quellen große biomedizinische Textcorpora zusammengestellt. Diese berücksichtigen in abnehmender Corpusgröße die Sprachen Englisch, Deutsch, Spanisch, Portugiesisch und Schwedisch. Aus den Corpora werden durch einen Tokenizer Listen von Einzelwörtern sowie von Wortpaaren und -tripeln benachbarter Wörter gebildet (sog. Zielwörter). Als zusätzliche Information enthalten diese Listen die Häufigkeit freq des Auftretens der Zielwörter in den Textcorpora. Die Zielwörter werden nun der Morpho-Semantischen Indexierung unterzogen und in die Datenbank Dict geschrieben, die als Einträge folglich Tripel der folgenden Form enthält: (Zielwort, freq, MIDs). Die Datenbank enthält derzeit ca. zwei Millionen Einträge.

Ein Benutzer sendet über ein Web-Interface Anfragen an das Morphoogle-System. Diese Anfrage wird zunächst mittels der MSI-Prozedur in eine Folge von MIDs umgewandelt. Diese MIDs werden in einem nächsten Schritt zu einer Liste sog. Partitionen erweitert, deren einzelnen Elemente wir als subqueries bezeichnen. (siehe Abb. 2 [Abb. 2]). Alle subqueries werden nun mit den MIDs der Dict-Einträge verglichen (3. Spalte der Datenbank Dict) und die entsprechenden Datensätze extrahiert (Abbildung 3 [Abb. 3]).

Mit Hilfe dieser Datensätze und der Partitionsliste werden nun Zielanfragen generiert. Dabei dienen die Zielwörter als Instanzen der korrespondierenden subqueries in den einzelnen Partitionen (Abbildung 4 [Abb. 4]).

Diese Zielanfragen werden nun einzeln an eine Standard Web-Suchmaschine geschickt. Die anschließende Verflechtung der einzelnen Suchergebnisse erfolgt nach Summe der Trefferhäufigkeiten aus den einzelnen Anfragen sowie nach Rangposition innerhalb der Suchergebnisses der Suchmaschine.

Diskussion

Unser Ansatz bietet einen vielversprechenden Ansatz zur sprachübergreifenden Suche nach biomedizinischen Dokumenten im WWW. Eine Evaluation des Verfahrens wird derzeit durchgeführt.

Sprachspezifische Besonderheiten scheinen bei der Erzeugung der Zielanfragen besondere Probleme zu bereiten [2]. Darin sowie im Erhalt interlingualer Integrität unseres Subwort-Lexikons wird der Fokus zukünftiger Arbeit liegen.


Literatur

1.
Stefan Schulz und Udo Hahn. Morpheme-based, cross-lingual indexing for medical document retrieval. International Journal of Medical Informatics, 59(3):87-99, 2000.
2.
Turid Hedlund, Ari Pirkola, and Kalervo J¨arvelin. Aspects of Swedish morphology and semantics from the perspective of mono- and cross-language retrieval. Information Processing & Management, 37(1):147 161, 2001.