gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Neue Methoden und Techniken der Informationsaufbereitung und -suche

Meeting Abstract

Suche in Medline nach

  • Christian Spohn - metainfo-Systems, Stuttgart

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds599

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds435.shtml

Veröffentlicht: 8. September 2005

© 2005 Spohn.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Im Gegensatz zum klassischen Information Retrieval, das auf mathematisch statistischen Modellen beruht, verfolgt diese neuartige Suchtechnologie einen sprachorientierten Ansatz: Da Denken ohne Sprache nicht möglich ist, gilt umgekehrt, dass die Sprache auch der Schlüssel zu unserem Denken darstellt. Sprache in schriftlicher Form sind Dokumente.

Deshalb werden nicht (wie im Falle des klassisches Information Retrieval) Informationen oder Dokumente zusammengefasst, verschlagwortet oder kategorisiert d.h. Informationen verdichtet oder abstrahiert (was selbstverständlich als Information über Information mit einbezogen werden kann), sondern in eine objektive, d.h. sichtweisenunabhänge Darstellung transformiert (automatische Generierung von Metastrukturen).

Diese Transformation ist die Voraussetzung dafür, dass die Vielfalt sprachlicher Formulierungs- und Ausdrucksmöglichkeiten ausgeschöpft und für die Wissens- oder Informationserschließung genutzt werden kann. Dieses Verfahren lässt sich auch für schwach strukturierte Informationen (i.e. reine Texte) anwenden. So wurde unter anderem die Fachinformation/Rote Liste oder die Wikipedia mit dieser Technologie bearbeitet.

Im Falle annotierter Information (z.B. SGML/XML) oder stark strukturierter Information (z.B. Datenbanken) lassen sich automatische Informationsassoziationen und Informationsabstraktionen generieren. Diese können ebenfalls für die Suche genützt werden, sie ermöglichen erweitertes Knowledge Management. Vollständige und reproduzierbare Recherche von und vor allem auch in Dokumenten, d.h. wissenschaftliche Recherche, lässt sich auf diese Weise realisieren.

Methoden und Techniken

Information Retrieval entpuppt sich bei genauerer Betrachtung als komplexer Prozess. Hier soll eine Technologie vorgestellt werden, die vom Einsammeln (crawling) über die Informationsaufbereitung (Parsing und Erzeugung des für das Retrieval notwendigen Overhead) bis zur eigentlichen Informationssuche (i.e. User-Interface zur inhaltlichen Abfrage) alle notwendigen Schritte umfasst.

Gelingt es, diesen Prozess zu automatisieren oder gar automatisch ablaufen zu lassen, könnte solch ein Verfahren (vorausgesetzt weitere Kriterien sind ebenfalls erfüllt,) einen Beitrag zur Bewältigung der Informationsflut leisten.

Die Technologie setzt sich deshalb aus den Bausteinen Crawler, Parser, Generator, Graphical User Interface (GUI) zusammen und genügt dabei weiteren Kriterien.

Die wichtigsten sind:

  • Anwendbarkeit für unterschiedliche Sprachräume bzw. Sprachmischungen (Sprachenmix, multilinguale Texte). Dabei sollten natürliche Sprachen als auch künstliche Sprachen einbezogen werden können
  • Speicherort, -form oder Struktur der Information/Dokumente sollte keine Rolle spielen
  • Auch für sehr große Datenmengen sollte eine gute Performance gegeben sein, applikationsspezifische Parametrisierungen sollten einfach und ohne zusätzliche Programmieraufwände erfolgen können
  • Bewährte Verfahren des Informationsannotierung oder -aufbereitung bzw. computerlinguistische Verfahren sollten nach Bedarf oder Anforderung einfach eingebunden oder genutzt werden können, ebenso externe Wissensquellen wie z.B. Fachlexika oder –thesauri oder allgemeine Thesauri
  • Ab OCR (optical character recognition) soll der Generierungs- und Aufbereitungsprozess automatisch oder mindestens automatisiert erfolgen können
  • Einfache Handhabbarkeit, keine sprachlichen Restriktionen, keine speziellen Systemkenntnisse sollen erforderlich sein

Diese Kriterien beeinflussen die Architektur der obigen Bausteine maßgeblich.

Dreh- und Angelpunkt oder Herzstück dieser Technologie aber sind die sogenannten Metastrukturen. Im Gegensatz zu den Ansätzen des Information Retrieval [1], [2], [3], [4] wird Information nicht verdichtet (Metadaten, Verschlagwortung, Indexierung, Lemmatisierung etc.) d.h. „Beipackzettel“ zu Informationen erzeugt. Im Gegenteil: implizit vorhandene Information wird explizit aufgelöst. Diese explizite Auflösung wird als Generieren von Metastrukturen bezeichnet. Ein einfaches Beispiel soll dies verdeutlichen: Würde man bei einem Text die einzelnen Wörter ausschneiden und mischen, könnte der Text nicht mehr rekonstruiert werden. D.h. ein Text enthält viel mehr Information als nur seine Wortinformation.

Diese Metastrukturen sind die Basis für hochperformante neuartige Algorithmen, die es erlauben, gestützt auf interne oder externe Thesauri Suchanfragen des User automatisiert oder automatisch um sinngleiche oder sinnähnliche Anfragen zu erweitern. Das gilt sowohl für Anfragen in Form von sprachlichen Phrasen als auch für logische Anfragen. Der Wortschatz der durch die aufbereiteten Informationen definiert wird, ist die Grundlage für erweiterte linguistische Funktionen wie z.B. das automatische Erzeugen von Flexionsformen, Wortfuzzy-Algorithmen oder die automatisierte Bildung von Wortassoziationen. Unterstützt klassisches Information Retrieval lediglich die Suche nach Dokumenten werden hier Wortsuche, Suche nach Dokumenten sowie die Suche in Dokumenten für frei definierbare Sprachkontexte i.e. Wortbereichsfenster unterstützt.

Ergebnisse

Die beschriebene Technologie wurde mit vielen sehr unterschiedlichen Inhalten getestet.

Die Anwendbarkeit für große Datenmengen wurde am Beispiel Wikipedia bzw. an frei zugänglichen Publikationen wie Gesetzestexten oder elektronischen Büchern im Internet nachgewiesen.

Das Themenspektrum reicht derzeit von Verlagsangeboten wie Zeitschriften, Fachzeitschriften, Lehrbüchern oder Sammlungen wie der Fachinformation/Rote Liste bis zu Informationen aus dem Internet. Nach der automatisierten bzw. automatischen Informationsaufbereitung kann eine übergreifende Suche in ausgewählten oder allen Informationsräumen erfolgen.

Wikipedia und Fachinformation/Rote Liste zeigen anschaulich die vielfältigen Einsatzmöglichkeiten dieser Technologie, stellen sie doch sehr unterschiedliche Informationsmengen (unterschiedlich sowohl in Form und Inhalt) dar.

Die Realisierung dieser Technologie erfolgte für unterschiedliche Plattformen und unterschiedliche Architekturen: CD/DVD-Applikationen (auch für die Wikipedia), Fat Client-Applikationen oder javabasierte Web-Applikation wurden erprobt.

Diskussion

Im Gegensatz zum klassischen Information Retrieval verfolgt die vorgestellte Technolgie einen Ansatz der auf nachfolgenden Prinzipien beruht:

  • Informationsexplizierung statt Informationsverdichtung oder Reduzierung (keine Informationsverluste)
  • Automatisierte bzw. automatische Nutzung sprachlicher Ausdruckmöglichkeit statt sprachbasierter statistischer Methoden
  • Reproduzierbare, vollständige Anfrage-Ergebnisse statt subjektiver Relevanzbeurteilungen (wissenschaftliche Recherche)
  • Automatische Aufbereitung statt manueller Aufbereitung

Sehr große Informationsmengen können aufbereitet und individuell oder nach persönlichen Sichtweisen bzw. Informationsbedürfnissen mit rein sprachlichen Mitteln wissenschaftlich recherchiert werden.

Voraussetzung für die Anwendbarkeit dieser Technologie ist, dass die Inhalte in elektronischer Form vorliegen, die von einem Rechner zugegriffen werden kann (technische Voraussetzung) bzw. zugegriffen werden darf (rechtliche Voraussetzungen, Urheberrechte). Liegen diese Voraussetzungen vor, so kann z.B. nach der OCR–Erkennung (optical character recognition) die Informationsaufbereitung automatisiert oder vollautomatisch ablaufen.

In welchem Format die Inhalte oder Dokumente vorliegen, spielt eine untergeordnete Rolle. Die derzeitigen Beispiele beschränken sich auf HTML- und PDF-Formate, weitere Formate können aber problemlos unterstützt werden.

Last but not least sei die sehr gute Performance namentlich auch für komplexe Anfragen sowie die einfache, intuitive Bedienbarkeit hervorgehoben.


Literatur

1.
Wilhem Gaus, Dokumentations- und Ordnungslehre, ISBN 3-54058117-0
2.
Reginald Ferber, Information Retrieval, ISBN 3-89864-213-5
3.
Freimut Bodendorf, Daten- und Wissensmanagement, ISBN 3-540-00102-6
4.
Albert Endres, Dieter W.Fellner, Digitale Bibliotheken, ISBN 3-932588-77-0