gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Grenzen von semantischen Technologien zur Realisierung einer interoperablen Wissensdatenbank

Meeting Abstract

  • Ingo Roderfeld - Universitätsklinikum Münster, Münster
  • Sebastian Bartholomäus - Universitätsklinikum Münster, Münster
  • Martin Lablans - Universitätsklinikum Münster, Münster
  • Frank Ückert - Universitätsklinikum Münster, Münster

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds503

doi: 10.3205/11gmds503, urn:nbn:de:0183-11gmds5030

Published: September 20, 2011

© 2011 Roderfeld et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Hintergrund: Aktuelle IT-Infrastrukturen im Umfeld föderierter Wissensdatenbanken müssen mit immer größeren Mengen höchst heterogener und veränderlicher Daten umgehen können und immer explizitere Anforderungen hinsichtlich semantischer Interoperabilität und ableitbaren Wissens erfüllen. Diese Bedürfnisse legen die Verwendung von Technologien nahe, die eine größere Flexibilität als relationale Datenbanksysteme bieten und ausdrucksstärkere Datenstrukturen als dokumentenbasierte Lösungen unterstützen. Im Rahmen der Realisierung einer interoperablen Biobanking-Plattform [1] wurde die Eignung von semantischen Technologien [2], [3] zur Datenhaltung in Wissensdatenbanken evaluiert.

Methoden: Die Web Ontology Language (OWL) [4] ist ein W3C-Standard zur Beschreibung komplexer, auf veränderbaren Datenschemata basierender Ontologien und ermöglicht implizites Folgern und semantisches Verknüpfen von Wissensbeständen. Das Java-Framework Jena [5] bietet mit JenaBean [6] einen Binding-Mechanismus, um OWL-Individuen (Klassen, Eigenschaften) in Java-Objekte zu transferieren und somit die Lücke zur objektorientierten Modellierung zu schließen. Jena bietet mit SDB [7] ein Persistenzsystem, mit dem eine Reihe etablierter Datenbankmanagementsysteme wie MySQL, Oracle oder PostgreSQL unter Benutzung der Standard-Abfragesprache SPARQL [8] zum Abspeichern von OWL Ontologien angebunden werden können. Zur automatischen Inferenz (Schlussfolgerung) unterstützt Jena eine Reihe unterschiedlicher Reasoner [9] für die verschiedenen OWL-2-Profile [4].

Mithilfe dieser Technologien wurde ein klassisches Java-Client-Server-System implementiert. Zur Performance-Evaluation wurde eine Test-Biobanking-Ontologie mit 1.000.000 Proben erstellt und darauf unter Einsatz eines OWL-2-EL-Reasoners verschiedene, dem Produktiveinsatz entsprechende Abfragen, wie beispielsweise die Lagerstätten-übergreifende Suche nach Proben ausgeführt.

Ergebnisse: Im Rahmen der Implementierung wurden Probleme beim Mapping von OWL-Individuen auf Java-Objekte festgestellt. Änderungen an der Ontologie müssen im Programm-Code nachgezogen werden, sodass für den Betreiber der Wissensdatenbank Flexibilität verloren geht. OWL-Features wie Mehrfachvererbung und Vererbung von Eigenschaften müssen, soweit benötigt, eigenständig durch Java-Annotationen nachgebildet werden. Bei der Simulation des Produktiveinsatzes wurde ein erhebliches Speicherproblem sichtbar, das nur durch Auswahl eines OWL-2-QL-Reasoners behoben werden konnte. Ein weiteres Problem stellte die Umsetzung der SPARQL-Queries in SQL-Abfragen dar. Einfach erscheinende SPARQL-Queries werden von SDB in komplexe, oft ineffiziente Datenbankabfragen umgesetzt. SPARQL ist zwar an SQL angelehnt, besitzt aber nicht dessen Optimierungsmöglichkeiten, weswegen es nicht möglich war, die Antwortzeiten ausreichend zu verbessern.

Schlussfolgerungen: Die Vorteile von semantischen Technologien bei der Realisierung von Wissensdatenbanken werden durch Implementierungs- und Performanceprobleme erkauft. Die beschriebenen Mapping-Probleme lassen sich womöglich durch den Einsatz von generischen Techniken bewältigen. Bezüglich der Speicher-Probleme ist eine geschickte Auswahl von Reasonern notwendig. Die Anfrage-Problematik legt den Einsatz eines performanteren, auf den Einsatzzweck ausgelegten Datenbanksystems [10], [11] nahe.


Literatur

1.
Lablans M, Bartholomäus S, Ückert F. Providing trust and interoperability to federate distributed biobanks. In: Proceedings of MIE 2011, Oslo [im Druck].
2.
Hitzler P, Krötsch M, Rudolph S, Sure Y. Semantic Web. Berlin, Heidelberg: Springer-Verlag; 2008.
3.
Uherek HC. Vom Web 2.0 zum Semantic Web, Einsatzmöglichkeiten des semantischen Webs im Wissensmanagement. Hamburg: Diplomica Verlag; 2009.
4.
W3C OWL Working Group. Owl 2 web ontology language document overview. W3C Recommendation, 27th October 2009. Available from: http://www.w3.org/TR/2009/REC-owl2-overview-20091027/ [letzter Zugriff 13.04.2011] External link
5.
Jena – Semantic Web Framework for Java. http://jena.sourceforge.net/ [letzter Zugriff 11.04.2011] External link
6.
JenaBean –– A library for persisting java beans to RDF. http://code.google.com/p/jenabean/ [letzter Zugriff 12.04.2011] External link
7.
SDB – A SPARQL Database for Jena. http://www.openjena.org/SDB/ [letzter Zugriff 12.04.2011] External link
8.
SPARQL Query Language for RDF. http://www.w3.org/TR/rdf-sparql-query/ [letzter Zugriff 11.04.2011] External link
9.
Jena 2 Inference support. http://jena.sourceforge.net/inference/#overview [letzter Zugriff 13.04.2011] External link
10.
Berlin SPARQL Benchmark. http://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark/results/index.html [letzter Zugriff 13.04.2011] External link
11.
Guo Y, Pan Z, Heflin J. LUBM: A Benchmark for OWL Knowledge Base Systems. Journal of Web Semantics. 2005;3(2):158-82.
12.
Edlich S, Friedland A, Hampe J, Brauer B. NoSQL. München: Carl Hanser Verlag; 2010.