Article
Nutzung von MEDLINE und MeSH für das Benchmarking von RDF-Speichersystemen
Search Medline for
Authors
Published: | September 2, 2009 |
---|
Outline
Text
Einleitung und Fragestellung: Im Bereich der Biomedizin werden insbesondere zur Integration heterogener Daten zunehmend Semantik-Web-Technologien wie RDF, RDFS und OWL verwendet [1]. Im vorliegenden Beitrag wird ein Benchmarking-System für den systematischen Vergleich konkurrierender RDF-Speicher- und -Anfragesysteme vorgestellt. Im Gegensatz zu anderen Benchmarks werden statt künstlich generierter Testdaten reale Daten aus der MEDLINE-Literaturdatenbank und dem MeSH-Thesaurus verwendet.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
Danksagung: DFG-Projekt LUPOSDATE (Logisch und Physikalisch Optimierte Semantic Web Datenbank-Engine), siehe http://www.ifis.uni-luebeck.de/index.php?id=77.
Literatur
- 1.
- Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform. 2008;41(5):706-16.
- 2.
- Battle S. Gloze: XML to RDF and back again. Proceedings of the First Jena User Conference. 2006. siehe http://jena.hpl.hp.com/juc2006/proceedings/battle/paper.pdf
- 3.
- van Assem M, et al. A Method for Converting Thesauri to RDF/OWL. In: McIlraith SA, et al, Eds. Proc of the Third Int Semantic Web Conf. (ISWC 2004). 2004. p. 17-31.
- 4.
- Groppe J, Groppe S, Ebers S, Linnemann V. Efficient Processing of SPARQL Joins in Memory by Dynamically Restricting Triple Patterns. 24th ACM Symposium on Applied Computing (ACM SAC 2009). 2009.