gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Verfahren zur Übernahme von Forschungsdaten in die Langzeitarchivierung

Meeting Abstract

  • R. Grütz - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen
  • A. Wildschütz - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen
  • T. Franke - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen
  • B. Löhnhardt - Universitätsmedizin Göttingen, Geschäftsbereich Informationstechnologie, Göttingen
  • F. Dickmann - Universitätsmedizin Göttingen, IT Controlling, Göttingen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 218

doi: 10.3205/14gmds119, urn:nbn:de:0183-14gmds1198

Veröffentlicht: 4. September 2014

© 2014 Grütz et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: In biomedizinischen Forschungsprojekten werden immer mehr digitale Daten generiert. Damit diese Forschungsdaten der Wissenschaftswelt nach Abschluss der – i.d.R. zeitlich begrenzten – Projekte weiterhin zur Verfügung stehen, fordern der Wissenschaftsrat [1] in seinen Empfehlungen und die DFG in ihrer Richtlinie zur Sicherung der guten wissenschaftlichen Praxis [2] deren Archivierung. Schlüsselanforderungen dabei sind, dass die archivierten Daten wieder aufgefunden, strukturiert durchsucht und weiter verwendet werden können. Hierfür ist die Annotation der Forschungsdaten mit Metadaten notwendig. Die Wahl der Metadaten sollte einerseits die Interpretierbarkeit und Vergleichbarkeit der Forschungsdaten sicherstellen, andererseits sollte deren Erfassung praktikabel und handhabbar bleiben.

Das durch die DFG geförderte Projekt zur Langzeitarchivierung biomedizinischer Forschungsdaten (LABiMi/F) hat diese Aspekte für die Forschungsdatentypen Genom- und Bilddaten adressiert und eine prototypische Archivierungsinfrastruktur entwickelt. Eine wichtige Komponente dieser Archivierungsinfrastruktur ist die Übernahme der Forschungsdaten inklusive Metadaten (vergleiche OAIS [3]). Daher wird eine Eingabemöglichkeit sowohl für die Forschungsdaten selbst, als auch für die Metadaten benötigt. Damit eine solche Übernahmekomponente erfolgreich in den bereits ausgefüllten Forschungsalltag eingeführt werden kann, muss sie sich möglichst gut in die Arbeitsabläufe integrieren lassen und darf höchstens einen geringen Mehraufwand verursachen. Hierfür ist es notwendig, die Übernahmekomponente intuitiv und effizient bedienen zu können. Das im Folgenden beschriebene Teilziel des LABiMi/F-Projektes war die Beantwortung der Frage: Wie kann ein softwaregestütztes Verfahren zur Übernahme von Forschungsdaten in die Langzeitarchivierung entwickelt werden?

Methodik: Vor der eigentlichen Entwicklung der Übernahmekomponente wurde die Systemgrenze nach Pohl (Requirements Engineering [4]) definiert, welche sich aus der Definition der Rahmenbedingungen und der Ermittlung der Interessensvertreter zusammensetzt. Darauf aufbauend wurde eine Anforderungsspezifikation auf Grundlage von IEEE 830-1998 unter Zuhilfenahme von Anwendungsfällen durchgeführt. Die hierfür notwendigen Informationen wurden sowohl projekt- als auch institutsintern ermittelt.

Zur Strukturierung des Quellcodes bzw. zur Trennung von Programmlogik und grafischer Oberfläche wurde das DataBinding-Konzept [5] eingesetzt. Dieses strukturiert den Quellcode ähnlich des Model-View-Controller (MVC)-Musters in Datenstruktur (Model), grafische Oberfläche (View) und die verbindende Logik (Controller).

Die Entwicklung erfolgte agil, sodass möglichst schnell funktionierende Codeblöcke entstanden sind, die vom Entwicklerteam begutachtet und getestet wurden. Hierfür und zur Planung des nächsten Etappenziels wurde zweimal pro Woche ein Treffen des Entwicklerteams abgehalten. Als Validierungsmaßnahme wurde innerhalb des Projektes ein Systemtest durchgeführt, welcher das System gegen alle definierten Anforderungen getestet hat. Damit der Systemtest verschiedene Produktivumgebungen umfasst, wurden als Testumgebung sowohl Windows als auch Mac Betriebssysteme verwendet

Ergebnisse: Zur Systemabgrenzung wurden vier Rahmenbedingungen definiert:

1.
„Realisierung im Rahmen des LABiMi/F-Projekts“;
2.
„Verwendung des Java-Frameworks als Laufzeitumgebung“ aufgrund angestrebter Plattformunabhängigkeit und vorhandener Expertise;
3.
„Verwendung von Representational State Transfer (REST)-Schnittstellen zu externen Systemen“ da in der prototypischen Archivierungsinfrastruktur mehrere Speicher-Repositorien mit REST-Schnittstellen verwendet werden;
4.
„Wahrung des Datenschutzes“.

Weiterhin wurden vier aktive und zwei stille Interessensvertreter ermittelt. Die aktiven Interessensvertreter sind Forscher mit biomedizinischen Daten, suchende Domänenexperten, Publizierende und Administratoren. Die stillen Interessensvertreter Wissenschaftsgemeinde und Datenschutz üben Einfluss auf die entwickelte Übernahmekomponente aus, sind jedoch passiv.

Die entwickelten Anwendungsfälle decken die Forschungsdatenannotation (a) mit und (b) ohne direkten Zugriff auf die Archivierungsinfrastruktur und (c) den Datentransfer in verschiedene Repositorien ab. Anwendungsfall (d) beschreibt die Anpassung und Erweiterung der Übernahmekomponente für andere Nutzungsszenarien und Datentypen.

Die darauf basierende Anforderungsspezifikation besteht aus 16 funktionalen, 2 Leistungs- und 13 Qualitätsanforderungen. Innerhalb von Anwendungsfall (a) wurde u.a. die Unterstützung von Codelisten, wie bspw. Ländercodes (ISO 3166-1) und die Kodierung von Sonderzeichen spezifiziert. Aus Anwendungsfall (b) wurde die Implementierung als eigenständige, nicht webbasierte Anwendung abgeleitet, welche zu jedem Zeitpunkt alle bisherigen Eingaben im Übernahmeprozess speichern und wiederherstellen kann. Anwendungsfall (c) entspringen die Anforderungen, die Schnittstellen zur restlichen Archivierungsinfrastruktur mit etablierten Techniken wie bspw. REST umzusetzen und die Übernahmekomponente durch Modularisierung der Schnittstellen leicht erweiterbar zu entwerfen. Aus Anwendungsfall (d) wurden die Einführung einer schemabasierten Abfrage von Metadaten und die Modularisierung von Datentypen abgeleitet.

Zur Unterstützung der Entwicklung und Validierung eines mit der Übernahmekomponente kompatiblen Schemas wurde ein Superschema entwickelt. Die Schemata sind in der eXtensible Markup Language (XML) und das Superschema in XML Schema Definition (XSD) verfasst. Das entwickelte Superschema ermöglicht das hierarchische Gruppieren von Metadaten sowie die Definition eines Wertebereiches für jedes abzufragende Metadatum.

Prototypisch wurde ein Nutzungsszenario durch die Erstellung eines beispielhaften Metadatenschemas für die Annotation von Genomdaten bereits umgesetzt. Die entwickelte Übernahmekomponente kann weiterhin mittels Definition neuer domänenspezifischer Schemata und oder Codelisten ohne zusätzliche Programmierleistung um weitere Nutzungsszenarien erweitert werden. Das Hinzufügen neuer Datentypen ist hingegen mit der Erstellung einer Klasse für die Darstellung und einer Klasse für die Eingabevalidierung verbunden.

Diskussion: Da die Übernahmekomponente in Java entwickelt ist, setzt sie, im Gegensatz zu einer webbasierten Umsetzung, eine installierte Java-Laufzeitumgebung auf dem Client-PC voraus. Sie wird lokal auf dem Client-PC ausgeführt und hat somit direkten Zugriff auf die lokal gespeicherten zu archivierenden Forschungsdaten. Hierdurch wird ermöglicht, dass die Übernahmekomponente in Zukunft mit Metadatenextraktoren ausgestattet werden kann, welche datei-/formatinhärente Metadaten ohne vorherige Übermittlung bspw. an einen Analyseserver extrahieren können. Besonders für große Dateien, wie sie in der biomedizinischen Forschung häufig anfallen (Bild-/Genomdaten), ist die offline-Metadatenextraktion von Vorteil. Der Anwender müsste in dem Fall lediglich darüber hinausgehende Metadaten von Hand oder durch das Verwenden einer gespeicherten Sitzung eingeben. Im Gegensatz zu einer webbasierten Umsetzung liegen die verwendeten Metadatenschemata und die gespeicherten Sitzungen nur lokal vor und müssen bei der Verwendung mehrere Geräte bei Bedarf manuell synchronisiert werden.

Relationen zwischen archivierten Forschungsdaten müssen zurzeit bei Bedarf im betreffenden Metadatenschema realisiert werden. Hierzu kann der persistente Identifikator eines anderen archivierten Forschungsdatensatz beispielsweise in einem Textfeld aufgenommen werden. Zukünftig soll dies durch das Hinzufügen eines eigenen Datentyps, welcher mit einer Auswahlhilfe für bereits bestehende persistente Identifikatoren aufwartet, unterstützt werden. Weiterhin sind zurzeit noch keine beliebigen Wiederholungen eines abzufragenden Metadatums innerhalb eines Schemas möglich.

Die Umsetzung der hausinternen Forschungsdatenarchivierung inklusive der zu verwendenden Speichersysteme wird zurzeit diskutiert. Hierbei wird die Übernahmekomponente nachgenutzt und gegebenenfalls an neue Speichersysteme angebunden werden.

Danksagung: Unterstützt durch LABIMI/F (DFG-FKZ:RI1000/2-1).


Literatur

1.
Wissenschaftsrat. Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informationsinfrastrukturen in Deutschland bis 2020. 2012.
2.
Deutsche Forschungsgemeinschaft. Vorschläge zur Sicherung guter wissenschaftlicher Praxis: Denkschrift: Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“. 2013.
3.
Büchler G, Bütikofer N, Dobratz S, Ernst K, Keitel C, Ludwig J, et al. Referenzmodell für ein Offenes Archiv-Informations-System. 2013.
4.
Pohl K. Requirements Engineering: Grundlagen, Prinzipien, Techniken. Heidelberg: Dpunkt-Verlag; 2008.
5.
Vogel L. Eclipse 4 RCP: the complete guide to Eclipse application development. 2013.