gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Anbindung eines elektronischen Laborbuchs an eine vorhandene Langzeitarchivierungsinfrastruktur

Meeting Abstract

Suche in Medline nach

  • B. Marzec - Universitätsmedizin Göttingen, Institut für Medizinische Informatik
  • P. Weil - Universitätsmedizin Göttingen, Institut für Medizinische Informatik; Universitätsmedizin Göttingen, Institut für Molekularbiologie
  • S.Y. Nussbeck - Universitätsmedizin Göttingen, Institut für Medizinische Informatik

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 131

doi: 10.3205/14gmds121, urn:nbn:de:0183-14gmds1217

Veröffentlicht: 4. September 2014

© 2014 Marzec et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Im Rahmen des Sonderforschungsbereiches (SFB) 1002 wird eine Langzeitarchivierungsinfrastruktur durch das Infrastruktur Projekt aufgebaut. Diese Infrastruktur wird aus einem Repository bestehen, in welchem Forschungsdaten mit den dazugehörigen Metadaten nach Vorgaben der guten wissenschaftlichen Praxis abgelegt werden können. Die Eingabe der Daten soll über zwei Wege möglich sein: Entweder direkt über ein Webportal des Repositories oder aber zunächst in einem elektronisches Laborbuch (ELN), welches derzeit pilothaft drei ausgewählten Doktoranden zur Verfügung gestellt wurde. Vom ELN aus müssen die Daten dann in das Repository exportiert werden, damit sie gemeinsam mit anderen Daten durchsuchbar und nachnutzbar gemacht werden können. Dabei besteht die Schwierigkeit darin, dass die Datenerfassung im ELN sehr flexibel sein muss, um sich ändernden Bedingungen in Forschungsprojekten anpassen zu können, aber auf der anderen Seite die Daten in einer nachnutzbaren strukturierten Weise exportiert werden müssen. Wie kann ein solcher Datentransfer aus dem ELN in das Repository der Langzeitarchivierungsinfrastruktur unter Berücksichtigung verschiedener Anforderungen realisiert werden?

Material und Methoden: Um zu analysieren, wie der Datentransfer vom ELN in die Langzeitarchivierungsinfrastruktur aussehen kann, mussten zunächst mögliche Anforderungen identifiziert und erfasst werden. Basierend auf den Anforderungen wurde ein Konzept entwickelt, welches dann prototypisch implementiert und anhand eines Beispieldatensatzes evaluiert wurde.

Zu den identifizierten Anforderungsquellen gehörten die Doktoranden, die das ELN nutzen (Interviews), das Quell- und Zielsystem des Datentransfers (Analyse) und die Standards für die Speicherung der ELN Inhalte, welche in einer Literaturrecherche ermittelt wurden. Aus der Verknüpfung dieser Anforderungen wurde dann das Konzept entwickelt. Mithilfe einer der sogenannten Extract-Transform-Load-Softwareprodukte (Talend Open Studio) und einer Datenbank für die Speicherung der beim Export-Prozess entstehenden organisatorischen Daten, wurde das Konzept prototypisch umgesetzt.

Zur Evaluation des Datentransfers wurde ein Beispieldatensatz in der ELN Software angelegt, exportiert, laut Konzept prozessiert, in das Repository importiert und dann überprüft, ob sich alle Daten in der richtigen Form in der Langzeitarchivierungsinfrastruktur wiederfinden lassen.

Ergebnisse: Das Resultat der Interviews war, dass es sowohl experimentelle und nicht experimentelle Daten (z.B. Notizen) gibt, die im ELN gespeichert werden sollen. Aufgrund des teilweise komplexen Aufbaus der Experimente muss neben den Forschungs- und Metadaten auch die Struktur mitexportiert werden.

Das für das Projekt ausgewählte ELN eCAT [1] ist eine webbasierte Anwendung, in der die Daten als Einträge über Webformulare aufgenommen werden. Von diesen aus kann auf Laborproben im Inventory des ELNs, Forschungsdaten auf externen Laufwerken oder zu anderen Daten innerhalb des ELNs verlinkt werden. Die Benutzer können die Daten in einer Ordner- und Einträge-Struktur frei strukturieren. Die ELN-Daten werden in einer relationalen Datenbank in XML-Format gespeichert.

Bei dem Repository handelt es sich um eine in Göttingen entwickelte Infrastruktur namens GWDG CDSTAR [2]. Anders als in relationalen Datenbanken werden für die Speicherung im Repository keine Schemata verwendet und die Daten werden als sogenannte Objekte abgelegt. Diese bestehen unter anderem aus Metadaten, die im JSON-Format gespeichert werden und aus Bitströmen, die für die Speicherung der Dateien verwendet werden können. Jedes Objekt bekommt eine eindeutige PID, sodass die dort abgelegten Daten zitierfähig sind.

Durch die Interviews und die Systemanalyse konnte herausgefunden werden, dass bei der Entwicklung des Konzeptes drei Ebenen beachtet werden müssen: (1) die Wissensdarstellungs- (2) die Format- (3) und die Speicherungsebene.

Aus den ca. 540 in der Literaturrecherche gefundenen Standards, wurden vier genauer betrachtet und daraus der ISA-TAB-Standard [3] für die Entwicklung des Konzeptes ausgewählt, da er die drei oben genannten Ebenen abdeckt.

Das sich daraus ergebende Konzept ist eine hybride Lösung aus einer „Eins-zu-Eins“-Abbildung der Daten aus dem ELN und dem gleichzeitigen Aufbau der ISA-Struktur im Repository. Bei der „Eins-zu-Eins“-Abbildung werden alle Einträge und die geforderte Ordner- und Dateistruktur versioniert abgebildet. Dies erlaubt später die Daten im Repository-Webportal in der Form anzusehen, wie diese auch im ELN gespeichert waren. Damit im Repository zumindest der Aufbau der ISA-Beziehungen stattfinden kann, müssen im ELN spezielle Formulare (Investigation- und Study-Templates) entwickelt werden, die dem Export-Tool signalisieren, dass es sich bei der Ordner- und Eintragsstruktur um eine ISA-Struktur handelt. Der Aufbau der ISA-Struktur ermöglicht im Repository-Webportal eine ISA-TAB-konforme Ansicht der Daten und bei eventueller Erweiterung der Funktionalität des Webportals sogar einen Export der Daten nach ISA-TAB-Standard.

Für die Evaluation der prototypischen Umsetzung des Datentransfers, wurde ein Defibrillationsexperiment als Beispieldatensatz ausgewählt. Die experimentellen Daten daraus wurden als eine ISA-Struktur im ELN abgebildet. Nach Export der Daten aus dem ELN und dem Import in das Repository konnte keine Abweichung zwischen den Datensätzen festgestellt werden.

Diskussion: Durch das Vorgehen konnten alle Anforderungen identifiziert und darauf aufbauend ein Konzept für die Anbindung des ELNs an das Repository entwickelt werden. Die Evaluation der technischen Umsetzung lieferte den Proof-of-Concept.

Unsicherheit besteht jedoch darin, dass das ELN zum Zeitpunkt der Erhebung der Anforderungen noch nicht produktiv verwendet wurde. Somit wurde die Datenstruktur von der bisherigen im papierbasierten Laborbuch verwendeten abgeleitet. Erschwerend kam hinzu, dass sich das Webportal ebenfalls noch nicht in einem produktiven Zustand befand. Daher konnte noch nicht abschließend geklärt werden wie die Daten letztendlich organisiert werden müssen, damit eine parametrisierte Suche nach Datensätzen möglich ist.

Die Auswahl des ISA-TAB-Standards wurde aufgrund von in der Literatur beschriebenen Vorteilen und Praxiserfahrungen in Projekten getroffen.

Bei der Entwicklung des Konzeptes wurde darauf geachtet, dass die Funktionalität des ELNs nicht beeinträchtigt wird und dass der Benutzer mit einer Reihe von Regeln, die er beim Anlegen der Daten beachten muss, konfrontiert wird. Die vorgestellte Lösung für die Strukturierung innerhalb des ELNs ist für den Benutzer nur optional und er kann wie bisher mit oder ohne diese Struktur seine Daten im ELN frei strukturieren mit den entsprechenden Konsequenzen.

Eine ISA-Standard-konforme Speicherung der Daten mithilfe des ELN war nicht möglich, da die benötigten Datenstrukturen im ELN nicht abzubilden waren, ohne dem Forscher zu viele Vorschriften zur Datenstrukturierung zu machen. Zur Lösung dieses Problems wurde in den automatisierten Exportprozess die Möglichkeit einer gemischten Abbildung der Forschungs- und Metadaten im Repository implementiert. Diese Implementierung exportiert die Daten wo mögliche in einer ISA-TAB-konformen Abbildung und sonst in einer 1:1-Abbildung.

Im weiteren Projektverlauf muss das Konzept mit den teilnehmenden Doktoranden ausdiskutiert und entsprechend angepasst werden. Eine ab Mitte 2014 verfügbare neue Version des ELNs soll über neue Funktionalitäten verfügen, die möglicherweise den ISA-TAB-konformen Datenexport schließlich ermöglichen wird.

Danksagung: Diese Arbeit wurde unterstützt durch den Sonderforschungsbereich 1002 Teilprojekt INF, gefördert von der Deutschen Forschungsgemeinschaft.


Literatur

1.
Goddard NH, Macneil R, Ritchie J. eCAT: Online electronic lab notebook for scientific research. Autom Exp. 2009;1:4.
2.
Schmitt O, Siemon A, Schwardmann U, Hellkamp M. GWDG Object Storage and Search Solution for Research: Common Data Storage Architecture (CDSTAR) - GWDG Bericht. Göttingen: 2014. Online: http://gwdg.de/fileadmin/inhaltsbilder/Pdf/Publikationen/GWDG-Berichte/gwdg-bericht-78.pdf Externer Link
3.
Sansone S, Rocca-Serra P, Brandizi M, Brazma A, Field D, Fostel J, et al. The First RSBI (ISA-TAB) Workshop: Can a Simple Format Work for Complex Studies?. OMICS: A Journal of Integrative Biology. 2008;12:143-9.