gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Datenorganisation eines klinischen Sonderforschungsbereiches in einer integrierten, langfristig verfügbaren Forschungsdatenplattform

Meeting Abstract

Suche in Medline nach

  • Harald Kusch - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Deutschland; Universitätsmedizin Göttingen, Institut für Molekularbiologie, Göttingen, Deutschland
  • Oliver Schmitt - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen, Göttingen, Deutschland
  • Bartlomiej Marzec - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Deutschland
  • Sara Yasemin Nussbeck - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Deutschland; Universitätsmedizin Göttingen, UMG Biobank, Göttingen, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 123

doi: 10.3205/15gmds104, urn:nbn:de:0183-15gmds1045

Veröffentlicht: 27. August 2015

© 2015 Kusch et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Forschungsdaten sind die Grundsteine der wissenschaftlichen Erkenntnis [1]. Eine nachnutzbare Archivierung dieser Daten nach den Regeln der guten wissenschaftlichen Praxis eröffnet Forschern die Möglichkeit, die Daten in späteren Forschungsvorhaben wiederzuverwenden. Dies ist daher eines der Ziele der Schwerpunktinitiative "Digitale Information" der Allianz der deutschen Wissenschaftsorganisationen (http://www.allianzinitiative.de/). Im klinischen Sonderforschungsbereich (SFB) 1002 („Modulatorische Einheiten bei Herzinsuffizienz“) erfolgt die Forschungsdatenorganisation in einer integrierten und langfristig verfügbaren Forschungsdatenplattform, die in Zusammenarbeit des SFB 1002-Infrastruktur (INF)-Teilprojektes und der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) entwickelt wird. Um die im SFB 1002 entstehenden Forschungsdaten zu strukturieren, digital zu erfassen sowie für eine Nachnutzung aufzubereiten werden im Rahmen des SFB 1002-INF-Teilprojekts geeignete Strategien und Werkzeuge selektiert, implementiert und evaluiert. Ein Hauptaugenmerk liegt dabei auf der Bereitstellung zitierfähiger Datensätze durch die Nutzung von Persistent Identifier (PID) sowie deren Integration zur vernetzten Darstellung und Verarbeitung in den verschiedenen Informationssystemen.

Material und Methoden: Um zu entscheiden, welche Daten den größten Nutzen für die Forscher durch eine zentrale langfristige Speicherung in der Forschungsdatenplattform bringen, erfolgte zunächst eine umfangreiche Anforderungsanalyse. Dazu wurden Interviews geführt, experimentelle Arbeitsprozesse analysiert und resultierende Forschungsdaten und deren Speicherformate strukturell analysiert. Dabei wurden Anforderungen der SFB 1002-Leitung, der beteiligten Teilprojektleiter und der ausführenden Wissenschaftler ermittelt. Darauf aufbauend erfolgte eine Analyse der IT-Systeme, die zurzeit für die Erzeugung oder für die Speicherung der Forschungsdaten eingesetzt werden. Hierbei wurde untersucht inwieweit diese Systeme an die geplante IT-Infrastruktur des SFB 1002 angebunden werden können. In der Planungsphase wurden für die Datenerfassung, Herstellung der Zitierfähigkeit und nachhaltige Bereitstellung verschiedene Software-Werkzeuge auf ihre Eignung zur Datenintegration in die klinische Forschungsdatenplattform evaluiert.

Ergebnisse: Die Anforderungs- und Systemanalyse ergab, dass sich die Forschungsdaten innerhalb des SFB 1002 durch eine hohe Komplexität auszeichnen und sehr heterogen sind. Das ist u.a. in einer komplexen Vernetzung der Teilprojekte aus unterschiedlichen Institutionen und der Verwendung vielfältiger Experimentdesigns begründet. Die über die Jahre gewachsene IT-Infrastruktur der Arbeitsgruppen musste auf Infrastruktur- und Applikationsebene angepasst werden, um eine vernetzte Forschungsdatenerhebung zu ermöglichen. Die gegenwärtige Dokumentation der experimentellen Vorgehensweisen bestand aus einer Mischform aus papierbasierter und elektronischer Speicherung von (Meta-)Daten. Folgende Maßnahmen wurden ergriffen, um möglichst viele Forschungsdaten digital verfügbar zu machen: 1. Um papierbasierte Laborbücher digital adressierbar zu machen, wurde ein Laborbuch-Register eingeführt, das auf der Vergabe von Handle-basierten Persistent Identifiern aufbaut und es erlaubt Laborbücher mit digitalen PIDs zu versehen. Hierbei kommt der PID Dienst des European Persistent Identifier Consortiums (EIPC) (http://www.pidconsortium.eu/) zum Einsatz. 2. Durch die Etablierung einer auf akademische Forschungslabore ausgerichteten elektronischen Laborbuch-Software wurde es den Wissenschaftlern ermöglicht, ihre Forschungs(meta)daten zentral zu erfassen und verfügbar zu machen [2]. Durch die Erstellung und Verwendung von strukturierten Vorlagen wurden Laborbucheinträge standardisiert [3]. Dies vereinfacht eine Aufbereitung der Daten zur nachhaltigen Nutzung. 3. Echokardiographische Experimente wurden als Kernprozess des SFB 1002 identifiziert. Die Organisation der Daten erfolgte bislang über E-Mail bzw. über ein Netzlaufwerk. Eine teilprojektübergreifende Auswertung im SFB 1002 war hiermit nicht möglich. Daher wird aktuell eine Software entwickelt, um diesen Prozess zu unterstützen und die Arbeitsschritte digital zu dokumentieren. Wie für die Laborbuch-Registrierung werden ebenfalls die Echokardiographie-Daten mit PIDs versehen, sodass diese zitierfähig sind. 4. Zusätzlich werden die im Rahmen des SFB 1002 erstellten Publikationen erfasst. Durch die Annotation von Metadaten in der Forschungsdatenplattform wird der Erhebungskontext der Daten mitgespeichert. Bei der Auswahl der Tools wurde der in [4] vorgeschlagene Ansatz zur Umsetzung des benötigten Funktionsumfangs in einer web-basierten Portalumgebung verfolgt. Hierbei werden die einzelnen Arbeitsabläufe des Sonderforschungsbereichs, z.B. die Vergabe von PIDs für Laborbücher oder der Upload von Datensätzen in das Langzeitdatenarchiv der GWDG in eigene Funktionsmodule ausgegliedert. Dies erlaubt es, eine zentrale Portalumgebung im Web zu verwenden, die über Grundfunktionen wie ein Rechte- und Rollenmodell, Programmierschnittsstellen zum Datenmanagement und eine Benutzerdatenbank verfügt. Zur Umsetzung wird das PHP-Content-Management-System Drupal 7 verwendet. Die Unwägbarkeiten die sich bei PHP-Projekten im Vergleich zu Java Enterprise-Projekten ergeben, werden durch regelmäßige Code-Reviews und Workshops antizipiert und die Maßnahmen durch Senior-Developer der GWDG beratend unterstützt. Die Speicherung der Forschungsdaten erfolgt mit der Common Data Storage Archicture (CDSTAR) Middleware, die die Massenspeicher im Rechenzentrum der GWDG über einen Representational State Transfer (REST) den einzelnen Drupal Modulen zur Verfügung stellen. So können Forschungsdaten direkt in der Webanwendung ablegt werden und ganze Verzeichnisstrukturen und XML-Dateien in die Forschungsdatenplattform mittels Java Applet über TLS-verschlüsselt hochgeladen werden. Die Einführung der Web-basierten Lösungen in den SFB 1002 erfolgt hierbei als schrittweiser Rollout, bei denen Funktionen und Fehlerbehebungen kontinuierlich in die Produktionsumgebung einfließen. Somit werden die technischen Abhängigkeiten minimiert und die Benutzer werden nicht mit großen Änderungen, sondern einer kontinuierlichen Evolution der Benutzeroberfläche und des Funktionsumfangs in Verbindung gebracht. Voraussetzung hierfür ist die Nutzung eines agilen Entwicklungsprozess, der Funktionen und Fehlerbehebungen als Mini-Sprints definiert und eine weitestgehend automatisierte Kontrolle der Softwarequalität erlaubt. Hierfür kommt ein Projekt-Management-System mit integrierten Quellcode-Repositorium zum Einsatz, das bei der GWDG gehostet ist.

Diskussion: Die vorgestellte Forschungsdatenplattform für den SFB 1002 erfüllt wichtige Kriterien zur Sicherung der wissenschaftlichen Praxis durch Speicherung der Forschungsdaten und der dazugehörigen Metadaten in professionellen Archivlösungen der GWDG (IT-Kompetenzzentrum der Universität Göttingen und der Max-Planck-Gesellschaft). Da hierbei nicht nur die Enddaten sondern auch Forschungsprozesse archiviert werden, werden unnötige Medienbrüche und damit verbundene Mehrarbeiten und Fehlerquellen vermieden. Es ergeben sich damit positive Synergien bei der projektübergreifenden Zusammenarbeit und mittelfristig Vorteile durch Nachvollziehbarkeit, bessere Durchsuchbarkeit und Entlastung bei der Dokumentation. Die Weiterentwicklung der Forschungsdatenplattform ist auf die Unterstützung der Principal Investigators (PIs) und der Leitung des SFB 1002 angewiesen. Eine Unterstützung der Maßnahmen erfolgt bereits durch die IT-Strategie der Universität und wird von den Forschungsdatenverantwortlichen und der neu gegründeten Göttinger eResearch Alliance (http://eresearch.uni-goettingen.de) forciert.

Danksagung: Diese Arbeit wurde unterstützt durch den Sonderforschungsbereich 1002 Teilprojekt INF, gefördert von der Deutschen Forschungsgemeinschaft.


Literatur

1.
Wissenschaftsrat. Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informationsinfrastrukturen in Deutschland bis 2020. Berlin; 2012. Online: http://www.wissenschaftsrat.de/download/archiv/2359-12.pdf Externer Link
2.
Menzel J, Weil P, Bittihn P, Hornung D, Mathieu N, Demiroglu SY. Requirement Analysis for an Electronic Laboratory Notebook for Sustainable Data Management in Biomedical Research. MEDINFO. 2013;192. DOI: 10.3233/978-1-61499-289-9-1108 Externer Link
3.
Menzel J, Weil P, Nussbeck SY. Minimierung des Dokumentationsaufwandes für die medizinische Grundlagenforschung mithilfe eines elektronischen Laborbuches: Aufgezeigt am Beispiel eines Western Blot Metadatenschemata. In: GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 175. DOI: 10.3205/14gmds120 Externer Link
4.
Schmitt O, Weil P, Wieder P, Nussbeck SY. Integrierte Portalumgebung und verteilte Echtzeitsuche für medizinische Langzeitarchivierung. GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 184. DOI: 10.3205/14gmds014 Externer Link