gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Vergleich von Metadatenschemata für die Langzeitarchivierung von Genomdaten

Meeting Abstract

Suche in Medline nach

  • Romanus Grütz - Universitätsmedizin Göttingen, Göttingen, DE
  • Nadine Mathieu - Universitätsmedizin Göttingen, Göttingen, DE; DZHK (Deutsches Zentrum für Herz-Kreislauf-Forschung), Partnerstandort Göttingen, Göttingen, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.253

doi: 10.3205/13gmds049, urn:nbn:de:0183-13gmds0499

Veröffentlicht: 27. August 2013

© 2013 Grütz et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Die Genomforschung hat in den vergangenen Jahren eine rasante technologische Entwicklung erlebt. Die sich bereits heute abzuzeichnende Aussicht, das humane Genom innerhalb weniger Tage und für wenige 1000 $ zu sequenzieren, hat weitreichende Konsequenzen sowohl für die Grundlagenforschung als auch für die personalisierte Medizin. Gleichzeitig wachsen mit den exponentiell anfallenden Datenvolumina die Herausforderungen an die Bioinformatik. Von besonderem Interesse ist dabei die Langzeitarchivierung von Daten aus DNA-Sequenzierungen. Diese müssen, um nachnutzbar zu bleiben mit beschreibenden Informationen (Metadaten) annotiert werden [1]. Nur wenn alle relevanten Metadaten wie bspw. Ursprungsorganismus, Sequenzierungsplattform und Analysemethode bekannt und angegeben sind, können Daten aus verschiedenen Quellen/Projekten in Relation gesetzt oder für weitere Analysen als gemeinsame Datenbasis verwendet werden. Forschungsförderer wie die Deutsche Forschungsgemeinschaft fordern mittlerweile im Sinne der guten wissenschaftlichen Praxis eine Archivierung der Forschungsdaten für durchschnittlich 10 Jahre [2], wodurch eine Nachnutzbarkeit nur durch vollständige und einheitliche Annotation mit Metadaten gewährleistet werden kann. In dem DFG-geförderten Projekt zur Langzeitarchivierung biomedizinischer Forschungsdaten (LABIMI/F) [3] wurden im Rahmen der Spezialisierung auf Genomforschungsdaten relevante Metadatenschemata für die Nachnutzung ermittelt und verglichen.

Material und Methoden: Für die strukturierte und standardisierte Erfassung von Metadaten aus DNA-Sequenzierungen wurde zunächst eine zweistufige Literaturrecherche durchgeführt. Im ersten Schritt wurde Literatur zum Sequenzierungsprozess gesucht, um ein detailliertes Verständnis der einzelnen Schritte und einen Überblick über die anfallenden Daten zu erlangen. Der zweite Schritt beinhaltete die gezielte Suche nach bereits existierenden Metadaten-Standards. Anschließend wurden die Beziehungen zwischen den existierenden Standards und deren Verwendbarkeit in der Praxis mit Anwendern aus dem Transkriptomanalyselabor der Universitätsmedizin Göttingen und des Universitätsklinikums Kiel (AG Genomische Gastroenterologie) analysiert.

Ergebnisse: Die im Rahmen des LABIMI/F-Projektes durchgeführte Analyse des Sequenzierungsprozesses ergab eine Untergliederung der Arbeitsschritte in die Phasen Projektplanung, Probenvorbereitung, Sequenzierung und Datenanalyse. Aus der zweiten Literaturrecherche bezüglich existierender Metadaten-Standards ergaben sich zwei Metadatenschemata, die bei der Langzeitarchivierung von DNA-Sequenzierungen häufig Anwendung finden: (i) Minimal Information about a Genome Sequence (MIGS) des Genomic Standards Consortium [4] und (ii) Sequence Read Archive (SRA) des European Nucleotide Archive [5]. Der Vergleich beider Standards zeigte eine unterschiedliche Ausrichtung der Metadaten-Schemata. Während der Fokus des MIGS auf der verwendeten Bioprobe und ihrer intrinsischen und umweltbezogenen Charakteristika (wie z.B. Pathogenität des abstammenden Organismus, geografisches Vorkommen) liegt, befindet sich der Schwerpunkt des SRA-Standards auf den experimentellen Rahmenbedingungen (z.B. Sequenzierungsplattform, Library-Details).

Diskussion: Durch die unterschiedliche Fokussierung der beiden verglichenen Metadaten-Standards ergibt sich für die Verwendung eines gemeinsamen Schemas standortübergreifend nur die Kombination aus SRA und MIGS. Da SRA im Gegensatz zu MIGS in die Teilbereiche Studie, Probe, Experiment, Run und Analyse unterteilt ist, muss MIGS bei der Vereinigung der beiden Metadaten-Schemata ebenfalls modular strukturiert werden. Da MIGS jedoch bisher keine strukturierte Aufteilung der Metadaten vornimmt, können dessen Felder ohne Informationsverlust, der ggf. beim Aufbrechen von bestehenden Strukturen auftreten kann, auf die Teilbereiche des SRA verteilt werden. Bei Überschneidungen von Metadaten-Feldern und deren Wertebereichen muss im Einzelnen in Abstimmung mit den Anwendern entschieden werden, welche Version oder ob eine Kombination beider Wertebereiche verwendet werden soll.


Literatur

1.
Dickmann F, Mathieu N, Grütz R, Krawczak M. Management und Langzeitarchivierung von Genomdaten aus der Forschung. medgen.?2013; 25:15–21
2.
Deutsche Forschungsgemeinschaft. Empfehlungen der Kommission" Selbstkontrolle in der Wissenschaft": Vorschläge zur Sicherung guter wissenschaftlicher Praxis. WILEY-VCH Verlag GmbH, Weinheim. 1998. 1-93
3.
Dickmann F, Grütz R, Rienhoff O. A “Meta”-Perspective on “Bit Rot” of Biomedical Research Data. Studies in Health Technology and Informatics Volume 180: Quality of Life Through Quality of Information: Proceedings of MIE 2012. 260-4
4.
Field D, et al. The minimum information about a genome sequence (MIGS) specification. Nature Biotechnology. 2008; 26(5):541-7
5.
National Center for biotechnology Information. SRA Handbook. 2010. Bethesda. http://www.ncbi.nlm.nih.gov/books/NBK47528/ (letzter Zugriff 15.04.2013) Externer Link