gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Aspekte des Managements von NGS-Daten am Standort Göttingen

Meeting Abstract

Suche in Medline nach

  • Benjamin Löhnhardt - Universitätsmedizin Göttingen, Göttingen, DE
  • Rainer Bohrer - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG), Göttingen, DE
  • Ulrich Sax - Universitätsmedizin Göttingen, Göttingen, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.145

doi: 10.3205/13gmds136, urn:nbn:de:0183-13gmds1368

Veröffentlicht: 27. August 2013

© 2013 Löhnhardt et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Insbesondere durch Next-Generation-Sequencing (NGS)-Verfahren ist eine deutliche Kostenreduktion für Genom-Sequenzierungen zu beobachten [1]. Für die hierdurch entstehenden Datenmengen sind Infrastrukturen/Ressourcen zur Speicherung und Prozessierung erforderlich. Speicherlösungen sowie unterschiedliche High-Performance-Computing-Ansätze [2] können sowohl dezentral in den Forschungsgruppen als auch zentral in den Rechenzentren oder von Dienstleistern betrieben werden. Für eine geeignete Infrastruktur muss hier der optimale Mix mit dem Fokus auf Kosten, Aufwand (z.B. Datentransfer), Durchführbarkeit (z.B. Datenschutz) und Qualität gefunden werden. Im Folgenden werden verschiedene Facetten für die Speicherung und Verarbeitung von Genom-Sequenzierungsdaten beschrieben.

Material und Methode: Das Domänenmodell von Treloar beschreibt die drei Domänen „lokale Forschungsumgebung“ (Private-Research-Domain), „kollaborative Forschungsumgebung“ (Shared-Research-Domain) und Publikation (Public-Domain) sowie deren Übergänge [3]. Als Ausgangslage wurde der Deep-Sequencing-Workflow betrachtet, bei dem die Phasen Sequenzierung, Alignment und statistische Datenauswertung durchlaufen werden [4]. In diesen Prozessschritten werden Daten erzeugt und von unterschiedlichen Forschungsgruppen mit speziellen Anwendungsprogrammen verarbeitet. Auf Basis von Konzepten und Umsetzungen für das Göttinger Proteomics-Forum [5] haben sich die an dem Workflow beteiligten Personengruppen abgestimmt, um für die Speicherung und Verarbeitung der Sequenzierungsdaten eine geeignete Infrastruktur zu entwerfen.

Ergebnisse: Das Domänenmodell von Treloar wurde auf die Sequenzierungsprozessschritte angewendet und daraus verschiedene Aspekte für eine Speicher- und Verarbeitungsinfrastruktur am Standort Göttingen mit Empfehlung für dezentrale/zentrale Umsetzung betrachtet.

Sequenzierung: Die NGS-Laborgeräte befinden sich in den Forschungsgruppen. Die Datengenerierung sowie Vorverarbeitung (Bilddateien => Base-Calling-Files => FASTQ-Dateien) erfolgt dezentral innerhalb einer Private-Research-Domain. Die Bilddaten werden direkt verworfen. Die Base-Calling-Files/FASTQ-Dateien werden an einen zentralen Speicherort (Rechenzentrum/Dienstleister) übertragen.

Alignment: Das Alignment der Sequenzdaten erfolgt weiterhin in der Private-Research-Domain durch entsprechende Anwendungen. Die resultierenden BAM-/SAM-Dateien werden wiederum an einen zentralen Speicherort übertragen.

Datenauswertung/-analyse: Die Datenauswertung der BAM-/SAM-Dateien erfolgt in einer Shared-Research-Domain, wobei berechtigten Forschern Zugriff auf die Daten gewährt wird. Zentral werden (Cloud-)Dienste für die Datenanalyse (Sequenzierungsplattformen/-toolkits) bereitgestellt.

Projektabschluss/Veröffentlichung: Roh- und Analysedaten werden zentral abgelegt und bei Veröffentlichungen in der Public-Domain bereitgestellt.

Diskussion: Sowohl zentrale als auch dezentrale Lösungen haben ihre Nachteile. Dezentrale Lösungen können weniger von Skalierungseffekten profitieren als zentrale (Cloud-)Lösungen. Weiterhin ist der dezentrale Betrieb von Speicher- und Rechenressourcen weniger effektiv. Bei solchen „kleinen Rechenzentren“ innerhalb der Forschungsgruppen ist der Aufwand für den sicheren Betrieb der Ressourcen (Firewall, Kühlung, Redundanz, Zugangsmechanismen, Zwei-Standort-Datenhaltung, etc.) höher. Oft werden Forscher zusätzlich für die Administration der Ressourcen beauftragt, wodurch manche Betriebsaspekte mangels Know-How oder Zeit nicht vollständig umgesetzt werden. Der Datentransfer bei kollaborativem Arbeiten ist bei dezentralen Lösungen oft der Flaschenhals. Zentrale Lösungen können hingegen der Empfehlung „bring computations to the data“ [6] befolgen. Zudem ist Data-Sharing durch eine fehlende übergreifende Nutzerverwaltung oft nicht umgesetzt oder erschwert. Daher ist bei den einzelnen Prozessschritten (z.B. Alignment) zu überprüfen, inwiefern kollaborativ gearbeitet werden soll und entsprechend muss die Domäne gewählt werden. Zentrale Lösungen haben einen Single-Point-of-Failure, sofern die Ressourcen nicht redundant bereitgestellt werden. Zumindest ist der Prozess stärker von anderen Infrastrukturkomponenten (z.B. Netzwerk) abhängig. Zudem muss bei der zentralen Datenspeicherung bzw. -verarbeitung der Datenschutz betrachtet werden, insbesondere bei einem externen Dienstleister. Bei personenbezogenen Daten in Forschung oder Diagnostik müssen hier geeignete Maßnahmen getroffen oder eine Private-Cloud-Umgebung verwendet werden. Das Konzept soll am Standort Göttingen in einer Testphase überprüft werden.


Literatur

1.
Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP). [Letzter Zugriff: 20.03.2013] URL: http://www.genome.gov/sequencingcosts Externer Link
2.
Schadt EE, Linderman MD, Sorenson J, Lee L, Nolan GP. Computational solutions to large-scale data management and analysis. Nature Reviews Genetics. 2010;11(9):647-657.
3.
Treloar A, Harboe-Ree C. Data management and the curation continuum: how the Monash experience is informing repository relationships. Proceedings of VALA 2008, Melbourne, 2008. p. 1-12.
4.
Herrmann A, Hampe J; LABIMI/F. Use Case – Genomdaten. [Letzter Zugriff: 20.03.2013]. URL: http://www.labimi-f.med.uni-goettingen.de/Deliverables/D2_1_Metadaten_v4.pdf Externer Link
5.
Göttinger Proteomics-Forum. [Letzter Zugriff: 20.03.2013]. URL: http://gpf.gwdg.de/ Externer Link
6.
Hey AJ. The fourth paradigm: data-intensive scientific discovery. In: Tansley S, Tolle KM, eds. Microsoft Research. Redmond; 2009. p. 1-252.