gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

R/Bioconductor Paket zur Analyse von Roche 454 Sequenzierungsdaten

Meeting Abstract

  • Christian Ruckert - Institut für Medizinische Informatik, Universität Münster, Münster
  • Hans-Ulrich Klein - Institut für Medizinische Informatik, Universität Münster, Münster
  • Christoph Bartenhagen - Institut für Medizinische Informatik, Universität Münster, Münster
  • Martin Dugas - Institut für Medizinische Informatik, Universität Münster, Münster

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds104

doi: 10.3205/11gmds104, urn:nbn:de:0183-11gmds1041

Published: September 20, 2011

© 2011 Ruckert et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Hintergrund: Im Rahmen des R/Bioconductor Projektes sind in den letzten Jahren eine Reihe von Softwarepaketen zur Verarbeitung und Auswertung von Next Generation Sequencing Daten entstanden. Darunter sind allerdings nur sehr wenige Lösungen für Experimente, welche mit Hilfe von Roches Genome Sequencer Systemen durchgeführt wurden. Roche stellt mit dem GS Run Browser zwar ein Tool zur Überwachung einzelner Sequenzier-Läufe zur Verfügung, aber dieses steht nicht frei zur Verfügung und ist in seiner Funktionalität eingeschränkt, insbesondere ist es nicht möglich die Qualität über mehrere Läufe hinweg zu überwachen und zu vergleichen. Wir haben ein frei verfügbares R/Bioconductor Paket entwickelt, welches Methoden zum Einlesen der Rohdaten, zur Überprüfung der Qualität und zum Finden und Annotieren struktureller Varianten bereitstellt.

Material und Methoden: Ausgangspunkt für die Analyse mit unserem Paket sind die vom Sequenziersystem gelieferten Rohdaten, diese liegen im binären “Standard Flowgram Format” (SFF) vor. Hauptbestandteile dieser Dateien sind die gefundenen Nukleotidsequenzen, eventuell benutzte Adaptersequenzen sowie Qualitätsstatistiken für jede einzelne Base. Um diese relativ großen Dateien effizient in R einlesen zu können kommen C-basierte Subroutinen zum Einsatz, anschließend ist eine einfache Umwandlung in bereits vorhandene R/Bioconductor Datenstrukturen für genomische Daten möglich.

Im folgenden Schritt werden verschiedene Qualitätsmaße berechnet, darunter die durschnittliche Readlänge, die mittlere Qualität pro Base, die Verteilung der vier verschiedenen Basen und der GC-Anteil an allen Basen eines Reads. Verschiedene Filter erkennen partielle und vollständige Duplikationen. Desweiteren wird ein Maß für die Komplexität der Sequenzen berechnet, um solche mit hohem repetitiven Anteil zu identifizieren. Diese Statistiken sind sowohl tabellarisch, als auch in Form von Grafiken darstellbar. Die Ausgabe der annotierten strukturellen Varianten erfolgt in Form eines HTML-Reports.

Um die obigen Ergebnisse langfristig speichern zu können und diese auch Wissenschaftlern ohne Kenntnisse in der R Programmierung zugänglich zu machen wurde eine Weboberfläche entwickelt. Die im R-Paket berechneten Statistiken lassen sich in einer PostgreSQL Datenbank speichern. Das mit Hilfe des Google Web Toolkit realisierte Frontend gestattet den komfortablen Zugriff auf die gespeicherten Daten mit beliebigen Webbrowsern.

Ergebnisse und Diskussion: Wir haben ein R/Bioconductor Paket entwickelt, welches es gestattet mit Roches Sequenziersystemen gemessene Daten einzulesen sowie deren Qualität zu überprüfen. Durch die Verwendung von Standarddatenstrukturen steht für zusätzliche Analyseschritte die große Vielfalt weiterer R/Bioconductor Pakete zur Verfügung. Die Datenbankanbindung gestattet die langfristige Überwachung und den Vergleich von Sequenzierläufen.