gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

GAMS: effektives Management und Analyse großer Datenmengen von Genexpressionsexperimenten

Meeting Abstract (gmds2004)

  • corresponding author presenting/speaker Sylvia Merk - Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie, Universität München, München, Deutschland
  • Felix Weninger - Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie, Universität München, München, Deutschland
  • Andreas Barth - Med. Klinik I, Universität München, München, Deutschland
  • Michael Näbauer - Med. Klinik I, Universität München, München, Deutschland
  • Stefan Kääb - Med. Klinik I, Universität München, München, Deutschland
  • Martin Dugas - Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie, Universität München, München, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds081

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds081.shtml

Veröffentlicht: 14. September 2004

© 2004 Merk et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Die Analyse der Genexpression auf dem RNA-Niveau mit Hilfe der Oligonukleotid-Microarray-Technologie ermöglicht pro Probe die simultane Untersuchung von mehr als 20.000 Genen [1], [2]. Die resultierenden Daten sollen z.b. Aufschluss darüber geben, ob einzelne Gene bei bestimmten Krankheiten herauf- oder herunterreguliert sind. Die bei diesen Versuchen anfallende Datenmenge ist enorm und stellt spezifische Anforderungen sowohl an das Management als auch an die statistische Auswertung der Daten. Für die Datenanalyse sowie die Speicherung der Roh- und Analysedaten wurde GAMS (Gene Analysis Management System) entwickelt. Dieses System ermöglicht zum einen ein effizientes Datenmanagement, zum anderen ist eine standardisierte flexible Datenauswertung möglich.

Methoden

Die Genexpressionsdaten wurden im Rahmen des MAGiC- Projektes (Munich Alliance for Genomic Research on Cardiac Arrhythmias) , einem Teilprojekt des NGFN (Nationales Genomforschungsnetze), erhoben. Im Rahmen dieser Studie werden genetische Ursachen und Risikofaktoren kardialer Arrhythmien sowie die elektrophysiologische Variabilität bei Gesunden untersucht. Der zu den einzelnen Proben zugehörige Phänotyp wird in einer umfassenden Datenbank dokumentiert. Herzmuskelgewebe verschiedener histologischer Lokalisationen wurde mit GeneChip Human Genome U133-A (AffymetrixTM) untersucht.

Für die Speicherung von Rohdaten, normalisierten Daten und Analyseergebnissen wird eine MySQL-Datenbank verwendet. GAMS besteht aus zwei Teilen - Back-End und Front-End. Das zentrale Back-End, das den Bioinformatikern zugänglich ist, ist in R [3] implementiert und dient dem Einlesen der Rohdaten sowie der anschließenden Analyse. Für die statistische Auswertung werden Packages der auf R basierenden Bioconductor-Software [4], [5] verwendet. Die Rohdaten werden eingelesen und nach einer Qualitätskontrolle normalisiert (vsn, rma, mas5) [6], in zu vergleichende Gruppen (Responses) eingeteilt und analysiert. Weiterhin können die Daten mit hierarchischem Clustering auf vorhandene Strukturen untersucht sowie Expressionsprofile angefertigt werden. Alle Ergebnisse werden in der Datenbank gespeichert. Es ist außerdem möglich, die Analyse durch vorgefertigte R-Skripte zu automatisieren.

Das web-basierte Front-End ist in PHP implementiert und ermöglicht den Forschungsgruppen Analyseergebnisse sowie Informationen zu den einzelnen Proben sowie der Probengruppen (Responses) lokal vom Arbeitsplatz abzurufen. Als Visualisierungs-Tools steht die graphische Ausgabe statistischer Parameter, die Generierung von Heatmaps und Genprofilen sowie Chromosomen-Plots und Gene Ontology Maps zur Verfügung.

Ergebnisse/Diskussion

Auf dem Markt existiert eine Reihe kommerzieller und nichtkommerzieller Software-Lösungen für die Analyse von Genexpressionsdaten [7],[8], [9], [10], [11]. Bei den meisten dieser Systeme steht die statistische Datenanalyse im Vordergrund und es besteht keine Möglichkeit, die Roh- bzw. Analysedaten integriert zu speichern. Das Management aller anfallenden Daten und die zentrale Speicherung ist der große Vorteil bei der Verwendung von GAMS. Der Biologe kann über das Front-End zu jeder Zeit alle verfügbaren Informationen und Ergebnisse abrufen und graphisch anzeigen lassen. Die zeitraubende Suche nach lokal auf der Festplatte abgelegten Genlisten welche von Unterschiedlichen Normalisierungs-/Analyseverfahren stammen entfällt. Des weiteren besteht die Möglichkeit, über Verlinkung mit z.b. GeneOnotology [12] oder GeneCardsTM [13] auf externe Informationen bezüglich der gefundenen Gene zuzugreifen. Das System ist außerdem in der Lage, die Analyse größerer Probenzahlen, d.h. die simultane Auswertung mehrerer hundert Genexpressionschips, zu bewältigen.

Hier wurden Genexpressionsdaten von Herzmuskelgewebe in das GAMS-System importiert und auf differenzielle Expression hinsichtlich verschiedener Parameter (Lokalisation Atrium-Ventrikel, Lokalisation Epikard-Endokard, Geschlecht etc) untersucht. Qualitätskontrollen zeigten, dass die Qualität von drei Chips nicht genügend war. Diese wurden aus den weiteren Untersuchungen ausgeschlossen. Alle resultierenden Analyse-Ergebnisse wurden in der GAMS-Datenbank gespeichert. Ein Vergleich der resultierenden Genlisten mit in der Literatur bekannten herzspezifischen Genen hat gezeigt, dass sogenannte Markergene auch in unseren Daten als differenziell exprimiert erkannt wurden. Der gefundene Unterschied der Genexpression zwischen Atrium und Ventrikel konnte zudem auch graphisch mit einer Heatmap deutlich dargestellt werden. Derzeit werden weitere Untersuchungen durchgeführt, die anhand von Promotoren und Transkriptionsfaktoren Aufschluss über die Funktion der einzelnen Gene geben soll. Hierbei soll die Vernetzung von GAMS mit im WWW existierenden Datenbanken ausgebaut werden.


Literatur

1.
Hacia JG. Resequencing and mutational analysis using oligonucleotide microarrays. Nat Genet. 1999; 21(1 Suppl):42-7. Review.
2.
Butte A. The use and analysis of microarray data. Nat Rev Drug Discov. 2002; 1:951-60.
3.
http://www.r-project.org
4.
Ihaka R, Gentleman R. R: A Language for Data Analysis and Graphics. JCGS 1996; 5(3): 299-314.
5.
Gentleman R, Carey VJ. Visualization and annotation of genomic experiments. In: Parmigiani G, Garrett ES, Irizarry RA, Zeger SL Hrsg. TheAnalysis of Gene Expression Data: Methods and Software. New York: Springer; 2003
6.
Hoffmann R, Seidl T, Dugas M. Profound effect of normalization on detection of differentially expressed genes in oligonucleotide microarray data analysis. Genome Biol. 2002;3(7):RESEARCH0033.
7.
Saeed AI, Sharov V, White J, Li J, Liang W, Bhagabati N, Braisted J, Klapa M, Currier T, hiagarajan M, Sturn A, Snuffin M, Rezantsev A, Popov D, Ryltsov A, Kostukovich E, Borisovsky I, Ziu Z, Vinsavich A, Trush V, Quackenbush J. TM4: A Free, Open-Source System for Microarray Data Management and Analysis. BioTechniques 2003;34: 374-378.
8.
Saal LH, Troein C, Vallon-Christersson J, Gruvberger S, Borg Å, Peterson C. BioArray Software Environment (BASE): a platform for comprehensive management and analysis of microarray data. Genome Biology 2002 3(8): software0003.1-0003.6
9.
Herrero J, Al-Shahrour F, Díaz-Uriarte R, Mateos A, Vaquerizas JM, Santoyo J, Dopazo J. GEPAS: a web-based resource for microarray gene expression data analysis. Nucleic Acids Research 2003; 31(13): 3461-3467
10.
Knudsen S, Workman C, Sicheritz-Ponten T, Friis C. GenePublisher: automated analysis of DNA microarray data. Nucleic Acids Research 2003; 31(13): 3471-3476.
11.
Luscombe NM, Royce TE, Bertone P, Echols N, Horak CE, Chang JT, Snyder M, Gerstein M. ExpressYourself: a modular platform for processing and visualizing microarray data. Nucleic Acids Research 2003;31(13): 3477-3482
12.
Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25: 25-29
13.
Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: encyclopedia for genes, proteins and diseases. Weizmann Institute of Science, Bioinformatics Unit and Genome Center (Rehovot, Israel), 1997. World Wide Web URL: http://bioinformatics.weizmann.ac.il/cards