gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Anwendung von Microarray-Analysemethoden auf Höchstleistungsrechnern und Clouds

Meeting Abstract

Search Medline for

  • Christoph Bernau - LMU, München
  • Anne-Laure Boulesteix - LMU, München

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds566

doi: 10.3205/11gmds566, urn:nbn:de:0183-11gmds5669

Published: September 20, 2011

© 2011 Bernau et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Die statistische Analyse von Microarray-Daten beinhaltet mehrere rechenaufwändige Schritte wie Normalisierung, wrapper-Variablenselektion oder auch die Konstruktion von Prädiktionsregeln mittels komplexer Klassifikations- und Regressionsmethoden. Zudem werden im Rahmen von Microarray-Analysen häufig Resamplingverfahren zur Optimierung bestimmter Hyperparameter oder auch zur Modellevaluation herangezogen. Neben der möglicherweise enormen Rechenzeit stellt auch der hohe Bedarf an Arbeitsspeicher ein Problem bei der Analyse dieser hochdimensionalen Daten dar. Der Vortrag beschäftigt sich mit der Umsetzung und Effizienz von zwei Schritten der Microarray-Analyse in einem Cloudumfeld im Vergleich mit den sonst üblichen Clusterimplementierungen. Evaluation bzw. Tuning von Modellen findet in der Regel auf den bereits normalisierten Microrrays statt und benötigt daher weniger Arbeitsspeicher. Zudem ist eine Parallelisierung der üblicherweise verwendeten Resamplingverfahren mit relativ wenig Kommunikation zwischen den einzelnen Knoten verbunden. Bei der Normalisierung werden hingegen je nach Implementierung große Datenmengen auf den einzelnen Knoten benötigt oder bei einem Ansatz mit verteilten Daten deutlich mehr Kommunikation zwischen den Knoten erforderlich. Beide Szenarien können bei der Implementierung in der Cloud zu Komplikationen bzw. Effizienzverlusten führen, die bei einem normalen Höchstleistungsrechner oder Cluster deutlich geringer ausfallen. In diesem Zusammenhang soll die Frage beleuchtet werden, ob derartige Anwendungen auf den derzeit üblichen Cloudrechnern in geeigneter Weise umgesetzt werden können und wie eine solche Umsetzung im Vergleich mit einer Clusterimplementierung abschneidet.