gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Anwendung von Microarray-Analysemethoden auf Höchstleistungsrechnern und Clouds

Meeting Abstract

Suche in Medline nach

  • Christoph Bernau - LMU, München
  • Anne-Laure Boulesteix - LMU, München

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds566

DOI: 10.3205/11gmds566, URN: urn:nbn:de:0183-11gmds5669

Veröffentlicht: 20. September 2011

© 2011 Bernau et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Die statistische Analyse von Microarray-Daten beinhaltet mehrere rechenaufwändige Schritte wie Normalisierung, wrapper-Variablenselektion oder auch die Konstruktion von Prädiktionsregeln mittels komplexer Klassifikations- und Regressionsmethoden. Zudem werden im Rahmen von Microarray-Analysen häufig Resamplingverfahren zur Optimierung bestimmter Hyperparameter oder auch zur Modellevaluation herangezogen. Neben der möglicherweise enormen Rechenzeit stellt auch der hohe Bedarf an Arbeitsspeicher ein Problem bei der Analyse dieser hochdimensionalen Daten dar. Der Vortrag beschäftigt sich mit der Umsetzung und Effizienz von zwei Schritten der Microarray-Analyse in einem Cloudumfeld im Vergleich mit den sonst üblichen Clusterimplementierungen. Evaluation bzw. Tuning von Modellen findet in der Regel auf den bereits normalisierten Microrrays statt und benötigt daher weniger Arbeitsspeicher. Zudem ist eine Parallelisierung der üblicherweise verwendeten Resamplingverfahren mit relativ wenig Kommunikation zwischen den einzelnen Knoten verbunden. Bei der Normalisierung werden hingegen je nach Implementierung große Datenmengen auf den einzelnen Knoten benötigt oder bei einem Ansatz mit verteilten Daten deutlich mehr Kommunikation zwischen den Knoten erforderlich. Beide Szenarien können bei der Implementierung in der Cloud zu Komplikationen bzw. Effizienzverlusten führen, die bei einem normalen Höchstleistungsrechner oder Cluster deutlich geringer ausfallen. In diesem Zusammenhang soll die Frage beleuchtet werden, ob derartige Anwendungen auf den derzeit üblichen Cloudrechnern in geeigneter Weise umgesetzt werden können und wie eine solche Umsetzung im Vergleich mit einer Clusterimplementierung abschneidet.