gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Integration von Interaktionen in Regressionsmodelle für hochdimensionale molekulare Daten

Meeting Abstract

Suche in Medline nach

  • Harald Binder
  • Murat Sariyar
  • Isabell Hoffmann - Universitätsmedizin der Johannes-Gutenberg-Universität Mainz, Mainz, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.303

doi: 10.3205/13gmds311, urn:nbn:de:0183-13gmds3111

Veröffentlicht: 27. August 2013

© 2013 Binder et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Regressionsmodelle ermöglichen es, Merkmale von Patienten mit einem klinischen Endpunkt, z.B. Überlebenszeit, in Beziehung zu setzen. Dabei wird in einem ersten Schritt typischerweise für jedes zu betrachtenden Merkmal ein linearer Term in das Modell aufgenommen, ohne Interaktionen zwischen Merkmalen zu berücksichtigen, um Probleme durch eine große Zahl von Interaktionstermen zu vermeiden. Die Interaktionsproblematik verschärft sich, wenn hochdimensionale molekulare Messungen, z.B. zur Genexpression, als Patientenmerkmale berücksichtigt werden sollen. Zwar gibt es statistische Techniken, die in einem Regressionsmodell eine automatisierte Variablenauswahl aus zehntausenden von Merkmalen leisten können, aber die Berücksichtigung aller Interaktionskandidaten gestaltet sich selbst bei nur paarweisen Interaktionen methodisch als auch rechentechnisch als schwierig. Wir stellen einen schrittweisen Ansatz vor, um Interaktionen bei der Bildung von Regressionsmodellen für hochdimensionale molekulare Daten dennoch zu berücksichtigen. Die Basis dafür liefert die regularisierte Regressionstechnik des komponentenweisen Boostings. Zur Detektion von potentiellen Interaktionen wird der "Random Forest"-Ansatz als nicht-parametrische Technik verwendet. Es wird illustriert, wie diese beide Ansätze zu einem Verfahren integriert werden können. Gleichzeitig werden Szenarios charakterisiert, in denen die Interaktionsidentifikation überhaupt erfolgreich sein kann. Die Techniken werden zusätzlich in einer Anwendung mit Genexpressionsdaten und Überlebenszeitendpunkt illustriert.