Artikel
Integration von Interaktionen in Regressionsmodelle für hochdimensionale molekulare Daten
Suche in Medline nach
Autoren
Veröffentlicht: | 27. August 2013 |
---|
Gliederung
Text
Regressionsmodelle ermöglichen es, Merkmale von Patienten mit einem klinischen Endpunkt, z.B. Überlebenszeit, in Beziehung zu setzen. Dabei wird in einem ersten Schritt typischerweise für jedes zu betrachtenden Merkmal ein linearer Term in das Modell aufgenommen, ohne Interaktionen zwischen Merkmalen zu berücksichtigen, um Probleme durch eine große Zahl von Interaktionstermen zu vermeiden. Die Interaktionsproblematik verschärft sich, wenn hochdimensionale molekulare Messungen, z.B. zur Genexpression, als Patientenmerkmale berücksichtigt werden sollen. Zwar gibt es statistische Techniken, die in einem Regressionsmodell eine automatisierte Variablenauswahl aus zehntausenden von Merkmalen leisten können, aber die Berücksichtigung aller Interaktionskandidaten gestaltet sich selbst bei nur paarweisen Interaktionen methodisch als auch rechentechnisch als schwierig. Wir stellen einen schrittweisen Ansatz vor, um Interaktionen bei der Bildung von Regressionsmodellen für hochdimensionale molekulare Daten dennoch zu berücksichtigen. Die Basis dafür liefert die regularisierte Regressionstechnik des komponentenweisen Boostings. Zur Detektion von potentiellen Interaktionen wird der "Random Forest"-Ansatz als nicht-parametrische Technik verwendet. Es wird illustriert, wie diese beide Ansätze zu einem Verfahren integriert werden können. Gleichzeitig werden Szenarios charakterisiert, in denen die Interaktionsidentifikation überhaupt erfolgreich sein kann. Die Techniken werden zusätzlich in einer Anwendung mit Genexpressionsdaten und Überlebenszeitendpunkt illustriert.