Artikel
Praktische Probleme bei der Entwicklung von Vorhersageregeln auf Basis hochdimensionaler molekularer Daten
Suche in Medline nach
Autoren
Veröffentlicht: | 27. August 2013 |
---|
Gliederung
Text
Einleitung: Ein gängiger Ansatz für die Identifikation von Biomarkern in klinischen Kohorten ist die Messung einer großen Zahl von molekularen Merkmalen, z.B. genomweiten Einzelnukleotidpolymorphismen, die anschließend mit einem klinischen Endpunkt, z.B. redizivfreiem Überleben, in Bezug gesetzt werden.
Methoden: Statistische Techniken der regularisierten Regression erlauben die Anpassung einfacher Vorhersageregeln mit automatisierter Auswahl einer kleinen Zahl von potentiell relevanten Biomarkern. Die Abschätzung der Vorhersageleistung erfolgt dabei oft über Resampling-Techniken, d.h. über wiederholte Anpassung von Vorhersageregeln in Teildatensätzen, was sowohl sehr rechenaufwändig als auch hauptspeicherintensiv ist. Die Zahl der praktisch tatsächlich verwendbaren statistischen Techniken zur Bildung von Vorhersageregeln ist dadurch deutlich eingeschränkt.
Ergebnisse: Diese Probleme werden exemplarisch für das Verfahren des komponentenweisen Boostings illustriert. Speziell für dieses Verfahren wird eine Heuristik eingeführt, die den Rechenaufwand deutlich senkt. Gleichzeitig wird dadurch auch eine Implementierung möglich, die mit sehr großen Datensätzen bzw. beschränktem Hauptspeicher umgehen kann. Der zugrundeliegende Algorithmus wird konkret in einer Anwendung für Daten von AML-Patienten mit Überlebenszeit-Endpunkt illustriert und diskutiert.
Diskussion: In der vorgestellten Anwendung zeigen sich exemplarisch typische Probleme bei der praktischen Umsetzung der Bildung von Vorhersageregeln. Es wird aber auch deutlich, dass nach Lösen der technischen Probleme eine Verbesserung in der Vorhersageleistung erzielt werden kann.
Literatur
- 1.
- Binder H, Benner A, Bullinger L, Schumacher M. Tailoring sparse multivariable regression techniques for prognostic single-nucleotide polymorphism signatures. Statistics in Medicine. 2013. DOI: 10.1002/sim.549.
- 2.
- Binder H, Porzelius C, Schumacher M. An overview of techniques for linking high-dimensional molecular data to time-to-event endpoints by risk prediction models. Biometrical Journal. 2011; 53:170–189.
- 3.
- Binder H, Allignol A, Schumacher M, Beyersmann J. Boosting for high-dimensional time-to-event data with competing risks. Bioinformatics. 2009; 25:890–896.
- 4.
- Porzelius C, Binder H, Schumacher M. Parallelized prediction error estimation for evaluation of high-dimensional models. Bioinformatics. 2009; 25: 827–829.