gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Praktische Probleme bei der Entwicklung von Vorhersageregeln auf Basis hochdimensionaler molekularer Daten

Meeting Abstract

Search Medline for

  • Harald Binder - Universitätsmedizin der Johannes-Gutenberg-Universität Mainz, Mainz, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.316

doi: 10.3205/13gmds281, urn:nbn:de:0183-13gmds2811

Published: August 27, 2013

© 2013 Binder.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Ein gängiger Ansatz für die Identifikation von Biomarkern in klinischen Kohorten ist die Messung einer großen Zahl von molekularen Merkmalen, z.B. genomweiten Einzelnukleotidpolymorphismen, die anschließend mit einem klinischen Endpunkt, z.B. redizivfreiem Überleben, in Bezug gesetzt werden.

Methoden: Statistische Techniken der regularisierten Regression erlauben die Anpassung einfacher Vorhersageregeln mit automatisierter Auswahl einer kleinen Zahl von potentiell relevanten Biomarkern. Die Abschätzung der Vorhersageleistung erfolgt dabei oft über Resampling-Techniken, d.h. über wiederholte Anpassung von Vorhersageregeln in Teildatensätzen, was sowohl sehr rechenaufwändig als auch hauptspeicherintensiv ist. Die Zahl der praktisch tatsächlich verwendbaren statistischen Techniken zur Bildung von Vorhersageregeln ist dadurch deutlich eingeschränkt.

Ergebnisse: Diese Probleme werden exemplarisch für das Verfahren des komponentenweisen Boostings illustriert. Speziell für dieses Verfahren wird eine Heuristik eingeführt, die den Rechenaufwand deutlich senkt. Gleichzeitig wird dadurch auch eine Implementierung möglich, die mit sehr großen Datensätzen bzw. beschränktem Hauptspeicher umgehen kann. Der zugrundeliegende Algorithmus wird konkret in einer Anwendung für Daten von AML-Patienten mit Überlebenszeit-Endpunkt illustriert und diskutiert.

Diskussion: In der vorgestellten Anwendung zeigen sich exemplarisch typische Probleme bei der praktischen Umsetzung der Bildung von Vorhersageregeln. Es wird aber auch deutlich, dass nach Lösen der technischen Probleme eine Verbesserung in der Vorhersageleistung erzielt werden kann.


Literatur

1.
Binder H, Benner A, Bullinger L, Schumacher M. Tailoring sparse multivariable regression techniques for prognostic single-nucleotide polymorphism signatures. Statistics in Medicine. 2013. DOI: 10.1002/sim.549. External link
2.
Binder H, Porzelius C, Schumacher M. An overview of techniques for linking high-dimensional molecular data to time-to-event endpoints by risk prediction models. Biometrical Journal. 2011; 53:170–189.
3.
Binder H, Allignol A, Schumacher M, Beyersmann J. Boosting for high-dimensional time-to-event data with competing risks. Bioinformatics. 2009; 25:890–896.
4.
Porzelius C, Binder H, Schumacher M. Parallelized prediction error estimation for evaluation of high-dimensional models. Bioinformatics. 2009; 25: 827–829.