gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Praktische Probleme bei der Entwicklung von Vorhersageregeln auf Basis hochdimensionaler molekularer Daten

Meeting Abstract

Suche in Medline nach

  • Harald Binder - Universitätsmedizin der Johannes-Gutenberg-Universität Mainz, Mainz, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.316

doi: 10.3205/13gmds281, urn:nbn:de:0183-13gmds2811

Veröffentlicht: 27. August 2013

© 2013 Binder.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Ein gängiger Ansatz für die Identifikation von Biomarkern in klinischen Kohorten ist die Messung einer großen Zahl von molekularen Merkmalen, z.B. genomweiten Einzelnukleotidpolymorphismen, die anschließend mit einem klinischen Endpunkt, z.B. redizivfreiem Überleben, in Bezug gesetzt werden.

Methoden: Statistische Techniken der regularisierten Regression erlauben die Anpassung einfacher Vorhersageregeln mit automatisierter Auswahl einer kleinen Zahl von potentiell relevanten Biomarkern. Die Abschätzung der Vorhersageleistung erfolgt dabei oft über Resampling-Techniken, d.h. über wiederholte Anpassung von Vorhersageregeln in Teildatensätzen, was sowohl sehr rechenaufwändig als auch hauptspeicherintensiv ist. Die Zahl der praktisch tatsächlich verwendbaren statistischen Techniken zur Bildung von Vorhersageregeln ist dadurch deutlich eingeschränkt.

Ergebnisse: Diese Probleme werden exemplarisch für das Verfahren des komponentenweisen Boostings illustriert. Speziell für dieses Verfahren wird eine Heuristik eingeführt, die den Rechenaufwand deutlich senkt. Gleichzeitig wird dadurch auch eine Implementierung möglich, die mit sehr großen Datensätzen bzw. beschränktem Hauptspeicher umgehen kann. Der zugrundeliegende Algorithmus wird konkret in einer Anwendung für Daten von AML-Patienten mit Überlebenszeit-Endpunkt illustriert und diskutiert.

Diskussion: In der vorgestellten Anwendung zeigen sich exemplarisch typische Probleme bei der praktischen Umsetzung der Bildung von Vorhersageregeln. Es wird aber auch deutlich, dass nach Lösen der technischen Probleme eine Verbesserung in der Vorhersageleistung erzielt werden kann.


Literatur

1.
Binder H, Benner A, Bullinger L, Schumacher M. Tailoring sparse multivariable regression techniques for prognostic single-nucleotide polymorphism signatures. Statistics in Medicine. 2013. DOI: 10.1002/sim.549. Externer Link
2.
Binder H, Porzelius C, Schumacher M. An overview of techniques for linking high-dimensional molecular data to time-to-event endpoints by risk prediction models. Biometrical Journal. 2011; 53:170–189.
3.
Binder H, Allignol A, Schumacher M, Beyersmann J. Boosting for high-dimensional time-to-event data with competing risks. Bioinformatics. 2009; 25:890–896.
4.
Porzelius C, Binder H, Schumacher M. Parallelized prediction error estimation for evaluation of high-dimensional models. Bioinformatics. 2009; 25: 827–829.