gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Wahrscheinlichkeitsschätzung für binäre und multikategorielle Endpunkte mit Verfahren des maschinellen Lernens

Meeting Abstract

Suche in Medline nach

  • Andreas Ziegler - Universität zu Lübeck, Institut für Medizinische Biometrie und Statistik, Lübeck, DE
  • Jochen Kruppa - Universität zu Lübeck, Institut für Medizinische Biometrie und Statistik, Lübeck, DE
  • Theresa Holste - Universität zu Lübeck, Institut für Medizinische Biometrie und Statistik, Lübeck, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.292

doi: 10.3205/13gmds309, urn:nbn:de:0183-13gmds3096

Veröffentlicht: 27. August 2013

© 2013 Ziegler et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Wahrscheinlichkeiten binärer oder kategorieller Endpunkte werden für einzelne Personen in der Biostatistik üblicherweise mittels logistischer oder multinomialer logistischer Regression geschätzt. Die Schätzungen können aber verzerrt sein, falls das Regressionsmodell fehlspezifiziert ist. Als Alternative zur individuellen Wahrscheinlichkeitsschätzung bieten sich Verfahren des maschinellen Lernens an, wie z.B. k nächste Nachbarn (k-NN), gebootstrappte und gemittelte nächste Nachbarn (b-NN), Zufallswälder (RF) oder aber auch Support Vektor Maschinen (SVM). Diese Ansätze erlauben die konsistente Schätzung von Wahrscheinlichkeiten unter liberalen Modellannahmen. Als erstes wird die fundamentale Idee zur Schätzung konsistenter Wahrscheinlickeiten mit Verfahren des maschinellen Lernens beschrieben. Speziell wird gezeigt, dass sich das Problem der Wahrscheinlichkeitsschätzung als nichtparametrisches Regressionsproblem interpretieren lässt. Anschließend werden RF, k-NN, b-NN und SVM eingeführt und deren theoretischen Eigenschaften für binäre Größen, genauer: Konsistenz und Konvergenzgeschwindigkeit zusammengefasst. Dabei unterscheiden sich SVMs von den anderen Verfahren dadurch, dass hier Wahrscheinlichkeiten konsistent geschätzt werden können, indem wiederholt Klassifikationsprobleme gelöst werden. Die Algorithmen für binäre Größen werden dann auf multikategorielle Probleme erweitert. In Simulationsstudien wird die Gültigkeit der Verfahren gezeigt. Es wird aber auch für jedes Verfahren mindestens eine Simulationsstudie gezeigt, in denen das Verfahren vollkommen versagt. Die Simulationsstudien verdeutlichen auch, dass zur Beurteilung der Güte von Verfahren zur Schätzung individueller Wahrscheinlichkeiten und zum Vergleich der Verfahren nicht die ROC Kurve sowie die Fläche unter der ROC Kurve geeignet sind sondern der Brier (Skill) Score bzw. die Differenz von Brier (Skill) Scores. Die Verfahren werden anhand von zwei Realdatensätzen illustriert.


Literatur

1.
Malley JD, Kruppa J, Dasgupta A, Malley KG, Ziegler A. Probability machines. Consistent probability estimation using nonparametric learning machines. Methods Inf Med. 2012; 51: 74-81.
2.
Kruppa J, Ziegler A, König IR. Risk estimation and risk prediction using machine learning methods. Hum Genet. 2012; 131: 1639-1654.
3.
Kruppa J, Schwarz A, Arminger G, Ziegler A. Consumer credit risk: Individual probability estimates using machine learning. Expert Syst Appl. 2013; 40: 5125-5131.