Artikel
Wahrscheinlichkeitsschätzung für binäre und multikategorielle Endpunkte mit Verfahren des maschinellen Lernens
Suche in Medline nach
Autoren
Veröffentlicht: | 27. August 2013 |
---|
Gliederung
Text
Wahrscheinlichkeiten binärer oder kategorieller Endpunkte werden für einzelne Personen in der Biostatistik üblicherweise mittels logistischer oder multinomialer logistischer Regression geschätzt. Die Schätzungen können aber verzerrt sein, falls das Regressionsmodell fehlspezifiziert ist. Als Alternative zur individuellen Wahrscheinlichkeitsschätzung bieten sich Verfahren des maschinellen Lernens an, wie z.B. k nächste Nachbarn (k-NN), gebootstrappte und gemittelte nächste Nachbarn (b-NN), Zufallswälder (RF) oder aber auch Support Vektor Maschinen (SVM). Diese Ansätze erlauben die konsistente Schätzung von Wahrscheinlichkeiten unter liberalen Modellannahmen. Als erstes wird die fundamentale Idee zur Schätzung konsistenter Wahrscheinlickeiten mit Verfahren des maschinellen Lernens beschrieben. Speziell wird gezeigt, dass sich das Problem der Wahrscheinlichkeitsschätzung als nichtparametrisches Regressionsproblem interpretieren lässt. Anschließend werden RF, k-NN, b-NN und SVM eingeführt und deren theoretischen Eigenschaften für binäre Größen, genauer: Konsistenz und Konvergenzgeschwindigkeit zusammengefasst. Dabei unterscheiden sich SVMs von den anderen Verfahren dadurch, dass hier Wahrscheinlichkeiten konsistent geschätzt werden können, indem wiederholt Klassifikationsprobleme gelöst werden. Die Algorithmen für binäre Größen werden dann auf multikategorielle Probleme erweitert. In Simulationsstudien wird die Gültigkeit der Verfahren gezeigt. Es wird aber auch für jedes Verfahren mindestens eine Simulationsstudie gezeigt, in denen das Verfahren vollkommen versagt. Die Simulationsstudien verdeutlichen auch, dass zur Beurteilung der Güte von Verfahren zur Schätzung individueller Wahrscheinlichkeiten und zum Vergleich der Verfahren nicht die ROC Kurve sowie die Fläche unter der ROC Kurve geeignet sind sondern der Brier (Skill) Score bzw. die Differenz von Brier (Skill) Scores. Die Verfahren werden anhand von zwei Realdatensätzen illustriert.
Literatur
- 1.
- Malley JD, Kruppa J, Dasgupta A, Malley KG, Ziegler A. Probability machines. Consistent probability estimation using nonparametric learning machines. Methods Inf Med. 2012; 51: 74-81.
- 2.
- Kruppa J, Ziegler A, König IR. Risk estimation and risk prediction using machine learning methods. Hum Genet. 2012; 131: 1639-1654.
- 3.
- Kruppa J, Schwarz A, Arminger G, Ziegler A. Consumer credit risk: Individual probability estimates using machine learning. Expert Syst Appl. 2013; 40: 5125-5131.