gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Verbesserung von Klassifikationsverfahren durch Boosting bei binärer Zielgröße

Meeting Abstract

Search Medline for

  • Rainer Stollhoff - Institut für Medizinische Biometrie und Informatik, Universitätsklinikum Freiburg, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds661

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2005/05gmds523.shtml

Published: September 8, 2005

© 2005 Stollhoff.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung

Das Ziel eines Klassifikationsverfahrens besteht darin, anhand einer Stichprobe von beobachteten Merkmalen und Klassenzugehörigkeiten, einem sog. Trainingsdatensatz, eine Klassifikationsregel zu erstellen, die jedem Vektor beobachtbarer Merkmale eine eindeutige Klasse zuweist.

Die Idee des Boosting [1] ist, eine Folge von Klassifikationsregeln zu erzeugen, indem das Klassifikationsverfahren iterativ auf unterschiedlich gewichtete Versionen des ursprünglichen Trainingsdatensatzes angewandt wird. Man erhält eine endgültige geboostete Klassifikationsregel als Linearkombination der Folge.

In einer Simulationsstudie wird untersucht, unter welchen Umständen die Verwendung von Boosting Verfahren zu einer Verbesserung der Prädiktionsfähigkeit eines Klassifikationsverfahrens führen kann.

Material und Methoden

In einer ersten Simulationsstudie mit drei binomial- und drei normalverteilten beobachtbaren Merkmalen werden die bedingten Wahrscheinlichkeiten der Klassenzugehörigkeit durch ein linear-logistisches Modell bestimmt. In zwei weiteren Simulationsstudien werden dem linear-logistischen Modell multivariate und nichtlineare Terme hinzugefügt, um den Einfluss von Variableninterakion und -transformation zu untersuchen.

Verwendet werden das AdaBoost.M1 [2] Verfahren angewendet auf Klassifikationsbäume [3], sowie Gradient Boosting mit Regressionsbäumen [4]. Die Prädiktionsfähigkeit der geboosteten Klassifikationsregeln wird mit der eines einzelnen Klassifikationsbaums, sowie einer logistischen Regression verglichen. Als Kriterien dienen dabei die Fehlklassifikationsrate, sowie der Brier Score.

Ergebnisse

In allen drei Simulationsstudien wird die Prädiktionsfähigkeit der Klassifikationsbäume durch den Einsatz von Boosting Verfahren wesentlich verbessert. Fehlen Variableninteraktionen, so sind Kombinationen minimaler Klassifikationsbäume, sog. decision stumps, denen komplexerer Bäume überlegen. Die beiden Boosting Verfahren unterscheiden sich vor allem bei der Schätzung der bedingten Wahrscheinlichkeiten der Klassenzugehörigkeit.

Diskussion

Boosting Verfahren können die Prädiktionsfähigkeit von Klassifikationsverfahren wesentlich verbessern. Es scheint, dass vor allem einfache und flexible Klassifikationsverfahren mit Boosting sehr gute Klassifikationsregeln liefern. Neuere, analytische Arbeiten (siehe u.a. [5]) zeigen die Konsistenz von Boosting Verfahren unter geringen Anforderungen an die Komplexität des verwendeten Klassifikationsverfahrens. Modifikationen der einfachen Boosting Verfahren, wie z.B. eine Regularisierung, könnten die hier beobachtete Überanpassung an den Trainingsdatensatz verringern.


Literatur

1.
Freund Y. Boosting a weak learning algorithm by majority. Information and Computation 121(2): 256-285, 1995.
2.
Freund Y, Schapire, R. Experiments with a new boosting algorithm. Machine Learning: Proceedings of the 13th Int. Conference, 1996.
3.
Breiman L, Friedman JH, Olshen RA, Stone CJ. . Wadsworth, CA, 1984.
4.
Friedman J. Greedy Function Approximation: A Gradient Boosting Machine. Technical Report, Stanford University, 1997.
5.
Jiang W. Process consistency for adaboost. Annals of Statistics, 32(1):13-29, 2004.