gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Analyse von Überlebenszeiten bei Tumorpatienten mit naivem Bayes Klassifikator und K-Means Clustering

Meeting Abstract

  • F. Sailer - Hochschule Heilbronn, Heilbronn
  • M. Pobiruchin - Hochschule Heilbronn, Heilbronn
  • S. Bochum - SLK Kliniken Heilbronn GmbH, Heilbronn
  • U. Martens - SLK Kliniken Heilbronn GmbH, Heilbronn
  • D. Pfeifer - Hochschule Heilbronn, Heilbronn

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 168

doi: 10.3205/14gmds073, urn:nbn:de:0183-14gmds0734

Published: September 4, 2014

© 2014 Sailer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung: In den letzten Jahren stieg die Anzahl an Tumorerkrankungen in der Bevölkerung. Inzwischen sind sie die dritthäufigste Todesursache in Industrienationen [1].

Die SLK-Kliniken Heilbronn GmbH sind der größte Gesundheitsdienstleister der Region Heilbronn-Franken und betreiben ein 2013 rezertifiziertes lokales Tumorzentrum (TZ), welches seit Mitte der 80er Jahre besteht.

Diese Arbeit versucht Methoden des Data Minings auf den Fällen des Kolorektalkarzinoms (ICD10-Codes C18, C19 und C20) des TZs anzuwenden, um auf Basis der Diagnosestellung Aussagen über die Überlebenszeit treffen zu können. Durch die hohe Inzidenz des Kolorektalkarzinoms ist trotz des beschränkten, lokalen Einzugsbereiches eine verhältnismäßig große Datenbasis gegeben.

Aufgrund individuellunterschiedlicher Einflussfaktoren ist keine exakte Vorhersage der Überlebenszeit für einen einzelnen Patienten möglich. Jedoch kann eine Verteilung der Überlebenszeit-Wahrscheinlichkeit erzeugt werden. Diese kann anhand ähnlicher Patientenkohorten abgeschätzt oder für jeden Patienten individuell berechnet werden.

Material und Methoden: Aus dem Tumordokumentationssystem des TZ wurde ein pseudonymisierter csv-Export der Datensätze vorgenommen. Dabei wurden 3759 Datensätze mit jeweils 195 Attributen exportiert. Daraufhin wurden unter anderem folgende Vorverarbeitungsschritte vorgenommen:

  • die Berechnung des Behandlungszeitraumes/ Überlebenszeit/ Alter,
  • die Normalisierung von numerischen Attributen und
  • die Entfernung redundanter oder überflüssiger Spalten.

Im Anschluss wurden die Datensätze mit dem Data Mining Werkzeug „Rapid Miner“ [2] analysiert. Dabei wurde der naive Bayes Klassifikator und das K-Means Clustering verwendet. Als Merkmals-auswahlverfahren wurden die Backward Elimination (BE), Forward Selection (FS), Information Gain (IG) und die Expertenselektion (ES) gegeneinander und gegen den naiven Ansatz der No Selection (NoS) getestet [3]. Für BE, FS, IG wurden Standardparameter verwendet; die ES erfolgte durch einen Arzt des TZs.

Naiver Bayes Klassifikator: Zunächst wurde die Überlebenszeit diskretisiert (äquifrequent und äquidistant). Hierbei wurden jeweils mehrere Intervallanzahlen (2, 3, 4, 5 und 10) gegeneinander getestet. Nach der Merkmalsauswahl folgte eine zufällige Aufteilung in eine Trainings- und eine gleich große Testdatenmenge. Für jeden Patienten berechnet der naive Bayes Klassifikator seine Wahrscheinlichkeit für die Zuordnung in jedes Diskretisierungsintervall. Es entsteht eineWahrscheinlichkeitsverteilung bzw. ein Histogramm über die möglichen Überlebenszeiten des Patienten. Aus den Histogrammen der Testdatensätze wurde das Fehlermaß F und der Erwartungswert E berechnet. Bzgl. F muss für jeden Patienten und jedes Intervall des Überlebenszeit-Wahrscheinlichkeits-Histogrammes (ermittelt durch den naiven Bayes Klassifikator) der Abstand zum tatsächlichen Intervall (also der tatsächlichen Überlebenszeit aus dem Datensatz) aufsummiert werden. Diese Summierung erfolgt gewichtet nach der errechneten Wahrscheinlichkeit des naiven Bayes Klassifikators; anschließend wird F normiert. Die Berechnung von E erfolgt analog, allerdings werden statt der Überlebenszeit-Wahrscheinlichkeits-Histogramme die Eintrittswahrscheinlichkeiten der Intervalle, geschätzt aus den Auftrittshäufigkeiten aller Datensätze, verwendet.

K-Means Clustering: Die optimale Anzahl der Cluster wurde aus Diagrammen, welche die Anzahl der Cluster gegen den quadratischen Abstand der Datensätze zu ihrem Clusterzentrum darstellen (SSE, sum of squared errors), ermittelt.

Anschließend wurden die numerischen Attribute diskretisiert. Danach folgte die Merkmalsauswahl und das Clustering der Datensätze. Hierbei war zu beachten, dass die Überlebenszeit zunächst aus der zu clusternden Menge der Datensätze entfernt und später wieder hinzugefügt wurde, um so abschließend für jedes einzelne Cluster ein Kaplan-Meier-Kurve [4] generieren zu können.

Ergebnisse: Naiver Bayes Klassifikator: Die äquidistante Diskretisierung lieferte zwar niedrigere Fehlermaße als die äquifrequente, allerdings war auch der Erwartungswert der äquidistanten Diskretisierung immer deutlich niedriger. Der relative Unterschied von Erwartungswert und Fehlermaß war daher bei der äquidistanten Diskretisierung deutlich geringer. Ein geringerer relativer Unterschied ist ein Zeichen für eine schlechtere Diskretisierung, weshalb die äquifrequente Diskretisierung als besser anzusehen ist. Der Erwartungwert der äquifrequenten Diskretisierung lag bei 0,398. Die Mittelwerte der Fehlermaße der einzelnen Merkmalsauswahlsverfahren, jeweils gemittelt über die Anzahl der Zielintervalle betrugen: 0,318 (BE), 0,342 (FS), 0,333 (IG), 0,370 (ES) und 0,334 (NoS). Dabei ist zu beachten, dass IG und ES für 2, 7, 8 und 10 Attribute durchgeführt wurde, hier dargestellt ist der Mittelwert aus allen Durchführungen.

K-Mean Clustering: Die einzelnen Kaplan-Meier-Kurven hoben sich bei allen gewählten Merkmalsauswahlverfahren gut voneinander ab, allerdings unterschieden sich die als optimal anzusehende Anzahl der Cluster: 7 (BE), 5 (FS) und 10 (NoS). ES und IG wurden für 2, 7, 8 und 10 Attribute durchgeführt, daher wurde für jede Durchführung ein Kaplan-Meier Diagramm erstellt. IG lieferte dabei folgende Anzahl an Clusterzentren: 8 (2 Attribute), 8 (7 Attribute) und 9 (10 Attribute). Die Kaplan-Meier-Diagramme der ES hatten folgende Anzahlen an Clusterzentren: 6 (2 Attribute), 7 (7 Attribute) und 10 (10 Attribute). Für acht Attribute konnte bei IG und ES keine optimale Anzahl an Clustern ermittelt werden.

Vergleich: Bei der Auswahl der Attribute fällt auf, dass die konkrete Auswahl zwar vom jeweiligen Data-Mining-Verfahren abhängig ist, es jedoch Ähnlichkeiten in der Häufigkeit der Verwendung der einzelnen Attribute gibt. So waren das UICC-Staging, die erste R-Klassifikation und die Anzahl der Metastasen des Tumors die drei am häufigsten verwendeten Attribute bei beiden Verfahren.

Die BE war bei der vorhandenen Konstellation der Menge und Verteilung der Datensätze das beste der getesteten Merkmalsauswahlverfahren. Dies ist zum einen aus den errechneten Fehlermaßen der naiven Bayes Klassifizierung sowie der Unterscheidbarkeit der Kaplan-Meier-Kurven des K-Means Clusterings abzulesen. Als zweitbestes Merkmalsauswahlverfahren erwies sich IG, jedoch nur sofern eine größere Anzahl an Attributen verwendet wurde. Die Ergebnisse der FS waren nach dem K-Means Clustering deutlich besser als beim NoS. Nach einer Klassifikation mit Hilfe des naiven Bayes-Verfahrens lieferte die FS allerdings schlechtere Resultate als NoS. Dies zeigt, dass je nach gewähltem Data-Mining-Verfahren eine spezifische Merkmalsauswahl stattfinden muss.

Diskussion: Aufgrund der Möglichkeit der patientenindividuellen Prognose eines Überlebenszeit-Wahrscheinlichkeit-Histogrammes erwies sich der naive Bayes Klassifikator im Laufe der Thesis als besser nachvollziehbar und damit als intuitiver.

Die eng beisammen liegenden Clusterzentren des K-Means Clusterings unterschieden sich häufig nur in der Ausprägung eines einzelnen Attributes, wodurch die Zuordnung eines Patienten zu einem bestimmten Clusterzentrum für den Betrachter nicht immer nachvollziehbar erscheinen mag. Die so erzeugten Kaplan-Meier-Schätzer hoben sich jedoch teilweise deutlich voneinander ab, was bei ähnlichen Clusterzentren nicht zu erwarten wäre und die schwer nachvollziehbare Lage der Clusterzentren zu bestätigen scheint.

Zu Bedenken ist, dass lediglich knapp 4000 Datensätze zur Verfügung standen. Durch Hinzunahme weitere Tumorregister könnte die Methode weiter validiert werden. Auch ist es denkbar, mit den gleichen Prozessen andere Tumorlokalisationen zu untersuchen.


Literatur

1.
Münz R, Kröhnert S. Sterblichkeit und Todesursachen. Berlin-Institut für Bevölkerung und Entwicklung; 2008.
2.
Mierswa I, Menzies A, Dinsmore A. Webauftritt von Rapid Miner. http://rapidminer.com/. November 2013 External link
3.
Witten IH, Eibe F, Hall MA. Data Mining. Morgan Kaufmann Publishers; 2011.
4.
Bradley E. Logistic Regression, Survival Analysis and the Kaplan-Meier Curve. American Statistical Association; 1988.