gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Vergleich der Überlebenszeitprognosen beim Kolonkarzinom – Data Mining und ärztlicher Einschätzung

Meeting Abstract

  • Fabian Sailer - Hochschule Heilbronn, GECKO Institut für Medizin, Informatik und Ökonomie, Heilbronn, Deutschland
  • Monika Pobiruchin - Hochschule Heilbronn, GECKO Institut für Medizin, Informatik und Ökonomie, Heilbronn, Deutschland
  • Sylvia Bochum - SLK Kliniken Heilbronn GmbH, Heilbronn, Deutschland
  • Uwe Martens - SLK Kliniken Heilbronn GmbH, Heilbronn, Deutschland
  • Wendelin Schramm - Hochschule Heilbronn, GECKO Institut für Medizin, Informatik und Ökonomie, Heilbronn, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 154

doi: 10.3205/15gmds025, urn:nbn:de:0183-15gmds0251

Published: August 27, 2015

© 2015 Sailer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Krebserkrankungen sind in Deutschland laut Statistischem Bundesamt die zweithäufigste Todesursache [1]. Eine Abschätzung der Überlebenszeit eines Tumorpatienten zum Diagnosezeitpunkt hat großen Einfluss auf die Therapiewahl des behandelnden Arztes.

Data Mining Methoden können für die Prognose von Überlebenszeiten genutzt werden [2]. Um die Qualität eines solchen Data Mining basierten Ansatzes beurteilen zu können, wurde ein Vergleich mit einer ärztlichen Einschätzung vorgenommen. Dieser Vergleich wurde in Kooperation mit dem Tumorzentrum der SLK-Kliniken Heilbronn GmbH durchgeführt.

Material und Methoden: Der für diese Studie benötigte Datensatz wurde vom Zentrum für Krebsregisterdaten des Robert-Koch-Instituts (RKI) zur Verfügung gestellt [3]. Da sich unterschiedliche Tumorentitäten im medianen Überleben stark unterscheiden, wurden nur bösartige Neubildungen des Kolons (ICD Codes: C18.0 – C18.9) betrachtet. In den Jahren 2000 bis 2010 wurden deutschlandweit insgesamt 334.583 solcher Fälle in diesem Datensatz dokumentiert.

Um eine hohe Aussagekraft der vorhandenen Daten garantieren zu können, wurden alle Fälle mit fehlenden Daten nicht weiter betrachtet. Im Zuge der Vorverarbeitung wurde die Überlebenszeit berechnet und anschließend dichotom diskretisiert. Der Grenzwert lag dabei, wie in der Onkologie üblich, bei fünf Jahren. Die Attributsauswahl erfolgte durch medizinische Experten, dabei wurde die Anzahl der Attribute von 30 auf sieben (Geschlecht, ICD-10-GM-Code, laufende Nummer des Tumors, UICC-Staging, Histologie-Code, Grading und Alter) reduziert. Es wurden nur Attribute in Betracht gezogen, welche zu Beginn einer Behandlung vorliegen. Durch Ziehen einer Stichprobe wurde der Datensatz bezüglich des Attributes „5-Jahresüberleben“ gleichverteilt. Nach diesen Vorverarbeitungsschritten enthielt der Datensatz noch 14.133 Fälle.

Aus diesem Datensatz wurden zufällig 5 Stichproben zu je 50 Fällen gezogen. Es wurde das Attribut „5-Jahresüberleben“ entfernt und Ärzten vorgelegt, welche dann anhand der vorhandenen Attribute eingeschätzt haben, ob der jeweilige Patient fünf Jahre überlebt hat oder nicht. Zur Beurteilung wurde diese Einschätzung abschließend mit den tatsächlichen Werten verglichen.

Vor dem Machine Learning wurden, unter Rücksprache mit medizinischen Experten, weitere Vorverarbeitungsschritte vollzogen. Der Histologie-Code wurde dabei vereinfacht auf die Eigenschaft „Adenokarzinom ja/ nein?“, da ein Großteil (>92%) der Tumoren histologisch gesehen Adenokarzinome waren. Zudem wurde der ICD Code in eine Angabe der Lokalisation umgewandelt (C18.0-2 -> proximal; C18.3-5 -> transversal; C18.6-7 -> distal; C18.8-9 -> sonstige). Es wurden geeignete Abstandsmaße für diese beiden Attribute definiert. Danach wurden alle Attribute normalisiert, um einer ungleichmäßigen Gewichtung vorzubeugen.

Der vorverarbeitete Datensatz wurde mit dem Data Mining Werkzeug „Rapid Miner“ [4] analysiert. Es wurden dabei folgende Verfahren getestet: k-nearest-neighbour (kNN), naiver Bayes Klassifikator (NB), Support Vector Machine (SVM), Perzeptron (P), Neuronale Netze (NN), Lineare Regression (linR), logistische Regression (logR), Regelinduktion (RI), Entscheidungsbäume (EB) und Random Forest (RF) [5]. Die Verfahren wurden jeweils, nicht optimiert, mit Standardparameter angewendet. Jedes Verfahren wurde mit der Hälfte des Datensatzes trainiert. Das dabei entstehende Modell wurde anschließend an der anderen Hälfte des Datensatzes getestet.

Ergebnisse: Von den ausgeteilten Fragebögen wurden vier von fünf ausgefüllt (n=200 Begutachtungen). Im Schnitt wurde dabei in 59% (Minimum: 54%, Maximum: 66%) der Fälle die richtige Einschätzung bezüglich des 5-Jahres-Überlebens getroffen. Dabei lag die Sensitivität, also die Wahrscheinlichkeit, dass ein Fall, der tatsächlich länger als fünf Jahre gelebt hat, als solcher erkannt wurde zwischen 35% und 50%. Die Spezifität, also die Wahrscheinlichkeit, dass ein Fall, der weniger als fünf Jahre überlebt hat als ein solcher erkannt wurde, lag zwischen 66% und 82%.

Das Perzeptron sowie die Regelinduktion waren bei der Einschätzung der Überlebenszeit schlechter als die durchschnittliche ärztliche Einschätzung (P: Genauigkeit: 50,06%-Sensitivität: 99,94%-Spezifität:0,17%; RI: 50,29%-0,85%-99,73%). Sieben weitere Verfahren hatten eine Genauigkeit von ca. 70% (SVM: 69,30%-69,19%-69,40%; linR: 70,05%-68,23%-71,87%; NB: 70,92%-73,86%-67,97%; EB: 71,27%-88,06%-54,49%; kNN: 71,61%-77,33%-65,89%; logR: 71,86%-81,16%-62,55%; NN: 72,03%-83,99%-60,06%) und waren damit besser als die beste ärztliche Einschätzung. Als bestes Verfahren erwies sich der Random Forest mit einer Genauigkeit von 78,98% (Sensitivität: 93,18%, Spezifität: 64,77%).

Da nur Attribute in die Betrachtung mit einbezogen wurden, die zu Beginn der Behandlung vorliegen, kann die Genauigkeit der Verfahren auch als Prognosefähigkeit bezüglich der Überlebenswahrscheinlichkeit betrachtet werden. Verglichen mit der Einschätzung nach ärztlichem Bauchgefühl konnte ein Großteil der Machine Learning Verfahren dabei deutlich höhere Genauigkeiten erzielen.

Diskussion: Die Stichprobe unterlag einer gewissen Unschärfe, da zum einen in der Vorverarbeitung keine Berücksichtigung der Todesursachen stattgefunden hat. Dies ist besonders bei älteren Patienten von Bedeutung, da diese – unabhängig von ihrer Krebserkankung – eine erhöhte Wahrscheinlichkeit haben, innerhalb der nächsten fünf Jahre zu versterben. Des Weiteren wird durch das Einbeziehen der C18.8-Fälle (Kolon, mehrere Teilbereiche überlappend) und C18.9-Fälle (Kolon, nicht näher bezeichnet) die Unschärfe des Datensatzes erhöht, da sich daraus keine genaue Lokalisation ableiten lässt.

Die ICD-10-GM-Codes sowie die Histologie-Codes lagen für die ärztliche Einschätzung nicht modifiziert vor. Allerdings mussten diese, um die maschinelle Verarbeitbarkeit zu ermöglichen, diskretisiert werden. Dadurch standen den Machine Learning Verfahren weniger Informationen als den Ärzten zur Verfügung, anhand derer eine Einschätzung berechnet werden musste. So wurde beispielsweise der Histologie-Code mit eigentlich 45 verschiedenen Ausprägungen auf zwei verschiedene Ausprägungen reduziert.

Allerdings ist hier zu beachten, dass die ärztliche Einschätzung in ihrer Aussagekraft ebenfalls stark eingeschränkt ist. Im Klinikalltag hat ein Onkologe deutlich mehr Parameter zur Verfügung stehen, wenn er die Überlebenszeit prognostiziert. Folglich handelt es sich bei der vorgenommenen Vergleichseinschätzung nicht um eine Expertenmeinung, sondern um eine Einschätzung nach „ärztlichem Bauchgefühl“. Aufgrund der Anzahl an Attributen des RKI-Datensatzes war es leider nicht möglich zusätzliche Parameter, wie Lifestyle-Daten, weitere klinische Daten, molekularbiologische Daten, genetische Informationen oder Laborparameter mit einzubinden und den Ärzten zur Verfügung zu stellen.

Da die Machine Learning Verfahren jeweils nicht optimiert eingesetzt wurden, sind die Ergebnisse eher als Richtwerte zu verstehen. Durch diverse Optimierungen und Parametertuning wird es möglich sein die Genauigkeit verbessern zu können.

Während des Zeitraums, in dem die Daten für den RKI-Datensatz erhoben wurden, haben sich Therapie und auch Leitlinien geändert. So konnte im Zeitraum 2000-2010 das mediane Überleben von kolorektalen UICC-Stadium IV Patienten von 12 auf 35 Monate angehoben werden. Diese Varianz konnte weder für die Ärzte noch für die Machine Learning Verfahren berücksichtigt werden.


Literatur

1.
Todesursachenstatistik [Internet]. Statistisches Bundesamt [cited 2015 Mar 27]. Available from: https://www.destatis.de/DE/ZahlenFakten/GesellschaftStaat/Gesundheit/Todesursachen/Tabellen/EckdatenTU.html External link
2.
Sailer F, Pobiruchin M, Bochum S, Martens U, Pfeifer D. Analyse von Überlebenszeiten bei Tumorpatienten mit naivem Bayes Klassifikator und K-Means Clustering. In: Proceedings der 59. Jahrestagung der GMDS; 2014 Sep 07-10; Göttingen, Deutschland.
3.
Robert-Koch-Institut (RKI)/ Zentrum für Krebsregisterdaten (ZfKD). Scientific Use File für Kolorektalpatienten. Bereitgestellt am 5.3.2014.
4.
rapidminer.org [Internet]. Webauftritt von Rapid Miner. [updated 2014; cited 2015 Mar 27]. Available from: http://rapidminer.com/ External link
5.
Witten IH, Frank E, Mark AH. Data Mining. 3rd ed. Burlington: Morgen Kaufmann; 2011.