Artikel
SCREEN-PCA – Supervised Cancer Risk Estimation by Explainable machine-learning for Pancreatic CAncer
Suche in Medline nach
Autoren
Veröffentlicht: | 30. Mai 2025 |
---|
Gliederung
Text
Hintergrund: Das wahrscheinlich relevanteste Problem von Früherkennungsprogrammen für Pankreastumoren sind die häufig zum Beginn der Erkrankung fehlenden Symptome. Der Tumor hat so die Möglichkeit unerkannt zu wachsen und häufig bereits zu metastasieren oder lokal umliegende Organe zu infiltrieren. Aus diesem Grund besteht nur bei 20% der Patient:innen zum Zeitpunkt der Diagnosestellung die Möglichkeit zur kurativen Therapie. Auch von den operativ behandelten Patienten ist die Rate der Patienten mit vollständiger Krebsfreiheit, bzw. einer Heilung gering. Einzelne Faktoren, die eine Risikopopulation definieren oder eine Stratifierung erlauben fehlen. Der stärkste Einflussfaktor der Erfolgsrate der Operation und des Überlebens ist das Tumorstadium bei Diagnosestellung. Dieser deutliche Zusammenhang zwischen dem Zeitpunkt der Diagnosestellung im individuellen Krankheitsverlauf und dem Überleben, zeigt klar die Notwendigkeit eines geeigneten Pre-Screening Programms zur strukturierten Einschätzung des Risikos in der Allgemeinbevölkerung und kann so als Einschlusskriterium für kostenintensivere Screeninguntersuchungen dienen.
Methoden: Auf Grundlage der Charakterisierung von 2.068 Patienten mit Pankreas Tumoren und über 490.000 Kontrollen in der UK-Biobank haben wir ein Machine Learning unterstütztes Risiko Stratifizierungstool entwickelt. Es wurden Patienten mit Pankreastumoren eingeschlossen, bei denen die Diagnose mindestens ein Jahr nach der Untersuchung stattfand. Um klinisch relevante Szenarien mit zur Verfügung stehenden unterschiedlicher Datenquellen nachzuempfinden haben wir diese inkrementell kombiniert. Verfügbare Daten umfassen umfangreiche fragebogenbasierte Demographie- und Lifestyle-, sowie anthropomorphische Charakterisierungen. Des Weiteren sind Komorbiditäten, anhand der ICD10 Diagnosen, Blutwerte, sowie Metabolomics, Genetics und Proteomics enthalten. Wir haben unterschiedliche Methoden des Machinellen Lernens strukturiert verglichen und einen Random-Forest-Classifier als bestes Modell ausgewählt, da diese auch nicht lineare Zusammenhänge aus dem Trainingsdaten ableiten und direkten Einblicke in den Trainingsprozess und die relevanten Einflussfaktoren zulassen. Das Training findet in einer 5-fold Cross Validation, zur optimalen Nutzung der Trainingsdaten statt, mit folgender Kombination der 5 Einzelmodelle als mean-voting-Algorithmus. Derzeit arbeiten wir an einer feature-reduktion auf die 15 relevantesten Variablen um die klinische Anwendbarkeit zu vereinfachen.
Ergebnisse: In der binären Klassifikation erzielen unsere aktuellen Modelle eine area under the ROC curve von 0.69 bis 0.72 abhängig von der zugrundeliegenden Modalität. Ohne deutliche Steigerung der prädiktiven Güte bei Hinzunahme von genetischen oder metabolischen Daten. Derzeit arbeiten wir noch an unterschiedlichen zeitlichen endpoints der Prädiktion.
Zusammenfassung: Unsere derzeitigen Modelle ermöglichen eine Vorhersage des Auftretens von Pankreas Tumoren mindestens 1 Jahr nach dem Beobachtungszeitraum. Wir hoffen so zur Verbesserung der interdisziplinären Versorgung von Patienten mit Pankreastumoren beizutragen.