gms | German Medical Science

Verteilte Analysen mit dem Personal Health Train: Konzept, Anwendungen und Benutzererfahrung

Meeting Abstract

  • Sascha Welten - RWTH Aachen, Aachen, Deutschland
  • Yongli Mou - RWTH Aachen, Aachen, Deutschland
  • Laurenz Neumann - RWTH Aachen, Aachen, Deutschland
  • Maximilian Jugl - Universität Leipzig, Leipzig, Deutschland
  • Lars Hempel - Universität Leipzig, Leipzig, Deutschland
  • Yeliz Ucer Yediel - Fraunhofer FIT, St. Augustin, Deutschland
  • Oya Beyan - Fraunhofer FIT, St. Augustin, Deutschland; Universität Köln, Köln, Deutschland
  • Toralf Kirsten - Universität Leipzig, Leipzig, Deutschland
  • Stefan Decker - RWTH Aachen, Aachen, Deutschland; Fraunhofer FIT, St. Augustin, Deutschland

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP27

doi: 10.3205/22smith38, urn:nbn:de:0183-22smith382

Veröffentlicht: 31. Januar 2023

© 2023 Welten et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung und Zielstellung: Die Erfahrung der vergangenen Jahre hat gezeigt, dass, neben der flächendeckenden Erfassung, auch die Analyse klinischer Daten eine zunehmend wichtigere Rolle einnimmt, um neue Behandlungsmethoden zu entwickeln oder die Versorgung der Patienten/-innen zu verbessern [1].

Bei dem konventionellen Ansatz zur Analyse von Daten werden Daten an einem zentralen Ort, z.B. einem Server einer Forschungseinrichtung, gesammelt und analysiert. Da bei diesem Ansatz die Institutionen ihre Daten ausleiten, besteht das Risiko, die Kontrolle und Hoheit über die Daten zu verlieren. Dies steht im Widerspruch zu den bestehenden Datenschutzbestimmungen, wie die DSGVO, welche sensible Daten unter besonderen Schutz stellen.

Dies führt zu einem Dilemma: In der Folge werden die von einer Institution gesammelten Daten gemeinhin nicht mit anderen Institutionen geteilt. Somit beschränkt sich der Analysehorizont der Forschenden meist nur auf die eigene Institution. Eine ausreichend große Datenmenge ist für eine Datenanalyse jedoch notwendig, um valide Forschungsergebnisse in einer klinischen Studie zu produzieren. Um dieses Dilemma zu lösen, bedarf es innovativer Technologien, welche eine Analyse von Daten unter gleichzeitiger Einbehaltung von Datenschutzbestimmungen ermöglichen.

Der durch das SMITH-Konsortium entwickelte Personal Health Train (PHT) ist eine solche Technologie, welche auf dem Konzept der ‚verteilten Analyse‘ basiert.

Das bedeutet, dass die Analysen (sog. Zug) nach und nach zu jeder datenhaltenden Institution gesendet und lokal auf den Daten ausgeführt werden. Die einzigen Informationen, die die Institution verlassen, sind aggregierte Analyseergebnisse und somit keine rein sensitiven Daten. Anstatt also die Daten aus dem Einflussbereich der Institutionen zu dem Ort der Analyse zu bewegen, bringt der PHT die Analyse zu den Daten. Damit ist die Benutzung des PHTs ein erster Schritt in Richtung datenschutzkonformer Analyse sensitiver Daten.

In dieser Arbeit werden zwei, im Rahmen des SMITH-Konsortiums entstandene und publizierte, Data Use Cases (A & B) vorgestellt, welche das Potential des PHTs demonstrieren [2], [3]. Im Folgenden werden die beiden Szenarien und deren Ergebnisse vorgestellt.

Methoden:

Datensätze, -verteilung & -bereitstellung: Für beide Anwendungsfälle wurde jeweils ein Open Source Datensatz ausgewählt, um die verteilten Daten zu simulieren.

Für (A) wurden Daten über Hautläsionen von 25.331 Patientinnen und Patienten der International Skin Imaging Collaboration (ISIC) verwendet. Für jede/n Patient/in liegen Daten zwei verschiedener Datentypen vor: Demographische und anamnestische Metadaten sowie eine dermatoskopische Aufnahme der Hautläsion, kategorisiert in acht Klassen. Die Daten wurden auf drei Institutionen (RWTH Aachen, Fraunhofer FIT, HS Mittweida) aufgeteilt. Die Daten waren an allen Standorten, dem MII-Kerndatensatz entsprechend, auf mehreren FHIR-Servern gespeichert [4]. Die Bilddaten wurden auf einem separaten Bildverwaltungssystem abgespeichert.

Für (B) wurden Brustkrebsdaten von 569 Patienten der Diagnostic Wisconsin Breast Cancer Datenbank verwendet. Neben der Kategorie gutartig oder bösartig wurde der Brustkrebs anhand von 31 numerischen und textuellen Attributen beschrieben. Die Daten wurden auf sechs Institutionen (UK Aachen, Köln, Leipzig, UM Göttingen, HS Mittweida, IMISE Leipzig) aufgeteilt. Wie in (A) wurden die Daten in FHIR modelliert und gespeichert.

Analyse & Modelle: Um die Flexibilität des PHTs zu zeigen, wurden unterschiedlich komplexe Analysen auf den Daten in beiden Szenarien durchgeführt. Für (A) wurde ein Machine-Learning-Modell (ResNet-18) trainiert, welches die Bilddaten anhand der acht Klassen klassifiziert. Für (B) wurde ein logistisches Regressionsmodell entwickelt, um die Brustkrebsdaten in gutartig und bösartig zu klassifizieren.

Ausführung: Für beide Szenarien wurde der Analyse-Code „kontainerisiert“. Ein Container beinhaltet alle nötigen Softwarekomponenten, um den beinhalteten Code – in unserem Fall die Analyse – ohne vorherige Installation plattformunabhängig auszuführen. Für die Ausführung von Analysen bedarf es lediglich einer einmaligen Installation einer nötigen Laufzeitumgebung (sog. Container Engine). Für die eigentliche Ausführung werden die Institutionen in Reihe geschaltet. Jede Institution lädt die Analyse nacheinander herunter, baut eine Verbindung zur lokalen Datenquelle auf, führt den Zug aus und lädt diesen wieder hoch. Beim Hochladen wird das Analyseergebnis gespeichert und dient als Input für die Ausführung an der darauffolgenden Institution. Nach der letzten Station werden die Ergebnisse dem Forschenden zur Verfügung gestellt (siehe Abbildung 1 [Abb. 1]).

Ergebnisse: Nach Durchführung der Analysen wurden die PHT-Modelle mit einer Testmenge verglichen:

(A): Das finale Modell erzielte eine Genauigkeit von 71,83% und eine Sensitivität von 63,35%.

(B): Das finale Modell erzielte eine Genauigkeit von 92% und eine Sensitivität von 83%.

Diskussion: Die Ergebnisse zeigen im Wesentlichen eine Erkenntnis: Mit dem PHT sind Forschende in der Lage, ein Modell für unterschiedliche Anwendungsbereiche zu trainieren.

Ein separates und konventionell trainiertes Vergleichsmodell mit zentralisierten Daten für (A) erzielte eine leicht höhere Performanz. Somit konnte gezeigt werden, dass PHT-Modelle vergleichbare Ergebnisse erzeugen können, obgleich es nicht die Hauptintention war ein klinisch-relevantes Modell zu erzeugen. Beachtet man jedoch, dass der konventionelle Ansatz, aufgrund der Datenschutzbestimmungen, im Allgemeinen gar nicht erst möglich ist, erweisen sich ‚verteilte Analysen‘ als praktikable Lösung, um trotz Datenschutzbarrieren Analysen durchzuführen.

Als Teil von (B) wurde auch die Effizienz des On-Boardings – die Ermittlung der benötigten Zeit bis die Station voll funktionsfähig und betriebsbereit ist – evaluiert. Es konnte gezeigt werden, dass die Inbetriebnahme der Software im Durchschnitt weniger als 15 Minuten dauert. Die Herabsetzung der technischen Hürden durch einen nahtlosen und halbautomatischen On-Boarding Service trägt also dazu bei, dass Forschende schneller ihre Studien durchführen und Ergebnisse erhalten.


Literatur

1.
Medizininformatik-Initiative Website [Internet]. 2022. Verfügbar über: https://www.medizininformatik-initiative.de/de/ueber-die-initiative Externer Link
2.
Mou Y, Welten S, Jaberansary M, Ucer Yediel Y, Kirsten T, Decker S, Beyan O. Distributed Skin Lesion Analysis Across Decentralised Data Sources. Stud Health Technol Inform. 2021 May 27;281:352-6. DOI: 10.3233/SHTI210179 Externer Link
3.
Welten S, Hempel L, Abedi M, Mou Y, Jaberansary M, Neumann L, Weber S, Tahar K, Ucer Yediel Y, Löbe M, Decker S, Beyan O, Kirsten T. Multi-institutional breast cancer detection using a secure on-boarding service for distributed analytics. Appl. Sci. 2022;12:4336. DOI: 10.3390/app12094336 Externer Link
4.
Kerndatensatz der Medizininformatik-Initiative [Internet]. 2022. Verfügbar über: https://www.medizininformatik-initiative.de/de/der-kerndatensatz-der-medizininformatik-initiative Externer Link