gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Cloud4health – Ein skalierbare, sichere Cloud-Lösung für die Textanalyse medizinischer Routinedaten

Meeting Abstract

  • S. Claus - Fraunhofer Institut SCAI, Sankt Augustin
  • H. Schwichtenberg - Fraunhofer Institut SCAI, Sankt Augustin
  • J. Laufer - RHÖN-KLINIKUM AG, Bad Neustadt / Saale
  • W. Ziegler - Fraunhofer Institut SCAI, Sankt Augustin

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 140

doi: 10.3205/14gmds068, urn:nbn:de:0183-14gmds0682

Veröffentlicht: 4. September 2014

© 2014 Claus et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Im Laufe einer medizinischen Behandlung von Patienten entstehen eine Reihe unterschiedlichster Dokumente, die oft unter dem Sammelbegriff der medizinischen Routinedaten genannt werden. Die in diesen Daten enthaltenen Informationen können im Rahmen einer sogenannten Sekundärnutzung für Forschungszwecke verfügbar gemacht werden. Diese über den direkten Behandlungskontext hinausgehende Nutzung der medizinischen Dokumente kann z.B. dafür genutzt werden, Nebenwirkungen von Medikamenten aufzudecken oder auch Operationsmethoden retrospektiv zu analysieren. Die Auswertung dieser oft in medizinischen Freitexten vorliegenden Information nutzt dabei Verfahren des Natural Language Processing (NLP) und stellt je nach Menge und Art der Dokumente hohe Anforderungen an Rechenleistung und Arbeitsspeicher.

Diese Anforderungen können jedoch insbesondere von kleineren Krankenhäusern nicht erfüllt werden. Hier stellt die Nutzung flexibel skalierbarer Cloud-Technologien einen vielversprechenden Ansatz dar. Die zentralen Herausforderungen bei dieser Datenverarbeitung umfassen neben der Datensicherheit, die rechtlichen Grundlagen einer Verarbeitung der im Regelfall personenbezogenen medizinischen Routinedaten. In diesem Dokument werden Lösungsansätze des Forschungsprojektes cloud4health vorgestellt.

Material und Methoden: Zu Beginn wurden die datenschutzrechtlichen Grundlagen einer Sekundärnutzung medizinischer Routinedaten untersucht; dabei konnten verschiedene Fragestellungen identifiziert werden, die anschließend in einem „Datenschutzdossier“ adressiert wurden.

Datenschutz, der Schutz der Betroffenenrechte, wird im Regelfall durch technische Sicherungsmaßnahmen flankiert und unterstützt. So fordert z.B. das Bundesdatenschutzgesetz (BDSG) in der Anlage zu § 9 Satz 1 eine Auflistung konkreter technischer Maßnahmen, die meist unter dem Begriff der Datensicherheit zusammengefasst werden. Ähnliche Forderungen sind auch in mehreren Landesdatenschutzgesetzen (LDSG) zu finden.

In Zusammenarbeit mit den Datenschutzbeauftragten der Kliniken des cloud4health Konsortiums wurde ein Anforderungskatalog erstellt, der als konkrete Handlungsanweisung für Maßnahmen im Bereich Datenschutz und Datensicherheit anzusehen ist. Dieser Katalog wurde durch klinik-interne Betriebskonzepte sowie ein Cloud-zentrisches IT-Sicherheitskonzept umgesetzt. Zentrale Aspekte dieser Dokumente werden im nächsten Abschnitt vorgestellt.

Ergebnisse: Die Lösungsarchitektur setzt sich aus drei Bausteinen zusammen: der lokalen Klinikinfrastruktur, der zentralen Cloud-Infrastruktur sowie dem Studienportal.

1.
Lokale Klinikinfrastruktur: Hier werden die vorliegenden klinischen Routinedaten aus vorhandenen klinischen Informationssystemen extrahiert, harmonisiert und de-identifiziert. Dabei werden personenbezogene Merkmale aus den Ursprungsdokumenten entfernt.
2.
Zentrale Cloud-Infrastruktur: Hier findet die semantische Erschließung der Daten auf Basis medizinischer Terminologien statt. Studienspezifisch werden skalierbare, virtuelle UIMA-Cluster mit Textmining-SaaS Instanzen bereitgestellt.
3.
Studienportal: Hier können die semantisch erschlossenen Daten abgelegt und für externe Nutzer zur Verfügung gestellt werden.

Eine Datenverarbeitung läuft wie folgt ab: Die lokal vorverarbeiteten Dokumente werden in einer Transferdatenbank zur manuellen Nachkontrolle abgelegt (siehe [1] für eine detaillierte Beschreibung). Nach Freigabe der Dokumente wird eine sichere Verbindung zur Cloud aufgebaut und benötigte Ressourcen werden angefordert. Sobald die Textmining-SaaS Instanzen zur Verfügung stehen, werden die Dokumente zur Verarbeitung an diese Cloud-Services geschickt. Die semantisch erschlossenen Dokumente werden dann an das aufrufende Krankenhaus zurück transferiert. Vor dem Upload der Daten in das Studienportal ist eine klinik-interne Nachkontrolle der Daten möglich (Filterung der Resultate: k-Anonymisierung, l-Diversifizierung).

Der geschilderte DV-Prozess wird durch Datensicherheitsmaßnahmen begleitet. Diese Maßnahmen dienen der Sicherstellung verschiedene Schutzziele (z.B. Vertraulichkeit, Integrität, Transparenz, Nichtverkettbarkeit, Verfügbarkeit etc.). Für cloud4health sind die Sicherstellung der Vertraulichkeit sowie Integrität von größter Bedeutung. Die folgenden Maßnahmen, eingebettet in ein IT-Sicherheitskonzept nach BSI 100-2 [2], zielen darauf ab:

  • Transport- und Dokumentenverschlüsselung: Die Cloud-Ressourcen werden über eine verschlüsselte Verbindung von der Klinikinfrastruktur angesprochen. Zusätzlich zur Sicherung der Transportschicht wird jedes Dokument separat verschlüsselt und erst unmittelbar vor der Verarbeitung entschlüsselt. Cloud4health richtet sich bei Schlüssellängen und Verschlüsselungsverfahren nach den Vorgaben des BSI [3].
  • Mandantenfähigkeit: Cloud-Infrastrukturen stehen im Regelfall mehreren Nutzern zur Verfügung. Die Sicherstellung des berechtigten Datenzugriffs ist daher von hoher Bedeutung. Cloud4health stellt dies durch verschiedene Maßnahmen sicher: (1) der Nutzerkreis wird stark begrenzt, das Modell einer sog. „Community Cloud“ kommt zum Einsatz, (2) der Zugriff auf Cloud-Ressourcen wird durch strikte ACLs (Access Control Lists) verwaltet, (3) jeder Kunde besitzt einen eigenen VPN-Endpunkt, (4) cloud-interner Datenverkehr zwischen virtuellen Maschinen wird durch VLANs (Virtual Local Area Network) separiert, (5) jeder Kunde nutzt exklusive Textmining-SaaS, (6) die Daten sind Mandanten-spezifisch verschlüsselt, (7) optional ist eine exklusive Nutzung von Cloud-Knoten möglich.
  • Keine Datenspeicherung in der Cloud: Patientendaten werden im Klartext nur In-Memory verarbeitet. Es werden keine Daten (Eingabedaten, temporäre Log-Files, Resultate) des Textminings in der Cloud gespeichert. Nach Beendigung der Prozessierung werden alle virtuellen Maschinen (inklusive der darin laufenden Textmining-SaaS) sicher gelöscht. Die Lebensdauer der Textmining-SaaS Instanzen ist damit begrenzt.

Die laufenden Entwicklungen werden durch begleitende Penetrations- und Lasttests unterstützt. So können während der Projektarbeiten bereits mögliche Schwachstellen identifiziert und beseitigt werden.

Diskussion: Im Bereich der Sekundärnutzung medizinischer Routinedaten gibt es verschiedene Projekte, von denen einige ebenfalls NLP einsetzen [4], [5]. Beide sind jedoch auf den US-amerikanischen Rechtsrahmen fokussiert. Ebenfalls zu nennen ist hier die Initiative „EHR4CR“, das verschiedene medizinische Forschungsszenarien untersucht. Projekte wie „Tresor“ und die „Berliner Forschungsplattform Gesundheit“ untersuchen sichere Infrastrukturen für Anwendungsszenarien im Bereich des deutschen Gesundheitswesens. Jedoch integriert keines der genannten Projekte alle für cloud4health relevanten Akteure - Kliniken, Datenschutzbeauftragte, Rechtsexperten und Cloud-Provider.

Die Abdeckung rechtlicher Grundlagen ist eine elementare Voraussetzung für die Sekundärnutzung medizinischer Routinedaten. Dabei stellt die föderale Gesetzeslage in Deutschland sowie die unterschiedliche Einordnung von Krankenhäusern (öffentlich, privat) eine Herausforderung dar. Die aktuell intensiv diskutierte Datenschutz-Grundverordnung der EU könnte eine Harmonisierung der nationalen Gesetzeslage herbeiführen und insbesondere im Bereich der „Forschungsklauseln“ Vereinfachungen mit sich bringen.

Die Relevanz der Begrifflichkeiten „Anonymisierung“ und „Pseudonymisierung“ wurde zuletzt durch Diskussionen im Rahmen des Datenskandals um Rezeptabrechnungen im August 2013 verdeutlicht (VSA, IMS Health, BayLDA). Cloud4health hat in diesem Kontext verschiedene Modelle für die klinik-interne Vorverarbeitung medizinischer Routinedaten entwickelt: von der vollständigen Anonymisierung, über die lokale, klinik-interne Pseudonymisierung bis hin zur klinik-übergreifenden Pseudonymisierung (siehe auch [1]). In diesem Dokument wurde das Modell der vollständigen Anonymisierung vorgestellt. Jüngst erfolgreiche Reidentifizierungen eigentlich anonymer Daten zeigen, dass auch bei derartigen Daten durch zusätzliche technische Sicherungsmaßnahmen eine Verringerung des Reidentifizierungsrisikos erreicht werden sollte. Dies adressiert cloud4health durch das IT-Sicherheitskonzept für die zentrale Cloud-Infrastruktur.

Bis zum Projektende wird cloud4health die Cloud-Services (Textmining-SaaS) als Appliances in lokale Klinikinfrastrukturen integrieren. Somit kann zum einen der aufwendige De-Identifizierungsprozess verkürzt werden, zum anderen können so schwer de-identifizierbare Daten ebenfalls prozessiert werden. Weiterhin wird cloudh4health den Einfluss von Verschlüsselungsverfahren und deren Konfiguration (Schlüssellängen, Ciphers etc.) auf die Leistungsfähigkeit des Gesamtsystems im Rahmen von Lasttests untersuchen und eine optimale Konfiguration ermitteln.


Literatur

1.
Griebel L, Leb I, Christoph J, Laufer J, Marquardt K, Prokosch HU, et al. Cloud-Architektur für die datenschutzkonforme Sekundärnutzung strukturierter und freitextlicher Daten. Proceedings of the eHealth2013. 2013. p. 59-64.
2.
Bundesamt für Sicherheit in der Informationstechnik. BSI-Standard 100-2, IT-Grundschutz-Vorgehensweise, Version 2.0. 2008.
3.
Bundesamt für Sicherheit in der Informationstechnik. Kryptographische Verfahren: Empfehlungen und Schlüssellängen – Verwendung von TLS. 2013.
4.
Chard K, Russell M, Lussier Y, A; Mendonça, E. A; Silverstein, J. C. Chard K, Russell M, Lussier YA, Mendonça EA, Silverstein JC. A cloud-based approach to medical NLP. AMIA Annu Symp Proc. 2011;2011:207-16.
5.
Carrell D. A Strategy for Deploying Secure Cloud-Based Natural Language Processing Systems for Applied Research Involving Clinical Text. Proceedings of the 44th Hawaii International Conference on System Sciences. IEEE Computer Society; 2011. p. 1-11.