gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Integration und Verarbeitung von Patientendaten aus Krankenhausinformationssystemen im Kontext interdisziplinärer Forschung unter Nutzung von Grid-Technologie

Meeting Abstract

  • Fred Viezens - Universitätsmedizin Göttingen, Göttingen, Deutschland
  • Kai Lorberg - Universitätsmedizin Göttingen, Göttingen, Deutschland
  • Aiko Barz - heise online, Hannover, Deutschland
  • Frank Dickmann - Universitätsmedizin Göttingen, Göttingen, Deutschland
  • Ulrich Sax - Universitätsmedizin Göttingen, Göttingen, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMI7-2

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds134.shtml

Veröffentlicht: 10. September 2008

© 2008 Viezens et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Zielsetzung

Für die klinische Forschung werden methodisch sauber erhobene Patientendaten über einen längeren Zeitraum benötigt. In der Regel werden die Daten im Rahmen einer klinischen Studie aus Qualitäts- und Nachvollziehbarkeitsgründen komplett getrennt von klinischen Datensammlungen erstellt. Ein Zugriff auf longitudinales Datenmaterial ist durch die Undurchlässigkeit der klinischen Informationssysteme selten möglich. Um klinische Patientendaten in der Forschung zu nutzen, werden die relevanten Datensätze im Sinne des § 40 Abs. 2 Satz 1 BDSG anonymisiert bzw. pseudonymisiert [1], [2] aus dem Behandlungskontext in eine Forschungsdatenbank exportiert. Nachteil dieser Methode ist die eingeschränkte Anzahl von Fällen einer bestimmten Erkrankung. Es ist damit sehr schwierig Daten für genomweite Assoziationsstudien [3] und die Identifizierung von genetischen Risikogruppen zu untersuchen bzw. zu korrelieren, wenn die Patientendaten aus den Kliniken die in dortigen Krankenhausinformationssystem (KIS) gespeichert sind nicht mit einbezogen werden können. Die hochwertigen Forschungsdaten können mit vorhandenen qualitativ aufbereiteten Patientendaten aus einem KIS einen größeren Datenpool bilden, wo statistische Methoden [4] besser greifen, direkte Beziehungen mit aufwendigen Simulationen dem Forscher als Ergebnis bereitgestellt werden.

Ziel dieser Arbeit war es, mittels der Implementierung einer Testumgebung im Grid Anhaltspunkte dafür zu gewinnen, welche technischen bzw. datenschutztechnischen Maßnahmen mittelfristig eingeleitet werden müssen, um Grid-Computing näher an die Krankenversorgung zu bringen.

Methodik

Die Vorgehensweise gliedert sich in drei Phasen. Zum ersten ist eine Softwareteststellung zu implementieren, die leicht auf unterschiedliche Systemplattformen übertragbar ist und Grid-Funktionalität besitzt. In der zweiten Phase ist die vorhandene Teststellung auf Integration und Update-Möglichkeiten zu untersuchen, damit diese Umgebung einerseits Teil eines globalen Grids sein kann und andererseits eine Pseudonymisierungsmethode als Grid-Service entwickelt werden kann. Eingesetzt werden sollen Werkzeuge die der Funktionsumfang von Grid-Softwarecontainers bereits anbietet. Eingeschlossen sind a) Eigenentwicklungen auf Basis der Grid-Software und b) Nutzung von Kapselungen im SOA-Kontext oder auf Applikationsschicht bei Enterprise Application Integration-Solutions. Hier ist die Ausbaufähigkeit der Teststellung zu untersuchen, ebenso die Systemsicherheit mit Virtualisierungstechniken im Falle von Nachinstallierungen und das Integrationsvermögen als Grid-Entity. Die dritte Phase umfasst die Frage nach der Möglichkeit, ob ein externer Service für die Pseudonymisierung in einen Grid-Job-Lifecycle eines Workflows aus diesem Modell heraus genutzt werden kann. Das ist gleichzusetzen mit der Nutzung existierender Pseudonymisierungsmethoden in Treuhändlerstellung bzw. -funktion in heutigen Forschungsdatenbanken, Register oder verbundenen Forschungsverbünden und -netze.

Ergebnisse

In einer virtualisierten Teststellung wurde ein Intra-Grid mit vier Maschinen, mittels einer automatischen Konfiguration und Aufsetzen einer Grid-Middleware (Instant-Grid) eingerichtet. Diese Software stellt eine „ready-to-use“-Funktionalität für den Grid-Einsteiger bereit [5]. Für die Teststellung war dies ausreichend, da die Middleware der gängigen Globus-Installationen auf realen Grids entspricht. Durch das Booten über PXE-Protokoll kann die Teststellung auf jedes Computer-Netz übertragen werden. Die Daten zum Testen sind über Web-Portal ins Grid importierbar. Es wurde ebenfalls die Erweiterung der Grid-Software (gridsphere) erfolgreich getestet [6]. Damit ist aus einer Teststellung eine voll funktionstüchtige Grid-Umgebung herstellbar. Damit ist das Problem gelöst, die Funktionalität eines Intra-Grids, welches mit Erweiterung eine Entity des globalen Grids werden kann. Der Nachweis wurde über zwei physisch getrennte Netze in der Konfiguration des Clusters erbracht, als notwendige Portalsoftware-Komponenten aus dem World Wide Web nachinstalliert wird, ohne das beide Netze kompromittiert werden. Damit einher geht der Nachweis für eine Erreichbarkeit eines externen Dienstes wie z.B. zum Pseudonymisieren von Personendaten. Geräteidentifizierungen, die durch das gekapselte Image-System vorgegeben sind, können mit IP-Alias angepasst werden. Diese Einstellungen sind einfach und müssen nur ein Mal durchgeführt werden. Danach ist der Betrieb gewährleistet und Anwendungen können im Grid höchstmöglich verfügbar gemacht werden.

Zusätzlich zu den genannten technischen Voraussetzungen ist neben Datenschutz- und Ethik-Kommitee-kompatibler Vorgehensweise und Konsens über ontologische Konventionen eine technische Plattform notwendig, die (a) große Datenmengen vorhalten kann, (b) datenschutzkonforme Zugriffsverwaltung erlaubt und (c) über geeignete Update- und Integritätsmechanismen verfügt. Eine Plattform basierend auf Grid-Technologie zur verteilten on-demand-Nutzung von IT-Services und IT-Ressourcen könnte derartige Anforderungen erfüllen. Das größte Problem dabei ist die datenschutzrechtliche Komponente im Umgang mit Patientendaten und die IT-Sicherheit von Krankenhäusern. Der Schutz der internen IT-Struktur im Vordergrund, stellt aber beim übergreifenden Forschen ein Hindernis dar. Die Anonymisierung von Daten ist leichter umzusetzen als die Pseudonymisierung [7], [8], [9], [10], [11], wobei erstes auf Datengewinnung zielt und letzteres notwendig ist, um den Patienten die gewonnen Erkenntnisse in Form verbesserter Behandlungsmethoden zu Gute kommen zu lassen. Um die Verarbeitung solcher Datenmengen zu erreichen sind zwei Probleme zu lösen. Zum einen die Ausprägung der IT-Plattform z.B. Grid-Strukturen, wie Intra-, Enterprise- oder Global Grid, zum anderen wann und wo eine Pseudonymisierung stattfindet - vor der Verarbeitung im Grid, auf dem Grid oder in einer Routine als Service [12], [13], [14] aus dem Grid heraus. Dabei ist die vorhandene zur Verfügung gestellte Krankenhaus-IT zum Teil als Grid oder Entity in einem Grid zu integrieren. Die vorhandenen zeitlich zum Teil nicht genutzten Ressourcen können so vorbehaltlich Datenschutz und Abrechnungsvereinbarungen über Grid-Computing zu Forschungszwecken genutzt werden, ohne zusätzliche Kosten für Anschaffung eigener Technik zu verursachen. Weiter können über diese Technologie anderen Nutzern die Ressourcen bereitgestellt werden, was einem nachhaltigen zuverlässigen Betrieb ermöglicht. Ziel ist es den Datenpool aus KIS für Forschungszwecke zu nutzen bei gleichzeitiger besserer Ausnutzung der vorhandenen Technik.

Diskussion

Diese Teststellung ist eine Möglichkeit für ad hoc-Grid-Anwendungen. Die Anpassungen müssen manuell konfiguriert werden, können aber in einer Weiterentwicklung Teil eines Images werden. Die Installation und der Betrieb sind im laufenden Betrieb von Versorgungseinrichtungen möglich. Mit dem erfolgreichen Test sind Möglichkeiten für Einsatz und Nutzung vorhandener Ressourcen mit Grid-Technolgie für datenintensive genotyp-phänotypische Untersuchungen mit Forschungsdaten gegeben. Dazu ist es möglich die Integration von pseudonymisierten Patientendaten aus Krankenhausinformationssystemen in die bestehenden Untersuchungsmethoden aufzunehmen. Mit Nutzung von Grid-Diensten oder externen Diensten aus dem Grid heraus zum Pseudonymisieren sind datensicherheits- und datenschutzrechtliche Aspekte erfüllt. Die Teststellung kann als Intra-, Enterprise oder Global Grid betrieben werden. Im medizinischen Umfeld und zur Sicherung der Sicherheit personenbezogener Daten sind Ressourcen von Providern mit speziellen Anforderungen vor der Überführung in den globalen Grid-Kontext zu wählen und dort die Vorverarbeitung durchzuführen. Die Algorithmen zum Pseudonymisieren sind dort vorzunehmen, ebenso die Zusammenführung der Datenquellen. Relevanz der Ergebnisse für die Versorgung: Der Patient profitiert bei dieser Vorgehensweise mit verbesserten Therapiemöglichkeiten und der Vorteil der Medizin liegt in der Integration von Forschungsergebnissen in die Versorgung und umgekehrt.


Literatur

1.
Pommerening K, Reng M, Debold P, Semler S. Pseudonymisierung in der medizinischen Forschung - das generische TMF-Datenschutzkonzept (Pseudonymization in medical research - the generic data protection concept of the TMF). GMS Med Inform Biom Epidemiol. 2005;1(3):Doc17. Verfügbar unter: http://www.egms.de/en/journals/mibe/2005-1/mibe000017.shtml Externer Link
2.
Duda SN, Cushman C, Masys DR. An XML model of an enhanced data dictionary to facilitate the exchange of pre-existing clinical research data in international studies. Medinfo. 2007;12 (Pt 1):449-53.
3.
Uzuner Ö, Luo Y, Szolovits P. Evaluating the State-of-the-Art in Automatic De-identification. J Am Med Inform Assoc. 2007;14(5):550-63.
4.
Läuter J. Hochdimensionale Statistik. Anwendung in der Genexpressionsanalyse.
5.
Boehme C, Félix A, Neumair B, Schwardmann U. Instant-Grid: Demonstration, Entwicklung und Test von Grid-Anwendungen. GWDG-Nachrichten. 2006:5-13.
6.
GridSphere. GridSphere. 2006.
7.
Faldum A, Pommerening K. An optimal code for patient identifiers. Comput Methods Programs Biomed. 2005;79 (1):81-8.
8.
Kohane IS, Altman RB. Health-information altruists--a potentially critical resource. N Engl J Med. 2005;353 (19):2074-7.
9.
Malin BA. Protecting genomic sequence anonymity with generalization lattices. Methods Inf Med. 2005;44 (5):687-92.
10.
Martin-Sanchez F, Maojo V, Lopez-Campos G. Integrating genomics into health information systems. Methods Inf Med. 2002;41(1):25-30.
11.
Szarvas G, Farkas R, Busa-Fekete R. State-of-the-art Anonymization of Medical Records Using an Iterative Machine Learning Framework. J Am Med Inform Assoc. 2007;14 (5):574-80.
12.
Burwitz V, Roth M, Schäfer T. Sichere Web Services. 2003.
13.
Sax U, Weisbecker A, Falkner J, Viezens F, Mohammad Y, Hartung M, Bart J, Krefting D, Knoch TA, Semler SC. Grid-basierte Services für die elektronische Patientenakte der Zukunft. E-HEALTH-COM. 2007;2 (4):61-3.
14.
Welch V, Siebenlist F, Foster I, Bresnahan J, Czajkowski K, Gawor J, Kesselman C, Meder S, Pearlman L, Tuecke S. Security for Grid services. Proceedings. 12th IEEE International Symposium on High Performance Distributed Computing. 2003:48-57.