gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Interaktive Überlebenszeitanalyse: Datenbankdesign und -implementierung

Meeting Abstract

Search Medline for

  • Sebastian Klenk - Universität Stuttgart (Abteilung Intelligente Systeme), Stuttgart, Deutschland
  • Jürgen Dippon - Universität Stuttgart (Institut für Stochastik und Anwendungen), Stuttgart, Deutschland
  • Peter Fritz - Robert-Bosch-Krankenhaus (Pathologie), Stuttgart , Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMI7-3

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2008/08gmds135.shtml

Published: September 10, 2008

© 2008 Klenk et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung

Im klinischen Alltag werden routinemäßig viele patientenbezogene Daten erhoben, die häufig jedoch statistisch nicht ausgewertet werden. Damit beraubt man sich der Möglichkeit, die Behandlungsqualität kontinuierlich zu kontrollieren und mögliche Verbesserungen zukünftigen Patienten zugute kommen zu lassen. Hierfür gibt es verschiedene Gründe: beim Design der Datenbanken wurde eine mögliche Auswertung der Daten nicht berücksichtigt, die Daten sind auf verschiedene Datenbanken verteilt, ein verlässlichliches Follow-Up bei Verlaufsdaten ist aufwendig, eine Integration moderner statistischer Software erscheint schwierig, Anwendung und Interpetation statistischer Methoden bleiben meist Experten vorbehalten.

Im Rahmen einer Zusammenarbeit zwischen dem Robert-Bosch-Krankenhaus Stuttgart (Pathologie) und der Universität Stuttgart (Institut für Stochastik und Anwendungen) wurde ein Datenbanksystem mit Auswertungskomponente entwi-ckelt, das es erlaubt, Patientendaten aus verschiedenen Quellen zusammenzuführen, aufzubereiten und statistisch auszuwerten. Die Auswertungen finden dabei interaktiv über einen Browser statt. Für einen Arzt eröffnen sich damit viele neue Möglichkeiten: Überlebenszeitanalysen unter Berücksichtigung vieler Risiko-faktoren, Zusammensetzung und Vergleich von Patientenkollektiven, Vorhersage von indiviudellen Ereigniszeiten oder automatische Generierung von Qualitäts-sicherungsstatistiken. Diese Ergebnisse können schnell, intuitiv und ohne ein-schlägige Fachkenntnisse erzielt werden. Dieser Beitrag stellt die hierbei angewandten Vorgehensweisen und Methoden zur automatischen Integration, zum Management und zur Analyse von Datenbeständen dar.

Material und Methoden

Ausgangsbasis für die entwickelten Systeme waren jeweils die Anforderungen, die sich durch die von Ärzten und Experten gewünschten Analysen ergaben. Daneben gab es auch technische Anforderungen. Diese reichten von Ein- und Ausgabe-formaten über Kriterien bezüglich des Datenumfangs, also welche Informationen ein Datensatz enthalten sollte, bis hin zur Integration bestehender Datenbestände.

Data Integration: Im medizinischen Umfeld werden schon lange ausgiebig Daten gesammelt. Neben der reinen Dokumentation gibt es z.B. auch gesetzliche Vor-gaben, die erfüllt werden müssen. Dabei unterscheidet sich die Art der Datenhaltung vielfach sowohl in der Qualität der Daten, als auch in deren Struktur.

Der wohl einfachste Fall der Integration ist der direkte Zugriff auf bestehende Datenbanksysteme. Hierbei ist jedoch zwischen medizinischen und betriebs-wirtschaftlich geprägten Datenbeständen zu unterscheiden. Erstere weisen meist eine Struktur auf, die leichter zu überführen ist. Die in vielen Systemen gängige Zuordnung der Werte zu Aufenthalten hat sich für die statistische Auswertung als ungeeignet erwiesen. Wichtiger ist die Diagnose als Leitbegriff, die bei fast allen Anfragen im Vordergrund steht. In einer aufenthaltszentrierten Struktur ist erst eine aufwändige Zuordnung von aufenthaltsbezogenen Werten zu der entsprechenden Diagnose notwendig. Bei der Transformation bestehender Datenbanken sollte sich die Neukodierung an internationale Standards anlehnen, z.B. der ICD-10 für Diagnosen.

Data Management: Das Management der Daten bezieht sich in erster Linie auf deren Repräsentation und Strukturierung. Ziel sollte es sein, dass auch zur Entwicklungszeit nicht vorgesehene Abfragen beantwortet werden können. Ein kritischer Punkt bei medizinischen Daten ist die Tatsache, dass es sehr viele mögliche Messungen (Laborwerte, Klassifikationen und dergleichen) gibt, von denen jedoch in einem konkreten Fall nur ein Bruchteil wirklich von Interesse ist. Diese dünne Strukturierung bedeutet für einen Datenbankentwickler, dass es keinen Sinn macht, alle mögliche Werte einer Tabelle zuzuordnen. Die Werte müssen in separaten Wertetabellen untergebracht werden und nur bei Bedarf zugeordnet werden [1]. Für eine Auswertung bedeutet dies jedoch, dass jedes Datenfeld mit einem Erhebungsdatum zu versehen ist und sich eindeutig den Referenzdatensätzen zuordnen lässt.

Data Analysis: Für die Auswertung müssen die Daten so aufbereitet werden, dass sich die gängigen statistischen Verfahren darauf anwenden lassen. Gängige Praktiken, wie multidimensionale Strukturierung der Daten zum Beispiel, helfen bei medizinischen Daten selten weiter [2]. Sinnvoller scheint es, zwischen statischen Standardabfragen, die als SQL-View bereits zur Entwicklungszeit in der Datenbank festgelegt werden, und dynamischen Abfragen, die erst zur Laufzeit definiert werden, zu unterschieden. Dadurch kann die für OLAP-ähnliche Verfahren notwendige Aggregation mit Fachkompetenz unterstützt werden und mögliche Fehlerquellen bereits im Vorfeld umgangen werden. Die Unterteilung statisch- dynamisch richtet sich danach, welche Felder in die Abfrage miteinbezogen werden sollen, und nicht welche Abfragen gestellt werden. So ist zum Beispiel eine stark patientenspezifische Überlebenszeitanalyse eine statische Standardabfrage, da die Feldmenge, die für diese Abfrage relevant ist, immer dieselbe ist, unabhängig vom Patienten. Jedoch kann eine Berechnung bezüglich der Risikofaktoren Felder mit einbeziehen, die zur Entwicklungszeit noch nicht beachtet wurden. Daher muss sie dynamisch zur Laufzeit generiert werden. Auf die statistische Berechnung hat diese Entscheidung keinen Einfluss. Sie wird immer zur Laufzeit durchgeführt.

Ein kritischer Punkt bei der statistischen Auswertung ist die Anzahl der vergleich-baren Fälle. Üblicherweise wird hier mit abfragenbezogen-identischen Fällen gearbeitet. Das heißt, für die Analyse von selten vorkommenden Ereignissen bedarf es entweder einer unrealistisch großen Datenmenge oder man verzichtet ganz auf eine Aussage. Im hier vorgestellten Fall werden mit Hilfe eines Ähnlichkeitsmaßes auch verwandte Fälle betrachtet und in die Auswertung mit einbezogen [3]. Auf diese Weise können vielmals auch über seltene Fälle statistische Aussagen getroffen werden. Ärzte werden damit in die Lage versetzt, einem konkreten Fall eine Menge möglicher ähnlicher Fälle gegenüberzustellen und können somit Therapie-entscheidungen fundierter treffen.

Ergebnisse

Die hier vorgestellten Anwendungen werden bereits in unterschiedlichen Ausprägungen zur Aufbereitung und Auswertung verschiedener Krebsarten genutzt. So wird zum Beispiel in der Klinik Schillerhöhe Gerlingen ein System zur Auswertung der dort behandelten Bronchialkarzinomfälle eingesetzt. Der aktuelle Stand umfasst ca. 2.000 Patientendaten. Am Robert-Bosch-Krankenhaus ist ein System für die Auswertung von Brustkrebsfällen im Einsatz (ca. 3.000 Fälle). Der OSP Stuttgart setzt die Auswertungskomponente ein und wertet damit über 14.000 Brustkrebsfälle statistisch aus. Ergebnisse des Einsatzes dieser Systeme sind neue Erkenntnisse bezüglich der Aussagekraft histologischer Klassifikatoren. Mit der zunehmenden Nutzung können neue biologisch oder klinisch relevante Hypothesen von klinisch tätigen Ärzten wie von mehr in der Grundlagenforschung orientierten Ärzten überprüft werden.

Diskussion

Eine Dokumentation und Auswertung medizinischer Daten findet wohl in allen Kliniken statt. Interaktive Auswertungen gibt es dagegen nur selten. Basis sind meist moderne Data-Mining und OLAP Systeme mit Vorbildern aus der Wirtschaft. Die für eine medizinisch sinnvolle Auswertung, und einem breiten Einsatz notwendigen interaktiven Möglichkeiten stehen dem praktizierenden Arzt nur selten zur Verfügung. Um diese jedoch breit zugänglich zu machen, bedarf es einer veränderten Sichtweise auf Datenhaltung und -verarbeitung. In dem laufenden Projekt am OSP Stuttgart konnten bestehende Datenbestände aufbereitet und einer interaktiven Auswertung zugänglich gemacht werden. Wenn man die Auswertung bereits zur Design- und Entwicklungszeit als einen Aspekt der Nutzung mit in Betracht zieht, so können ohne großen Aufwand immense Datenmengen erschlossen und genutzt werden.


Literatur

1.
Inokuchi A, Takeda K, Inaoka N, Wakao F. MedTAKMI-CDI: interactive knowledge discovery for clinical decision intelligence. IBM Syst J. 2007;46(1):115-33.
2.
Pedersen TB, Jensen CS. Research Issues in Clinical Data Warehousing. In: Proc. International Conference on Scientific and Statistical Database Management (July 01 - 03, 1998). 1998.
3.
Dippon J, Fritz P, Kohler M. A statistical approach to case based reasoning, with application to breast cancer data. Comput Statist Data Anal. 2002;40:579-602.