gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Anfrage-spezifische Validierung in einem Data Warehouse für klinische Routinedaten an der Universitätsklinik Würzburg

Meeting Abstract

  • G. Dietrich - Universität Würzburg, Würzburg
  • G. Fette - Universität Würzburg, Würzburg; Comprehensive Heart Failure Center, Würzburg
  • P.D. Beck - Julius-Maximilians-Universität Würzburg, Würzburg
  • M. Ertl - Universität Würzburg, Würzburg; Comprehensive Heart Failure Center, Würzburg
  • M. Toepfer - Universität Würzburg, Würzburg
  • P. Kluegl - Universität Würzburg, Würzburg; Comprehensive Heart Failure Center, Würzburg
  • M. Kaspar - Comprehensive Heart Failure Center, Würzburg
  • S. Störk - Comprehensive Heart Failure Center, Würzburg
  • F. Puppe - Universität Würzburg, Würzburg

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 197

doi: 10.3205/14gmds074, urn:nbn:de:0183-14gmds0747

Veröffentlicht: 4. September 2014

© 2014 Dietrich et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Das klinische Data Warehouse der Universität Würzburg dient dazu, die heterogen und nur teilweise strukturiert im klinischen Informationssystem repräsentierten und gespeicherten Daten zur Diagnose und Therapie von Patienten für Information Retrieval und statistische Auswertungen verfügbar zu machen. Anwendungsfälle umfassen die Suche nach Patienten für klinische Studien, die bestimmte Einschluss- und Ausschlusskriterien erfüllen, statistische Auswertungen zur Häufigkeit von bestimmten Patientengruppen, die Suche nach Risikofaktoren für bestimmte Krankheiten oder statistische Qualitätskontrolle. Aus Datenschutzgründen sind die Patientendaten pseudonymisiert, wobei die Zuordnung von Pseudonymen zu Patienten-IDs von einer dritten Stelle verwaltet wird, an die Anträge gestellt werden müssen, um z.B. Studienpatienten mit dem Data Warehouse rekrutieren zu können. Derzeit (31.3.2014) sind im Data Warehouse der Universitätsklinik Würzburg Stammdaten, die ICD-10 kodierten Abschlussdiagnosen, Laborwerte und extrahierte Echokardiographie-Daten für die Jahre 2012 bis 2013 gespeichert (insgesamt Daten aus ca. 700.000 Patientenfällen). Hinzu kommen textuelle Daten wie Arztbriefe und Befundberichte. Das Data Warehouse wird kontinuierlich um weitere Datentypen und Datensätze erweitert. Eine Besonderheit unseres Data Warehouse Ansatzes z.B. im Vergleich zu i2b2 (https://www.i2b2.org/) ist, dass es den Nutzern eine anfragespezifische Validierung der mit Informationsextraktionsmethoden gewonnenen Daten ermöglicht.

Methoden: Das Datawarehouse wird durch auf verschiedene Dokumentationstypen spezialisierte Agenten mit Daten aus dem Klinikinformationssystem der Universitätsklinik Würzburg (basierend auf SAP und i.s.h.med) befüllt. Dies erfolgt in folgenden Schritten:

1.
Pseudonymisierung der Textdaten mit zwei Verfahren: Gezieltes Löschen des Patientennamens und musterbasierte Suche nach Namen und Datumsangaben.
2.
Datenimport: Es gibt drei Arten von Dokumenten: kodierte Daten wie ICD-10 Diagnosen oder Laborwerte, textuelle Daten wie Arztbriefe oder Befundberichte und formularbasierte Daten, die als parametrierte medizinische Dokumente (PMD) in XML exportiert werden. Die kodierten Daten werden direkt übernommen. Für die textuellen Daten haben wir eine auf die Art der Textdokumente spezialisierte Informationsextraktion-Pipeline angewendet [1] und bei den PMDs wird je nach Datentyp die direkte Übernahme oder die Informationsextraktions-Pipeline genutzt. Das Ergebnis ist das Befüllen des rohen Data Warehouse mit strukturierten Daten.
3.
Datenaufbereitung: Im rohen Data Warehouse werden verschiedene Aufbereitungsschritte durchgeführt. Dazu gehört u.a. die Aufbereitung hierarchischer Informationen, wie z.B. beim ICD-10, bei dem für Oberdiagnosen (z.B. I50 – Herzinsuffizienz) Einträge automatisch generiert werden, wenn eine der Unterdiagnosen (z.B. I50.1 – Linksherzinsuffizienz) existiert. Zur Aufbereitung zählt aber auch die Datenreduktion, wie z.B. die Selektion von Labordaten, bei denen pro Fall ein Parameter häufig mehrfach gemessen wurde. Für die schnelle Analyse im Data Warehouse werden aber nur der höchste, der niedrigste, der erste und der letzte Wert gespeichert.

Zur Abfrage des Data Warehouse gibt es zwei Schnittstellen: eine mit einer graphischen Benutzungsoberfläche (GUI) auf dem aufbereiten Data Warehouse, welche die Ärzte für die klinische Forschung direkt verwenden können und eine Experten-Anfrage auf dem rohen Data Warehouse, die Kenntnisse einer komplexen Anfragesprache erfordert, aber mehr Anfragemöglichkeiten zulässt. Die GUI-Anfrage und Ergebnispräsentation erfolgt in folgenden Schritten:

1.
Alle Parameter des Data Warehouse werden über einen hierarchisch und alphabetisch sortierten Katalog angeboten, in dem man browsen oder suchen kann. Zusätzlich wird die Anzahl der Fälle angezeigt, also wie häufig der Katalogeintrag einen Wert im Data Warehouse hat. Das ist wichtig, da in der Regel Parameter abgefragt werden, die auch häufig erhoben wurden.
2.
Nach Auswahl der Parameter geben die Nutzer in einer zweiten Maske die genauen Bedingungen an (den Wert, z.B. „LVED < 45“ oder „I50 = vorhanden“ sowie ggf. den Bezug, z.B. „erster Wert“, s.o.). Weiterhin können Anfrageelemente mit den logischen Operatoren „UND“ oder „ODER“ verknüpft werden und die Anfragen auch gespeichert werden, um z.B. übersichtlich komplexere Anfragen zu erstellen.
3.
Aus Gründen der Effizienz werden die besten n Ergebnisse (z.B. „n = 100“) zunächst in einem Vorschau-Fenster angezeigt.
4.
Die Nutzer haben mehrere Optionen, die Ergebnisse zur Weiterverarbeitung zu exportieren:
4a. in eine anonymisierte Tabelle (z.B. in MS Excel) mit allen Ergebnissen.
4b. in eine Tabelle mit Pseudonymen. Für den Fall dass für die Anfrage vorher ein entsprechender Antrag gestellt wurde (z.B. Screening von Patienten für eine neue Studie), wird die Zuordnung der Pseudonyme zu Patientennamen von dritter Stelle bereitgestellt (s.o.).
4c. in eine Validations-Tabelle. In ihr werden zu den aus Textdokumenten extrahierten Ergebnisdaten die zugrundliegenden Textstellen angezeigt. Dazu wird der Kontext hinzugefügt und die kritischen Stellen werden farblich hervorgehoben. Damit können Nutzer z.B. stichprobenartig überprüfen, wie zuverlässig die Ergebnisse sind, da Informationsextraktion aus Texten bei dem derzeitigen Stand der Forschung nicht hundertprozentig korrekt ist.

Ergebnisse: Das Data Warehouse zeichnet sich durch eine hohe Performanz bei der Vorschau aus, die den Nutzern als Orientierung dient, ob sie die richtige Anfrage gestellt haben. Weiterhin ist die Bedienbarkeit mit der graphischen Benutzungsoberfläche auch für die direkte Nutzung durch Ärzte geeignet. Die Validierbarkeit der Anfragen durch die Nutzer hat sich als sehr nützlich herausgestellt, wobei diese bisher hauptsächlich für Herzecho-Befundberichtsdaten angewendet wurde. Während einige Daten (z.B. numerische Parameter oder qualitative Bewertungen wie „Aortenwurzel = ektatisch“) zuverlässig extrahiert werden, sind andere Daten mehrdeutig (z.B. „keine Insuffizienz“ kann sich im Herzecho auf Aorten-, Mitral- oder Trikuspidalklappe beziehen). Obwohl bei der Extraktion der Kontext ausgewertet wird, kommt es doch gelegentlich zu Fehlern, die die Nutzer bei der Validierung jedoch leicht erkennen können.

Diskussion: Für ein klinisches Data Warehouse ist die Extraktion von strukturierten Daten aus Arztbriefen und Befundberichten die größte Herausforderung. Da dies bei dem derzeitigen Stand der Technik nicht hundertprozentig möglich ist, halten wir es für sehr wichtig, dass die Nutzer die Ergebnisse selbst validieren können. Das Konzept und die Oberfläche unseres Data Warehouse sind darauf ausgelegt, eine Anfrage-spezifische Validierung durch den Nutzer zu ermöglichen. Die Validierungsergebnisse werden rückgemeldet und führen auch zu einer kontinuierlichen Verbesserung des Inhaltes des Data Warehouse.

Diese Arbeit wurde unterstützt durch die Förderung des Bundesministeriums für Bildung und Forschung (BMBF 01 EO1004).


Literatur

1.
Beck P, Dietrich G, Ertl M, Toepfer T, Fette G, Klügl P, Störk S, Puppe F. Extraktion kodierter Daten aus textuellen Befundberichten: Eine Fallstudie zu Echokardiographie-Berichten. In: GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 304. DOI: 10.3205/14gmds069 Externer Link