gms | German Medical Science

54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. bis 10.09.2009, Essen

ID-Management heterogener medizinischer Datenbestände: Potential von Matching-Verfahren im Kontext eines klinischen Data Warehouse

Meeting Abstract

  • Anja Zöller - Medizinisches IK-Zentrum, Universitätsklinikum Erlangen, Erlangen
  • Andreas Becker - Lehrstuhl für Medizinische Informatik, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen
  • Ronald Grolik - Medizinisches IK-Zentrum, Universitätsklinikum Erlangen, Erlangen
  • Hans-Ulrich Prokosch - Lehrstuhl für Medizinische Informatik, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen
  • Thomas Ganslandt - Medizinisches IK-Zentrum, Universitätsklinikum Erlangen, Erlangen

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Essen, 07.-10.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09gmds283

DOI: 10.3205/09gmds283, URN: urn:nbn:de:0183-09gmds2836

Published: September 2, 2009

© 2009 Zöller et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Hintergrund: In heterogenen KIS-Umgebungen gibt es einen großen Bedarf, Informationen aus verschiedenen EDV-Systemen sowohl zu einer patientenbezogenen Behandlungsdokumentation als auch zu einer Abrechnungsfall-bezogenen Sicht (z.B. zur DRG-Kalkulation, Clinical Pathway Management, Kostenträgerrechnung, sektorübergreifenden Vernetzung) zusammenzuführen.

Im Idealfall erfolgt die Zusammenführung mittels Identifikationsnummern, was jedoch nicht immer möglich ist, z.B. bei Dokumentationslücken, Eingabefehlern oder abweichenden Fallnummernsystematiken. In diesem Fall ist eine Rekonstruktion des Fallbezuges anhand zusätzlicher Informationen notwendig [1].

Dieser Beitrag evaluiert das Potential existierender Matchingverfahren [1], [2] in einem klinischen Data Warehouse.

Methode: Zur Beschreibung der Ausgangssituation wurde die Datenqualität exemplarischer Abteilungssysteme eines Krankenhauses überprüft. Die Qualität der Identifikationsnummern wurde am Anteil gültiger Fallnummern gemessen. Die Qualität der Patientendaten wurde mit Matchingverfahren ermittelt, welche potentielle Übereinstimmungen von Namen, Geburtsdatum und Geschlecht prüfen [3], [4].

Zur Rekonstruktion des Fallbezugs wurden zwei Verfahren getestet. Das Erste verwendet ausschließlich Fall- und Patientennummern und rekonstruiert den Fallbezug anhand von Gültigkeitszeiträumen. Das Zweite verwendet zusätzliche Patientendaten und führt einen Personenabgleich mittels direkter String-Vergleiche, etablierter Ähnlichkeitsmaße und Distanz-Metriken [1], [2] (Levenshtein, Jaro-Winkler) durch. Die Ähnlichkeitsanforderungen können dabei über eine Parametergewichtung angepasst werden.

Ergebnisse und Ausblick: In den Rohdaten der verschiedenen Subsysteme schwankt der Anteil Datensätze mit korrektem Fallbezug von 50–99%. Abhängig von der Datenqualität konnte der Fallbezug für bis zu 40% der Daten rekonstruiert werden. Nach der Rekonstruktion des Fallbezuges schwankt der Anteil Datensätze mit korrektem Fallbezug von 88–99%.

Das Potential einer automatisierten Rekonstruktion des Fallbezuges ist limitiert. Beispielsweise können Datensätze auftreten, bei denen tatsächlich kein Fallbezug existiert, z.B. Gerätetests oder Leistungen an „fremden“ Patienten, die nicht in den Referenzdaten enthalten sind. Zudem wurden die Ähnlichkeitsanforderungen für ein automatisches Matching in diesem Beitrag relativ hoch gewählt. Dies priorisiert eine Vermeidung falscher Zuordnungen (Spezifität) – zu Lasten der Auffindung aller richtigen Fallbezüge (Sensitivität). Für potentielle Übereinstimmungen mit niedrigeren Ähnlichkeitsanforderungen werden Vorschlagslisten generiert.

Weitere Arbeiten sollen untersuchen inwieweit anhand dieser Vorschlagslisten strukturelle Fehlerquellen und separate Matching-Regeln [4], [5] identifiziert werden können.


Literatur

1.
Winkler WE. Methods for evaluating and creating data quality. Information Systems: Data Quality in Cooperative Information Systems, 2004;29(7):531-50.
2.
Cohen W, Ravikumar P, Fienberg SE. A comparison of string distance metrics for name-matching tasks. IJCAI and IIWEB. 2003.
3.
Wakchaure A, Eaglin R, Motlagh B. A technique for the quantitative measure of data cleanliness. In: Conference on Cybernetics and Intelligent Systems; 2008. p.1258-63.
4.
Cochinwala M, Kurien V, Lalk G, Shasha D. Efficient data reconciliation. Information Sciences. 2001;137(1-4):1-15.
5.
Lam W, Huang R, Cheung P. Learning phonetic similarity for matching named entity translations and mining new translations. In: Proceedings of the 27th Annual international ACM SIGIR Conference on Research and Development in information Retrieval; 2004; New York, NY. 2004. p. 289-96.