gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Ein flexibles und erweiterbares Record Linkage Framework auf Basis von Talend Open Studio

Meeting Abstract

  • M. Löpprich - Universität Heidelberg, Heidelberg
  • M. Ganzinger - Universität Heidelberg, Heidelberg
  • H. Goldschmidt - Universität Heidelberg, Heidelberg
  • P. Knaup-Gregori - Universität Heidelberg, Heidelberg

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 221

doi: 10.3205/14gmds072, urn:nbn:de:0183-14gmds0728

Veröffentlicht: 4. September 2014

© 2014 Löpprich et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: In der Sektion Multiples Myelom der Medizinischen Klinik V des Universitätsklinikums Heidelberg und des Nationalen Centrum für Tumorerkrankungen (NCT) werden systematisch klinische, molekulare und genetische Daten von Patienten mit Multiplem Myelom in unterschiedlichen Projekten, multizentrischen Studien und wissenschaftlichen Dokumentationen erfasst und gepflegt. Um patientenbezogene wissenschaftliche Auswertungen durchzuführen und somit einen Mehrwert aus den bereits vorhandenen Forschungsdaten bei relativ geringem Ressourceneinsatz zu erhalten, ist eine Zusammenführung der verschiedenen Datenbestände naheliegend. Da eine eindeutige Identifikations- oder Randomisierungsnummer aus Gründen der Praktikabilität systemübergreifend nie etabliert wurde und eine manuelle Zusammenführung der Daten äußerst zeitintensiv ist, ist ein automatisiertes und flexibles Record Linkage notwendig um Daten anhand übergreifend verfügbarer patientenidentifizierender Merkmale zu verknüpfen. Unterschiedliche Erfassungsrichtlinien, Dokumentationsstandards, Schreibweisen und Fehler bei der Dokumentation erschweren einen Abgleich zusätzlich. Record Linkage stellt für diesen Fall ein probabilistisches und damit fehlertolerantes Verfahren für die Zusammenführung personenbezogener Daten aus verschiedenen Systemen dar [1], [2]. Frei verfügbare Record Linkage Werkzeuge sind häufig in den verwendeten Algorithmen, der Erweiterbarkeit und den Parametrisierungsmöglichkeiten stark limitiert [3], [4]. Daraus ergibt sich der Bedarf nach einer flexiblen und einfach zu erweiternden Lösung, um ein Record Linkage Werkzeug auf verschiedene Quellsysteme anzuwenden, verschiedene algorithmische Verfahren einzubinden und spezifisch zu parametrisieren.

Material und Methoden: Record Linkage besteht laut Peter Christen allgemein aus fünf Schritten: Vorverarbeitung, Indexierung, paarweiser Datensatzvergleich, Klassifizierung und Evaluation [2]. Für jeden dieser Schritte kann aus einer Vielzahl an verfügbaren Algorithmen gewählt werden. Beispielsweise existieren allein für den Abgleich der Datensätze eine Vielzahl von Ähnlichkeitsmaßen, unter anderem für ganze Zeichenketten (Smith-Waterman, Jaro-Winkler, Damerau-Levenshtein), deren Zerlegung (Jaccard-Koeffizient, Dice-Koeffizient), Aussprache (Soundex) und nummerische und kalendarische Attribute [1], [2], [5]. Entsprechend der Ähnlichkeit der Attributausprägungen werden Gewichte berechnet und zu einem Gesamtgewicht zusammengefasst, das wiederum zur automatischen Entscheidung, ob zwei unabhängige Datensätze derselben Beobachtungseinheit zugeordnet werden können, führt.

Für die Realisierung eines Record Linkage Framework wird die Open Source Software Talend Open Studio (TOS) verwendet. TOS bietet als weitverbreitetes Datenverarbeitungswerkzeug eine einfache Möglichkeit verschiedenen Komponenten zu ETL-Prozessen (Extract, Transform, Load) zu verknüpfen. Eigene Komponenten, und damit eigene Algorithmen lassen sich in Java auch selbst implementieren und innerhalb eines Prozesses nutzen.

Insgesamt liegen klinische Daten von über 1000 Patienten in heterogenen Formaten (SQL, Excel, Text) und verschiedenen Dateien vor. Gemeinsam sind den Datenquellen überwiegend die identifizierenden Merkmale Name und Geburtsdatum. Anhand der gemeinsam genutzten Merkmale sollten die Datenquellen verknüpft und möglichst frei von Duplikaten in einer Zieldatei zusammengeführt werden.

Ergebnisse: Auf Basis der fünf Schritte eines Record Linkage haben wir in TOS ein Framework entwickelt, mit dem Daten aus verschiedenen Quellsystemen eingelesen, verarbeitet und in einer Zieldatei zusammenführt ausgegeben werden können. Weiter haben wir für jeden einzelnen Schritt spezifische Algorithmen als TOS-Komponenten implementiert. So wurde beispielsweise für den Schritt der Indexierung, der notwendig ist um die Anzahl der zu vergleichenden Datensätze zu reduzieren und damit Berechnungszeit einzusparen, die drei Methoden Blocking, Sorted-Neighborhood und Soundex implementiert. Für den paarweisen Datensatzvergleich und die Berechnung des Ähnlichkeitsmaßes sind bisher TOS-Komponenten zur Bestimmung der booleschen, der Smith-Waterman- und der Jaro-Winkler-Distanz entstanden.

Als wesentliche Eigenschaft konnten wir erreichen, dass jeder Algorithmus einfach vom Benutzer parametrisiert werden kann, sodass beispielsweise die Ähnlichkeitsbewertung zweier Zeichenketten im Jaro-Winkler-Algorithmus über die Länge der Präfixe und den Skalierungsfaktor adaptiert werden kann. Zusätzlich sind alle Algorithmen, die für einen Schritt vorgesehen sind, modular und flexibel ersetz- und kombinierbar. Ein Record Linkage mit der Indexierungsmethode Soundex lässt sich beispielsweise einfach und dynamisch auf Blocking abändern und wahlweise mit der Ähnlichkeitsmaß Smith-Waterman oder Jaro-Winkler kombinieren. Ein Vergleich verschiedener Zieldateien, die nach unterschiedlichen Kombinationen entstanden sind, erlaubt dem Benutzer die für sich passende Kombination an Algorithmen und Parametrisierung zu finden. Zusätzlich besteht für den Benutzer die Option einen eigenen Algorithmus mit Hilfe von Talend Open Studio zu implementieren und mit den bestehenden zu einer Pipeline zu verknüpfen.

Durch das Record Linkage Framework konnten wir mit vertretbarem Aufwand klinische Daten von 1077 Myelompatienten, die in zwei unabhängigen Datensätzen dokumentiert wurden, abgleichen. Eine automatisierte Zusammenführung von Datensatz 1 mit 954 Patienten und Datensatz 2 mit 932 Patienten konnte durch eine geeignete Wahl des Linkage-Algorithmus und der Parametrisierung über die identifizierenden Merkmale Name, Vorname, Geschlecht und Geburtsdatum zu 75 % (808 Patienten) erreicht werden. Die 269 nicht-verknüpfbaren Patienten (25 %) verteilen sich mit 145 bzw. 124 Patienten auf beide Datensätze und sind, sowohl kontextabhängig nachvollziehbar als auch stichprobenhaft überprüft, tatsächlich nur in einem von beiden Datensätzen vorhanden. Damit ist mit hoher Wahrscheinlichkeit davon auszugehen, dass alle verknüpfbaren Patienten auch automatisch zusammengeführt wurden. Unter den 808 verknüpfbaren Patienten hatten 5,8 % einen Dokumentationsunterschied in mindestens einem Merkmal. Die häufigsten Unterschiede traten in den Zeichenketten Nachname und Vorname auf aufgrund unterschiedlicher Definitionen (z. B. de Jong oder Jong) und Schreibweisen (z. B. Mueller oder Müller).

Diskussion: In der klinischen Forschung werden medizinische Daten zu demselben Patienten häufig in unterschiedlichen Systemen gespeichert und müssen für patientenbezogene wissenschaftliche Analysen über eindeutige Identifikations- oder Randomisierungsnummern zusammengeführt werden. Häufig stehen solche eindeutigen Nummern für einen Abgleich nicht systemübergreifend zur Verfügung, sodass nur über mehrfach erhobene und damit in mehreren Quellen vorhandene identifizierende Merkmale, wie Name, Geburtsdatum, Geschlecht oder Anschrift eine Verknüpfung der Daten möglich ist.

Wir konnten unser Record Linkage Framework erfolgreich für die Zusammenführung unabhängiger Datensätze einsetzen. Der modulare Aufbau auf Basis von TOS erlaubt dem Benutzer aus einer Vielzahl von vorimplementierten Algorithmen auszuwählen und frei zu entscheiden welche Kombination und Parametrisierung seinen Anforderungen an die vorliegenden Quelldateien am besten genügt. Weiter ist durch den Open Source Ansatz gewährleistet, dass zusätzliche Algorithmen und Verfahren durch Benutzer implementiert und ausgetauscht werden können. Das langfristige Ziel ist es das Record Linkage Framework interessierten Benutzergruppen zu Verfügung zu stellen, dass durch Beiträge anderer Benutzer in der Zahl der vorhandenen und implementierten Algorithmen weiter wächst und alle relevanten Metriken und Distanzmaße enthält. Wir planen, die von uns entwickelten TOS-Komponenten nach erfolgter Qualitätskontrolle, die über einen Vergleich der Ergebnisse mit den frei verfügbaren aber stark limitierten Record Linkage Werkzeugen erfolgen soll, als Open Source Software zu veröffentlichen [3], [4]. Somit stehen diese Ergebnisse auch anderen Projekten zur Verfügung.


Literatur

1.
Winkler WE. Matching and record linkage. Bureau of the Census. Washington, D.C,; 1993. (Bureau of the Census. Statistical Research Division. Statistical research report seriesno. RR93/08)
2.
Christen P. Data matching: Concepts and techniques for record linkage, entity resolution, and duplicate detection. Berlin, New York: Springer; 2012. (Data-centric systems and applications).
3.
FRIL: Fine-Grained Records Integration and Linkage Tool. Emory University, Math & CS Department; 2011.
4.
The Link King: Record Linkage and Consolidation Software. Camelot Consulting; 2012.
5.
Naumann F. Duplikaterkennung. Potsdam; 2012. (Vorlesung Information Integration SS2012)