gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Ein objektorientiertes Modell für Record Linkage

Meeting Abstract

Suche in Medline nach

  • Andreas Borg - Universitätsmedizin Mainz, Mainz, DE
  • Frank Ückert - Universitätsmedizin Mainz, Mainz, DE
  • Martin Lablans - Universitätsmedizin Mainz, Mainz, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.105

doi: 10.3205/13gmds053, urn:nbn:de:0183-13gmds0536

Veröffentlicht: 27. August 2013

© 2013 Borg et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Record Linkage, also die fehlertolerante Zusammenführung mehrerer Datensätze einer Person, spielt in vielen Gebieten der medizinischen Forschung eine wichtige Rolle. Für Endanwender steht inzwischen eine Vielzahl von – auch freien – Record-Linkage-Tools zur Verfügung (beispielsweise [1], [2], [3]. Für die automatisierte und flexible Einbindung von Record-Linkage-Algorithmen in IT-Infrastrukturen besteht dagegen ein Bedarf an Bibliotheken mit Programmierschnittstelle. Derartige Software steht bislang aber nur für spezialisierte Programmiersprachen zur Verfügung [4], [5]. Im Rahmen der Entwicklung eines Pseudonymisierungsdienstes („Mainzer Patientenliste“) sollte deshalb ein möglichst flexibles und erweiterbares Record-Linkage-Framework entwickelt und für eine Vielzahl zeitgemäßer Anwendungen nutzbar in Java implementiert werden.

Material und Methoden: Basierend auf Beispielen aus der eigenen Forschung und Anwendung sowie der Literatur wurden typische Record-Linkage-Prozesse analysiert, um wiederkehrende Strukturen ausfindig zu machen und ein Modell dieser Prozesse zu erstellen. Für dessen Darstellung wurde ein objektorientierter Ansatz ausgewählt. Dieser erlaubt durch die Nutzung von Templates eine feingranulare Kontrolle, welche Methodik zu welchen Daten passt. Außerdem erleichtern Konzepte wie abstrakte Klassen und Interfaces die Erweiterung des Frameworks um individuelle Implementierungen.

Ergebnisse: Für die Flexibilität des Modells erwies sich die Aufschlüsselung in Eingabefelder, Feldtransformationen und Feldvergleichen als zentral. Eingabefelder sind identifizierende Attribute eines Patienten (Vorname, Nachname, etc.) und werden als Klasse und dessen Datentyp als Template-Parameter T repräsentiert; in Java in Form der abstrakten Klasse "Field<T>" und konkret implementiert beispielsweise als "PlainTextField extends Field<String>" für Zeichenketten. Die erste Phase eines typischen Record-Linkage-Prozesses ist die Transformation von Attributen, zum Beispiel die Vereinheitlichung von Datumsformaten. Durch Template-Parameter kann erfasst werden, zu welchen Eingabefeldern eine Transformation kompatibel ist und welchen Ausgabetyp sie produziert; in Java in Form der abstrakten Klasse "FieldTransformer<IN extends Field<?>, OUT extends Field<?>>". Schließlich wird der Feldvergleich zweier Datensätze durch eine abstrakte Klasse "FieldComparator<F extends Field<?>>" und ihre Methode "double compare (FfieldLeft, FfieldRight)" dargestellt.

Diskussion: Das dargestellte Framework wurde im Rahmen des o.g. Pseudonymisierungsdienstes erfolgreich eingesetzt. Durch die modulare Gestaltung lassen sich Veränderungen am Matching unkompliziert umsetzen, was vor allem in Testphasen eine deutliche Erleichterung gegenüber einem festgefügten Algorithmus ist. Die Verwendung von Template-Parametern soll sicherstellen, dass Transformationen und Vergleiche nur auf dazu kompatiblen Feldern angewendet werden. Im praktischen Einsatz in der Mainzer Patientenliste musste trotzdem eine eigene Konsistenzprüfung implementiert werden, da einerseits Template-Parameter in Java nur bei der Kompilierung ausgewertet werden und andererseits die im Matching verwendeten Klassen erst zur Laufzeit anhand einer Konfigurationsdatei bestimmt werden. Als offenes Problem verbleibt das Aufteilen eines Felds in mehrere Komponenten, etwa zum Auftrennen mehrteiliger Namen. Hier ist noch eine Lösung erforderlich, um die resultierenden Teilfelder flexibel an weitere Verarbeitungsschritte, zum Beispiel Überkreuzvergleiche, weiterreichen zu können.


Literatur

1.
The Link King. Record Linkage and Consolidation Software. Camelot Consulting. http://the-link-king.com/ Externer Link
2.
Schnell R, Bachteler T, Reiher J, Bender S. A Toolbox for Record Linkage. Austrian Journal of Statistics. 2004;33(1-2):125–33.
3.
FRIL. Fine-Grained Records Integration and Linkage Tool. Emory University. http://fril.sourceforge.net/ Externer Link
4.
Sariyar M, Borg A. The RecordLinkage Package: Detecting Errors in Data. The R Journal. 2010;2(2):61–7. http://journal.r-project.org/archive/2010-2/RJournal_2010-2_Sariyar+Borg.pdf Externer Link
5.
Christen P. Febrl – A Freely Available Record Linkage System with a Graphical User Interface. Second Australasian Workshop on Health Data and Knowledge Management (HDKM 2008). ACS. 2008:17–25. http://crpit.com/confpapers/CRPITV80Christen.pdf Externer Link