gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Das R-Paket RecordLinkage

Meeting Abstract

Search Medline for

  • Andreas Borg - Universitätsmedizin der Johannes Gutenberg-Universität, Mainz
  • Murat Sariyar - Universitätsmedizin der Johannes Gutenberg-Universität, Mainz

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds470

doi: 10.3205/11gmds470, urn:nbn:de:0183-11gmds4700

Published: September 20, 2011

© 2011 Borg et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Die Zusammenführung von Daten unter Vermeidung von Synonym- und Homonymfehlern ist vor allem in klinischen und epidemiologischen Patientenregistern eine wichtige Aufgabe. Neben dem klassischen stochastischen Record Linkage [1] haben sich eine Vielzahl weiterer Methoden, z.B. Verfahren des maschinellen Lernens, als geeignet für diese Aufgabe erwiesen [2]. Die Auswahl eines bestimmten Verfahrens hängt dabei stark von individuellen Faktoren wie der Struktur der zu verknüpfenden Daten, Datenschutzbestimmungen oder Kosten/Nutzen-Abwägungen ab. Idealerweise geht der Implementierung einer Record-Linkage-Strategie deshalb eine Evaluation verschiedener Verfahren voraus. Das R-Paket RecordLinkage [3] ist als Werkzeug für solche Evaluationen entwickelt worden. Durch die Konzeption als Programmbibliothek können Vergleiche von Verfahren automatisiert ablaufen, so dass das Paket für systematische Testläufe flexibel einsetzbar ist. Es ergänzt damit andere Record-Linkage-Produkte, die auf die Anwendung von konkreten Methoden ausgelegt sind.

Material und Methoden: Mit R nutzen wir eine leistungsfähige, frei verfügbare Programmierumgebung, hinter der eine aktive Nutzer- und Entwicklergemeinde steht. R stellt neben Funktionen für numerische Berechnungen und zur Verarbeitung tabellarischer Daten auch viele Algorithmen des maschinellen Lernens als Erweiterungspakete bereit. Plattform und Paket erlauben sowohl die interaktive Arbeit auf der R-Kommandozeile als auch automatisierte Programmläufe. Schließlich bietet die Sweave-Funktion eine Möglichkeit, Text, ausführbaren Programmcode und Ergebnisse in einem Latex-Dokument zu kombinieren. Durch die Einbettung eines Datenbankmoduls können die Speicherbeschränkungen von R umgangen werden: das Paket ist damit skalierbar und kann effizient auf größeren Datenmengen angewendet werden.

Ergebnisse: Das Paket RecordLinkage wird von uns seit ca. zwei Jahren im Rahmen empirischer Evaluationen verschiedener Record-Linkage-Methoden benutzt und regelmäßig durch Erweiterungen an neue Erfordernisse dieser Arbeit angepasst. Der veröffentlichte Programmcode hat sich somit bisher in der Praxis bewährt; darüber hinaus stellen umfangreiche Unit-Tests seine Zuverlässigkeit und Korrektheit sicher.

Diskussion/Ausblick: Für die empirische Evaluation von Verfahren zum Record Linkage stellt das Paket bereits eine leistungsfähige Infrastruktur zur Verfügung. Großes Erweiterungspotential besteht hinsichtlich von Funktionalitäten, die einen Einsatz als produktives Record-Linkage-System erlauben würden, insbesondere:

  • Funktionen zur Datennormalisierung, z.B. Segmentierung von Adressen.
  • Funktionen für die Zusammenführung gefundener Matchkomponenten
  • Unterstützung von typischen Arbeitsabläufen durch eine graphische Oberfläche
  • Bereitstellung als Bibliothek / Modul, das in bestehende Infrastrukturen eingebettet werden kann.
  • Möglichkeit der iterativen Verarbeitung von Abfragen, wie sie in Krankheitsregistern erforderlich ist.

Das Paket kann durch die Hinzunahme solcher Funktionalitäten eine flexible und performante Alternative zu gängigen Softwareprodukten darstellen.


Literatur

1.
Fellegi IP, Sunter AB. A Theory for Record Linkage. Journal of the American Statistical Association. 1969;64(328):1183-1210.
2.
Elmagarmid AK, Ipeirotis PG, Verykios VS. Duplicate record detection: A survey. Ieee Transactions on Knowledge and Data Engineering. 2007;19(1):1-16.
3.
Sariyar M, Borg A. The RecordLinkage Package: Detecting Errors in Data. R Journal. 2010;2(2):61-67.