Artikel
Das R-Paket RecordLinkage
Suche in Medline nach
Autoren
Veröffentlicht: | 20. September 2011 |
---|
Gliederung
Text
Einleitung: Die Zusammenführung von Daten unter Vermeidung von Synonym- und Homonymfehlern ist vor allem in klinischen und epidemiologischen Patientenregistern eine wichtige Aufgabe. Neben dem klassischen stochastischen Record Linkage [1] haben sich eine Vielzahl weiterer Methoden, z.B. Verfahren des maschinellen Lernens, als geeignet für diese Aufgabe erwiesen [2]. Die Auswahl eines bestimmten Verfahrens hängt dabei stark von individuellen Faktoren wie der Struktur der zu verknüpfenden Daten, Datenschutzbestimmungen oder Kosten/Nutzen-Abwägungen ab. Idealerweise geht der Implementierung einer Record-Linkage-Strategie deshalb eine Evaluation verschiedener Verfahren voraus. Das R-Paket RecordLinkage [3] ist als Werkzeug für solche Evaluationen entwickelt worden. Durch die Konzeption als Programmbibliothek können Vergleiche von Verfahren automatisiert ablaufen, so dass das Paket für systematische Testläufe flexibel einsetzbar ist. Es ergänzt damit andere Record-Linkage-Produkte, die auf die Anwendung von konkreten Methoden ausgelegt sind.
Material und Methoden: Mit R nutzen wir eine leistungsfähige, frei verfügbare Programmierumgebung, hinter der eine aktive Nutzer- und Entwicklergemeinde steht. R stellt neben Funktionen für numerische Berechnungen und zur Verarbeitung tabellarischer Daten auch viele Algorithmen des maschinellen Lernens als Erweiterungspakete bereit. Plattform und Paket erlauben sowohl die interaktive Arbeit auf der R-Kommandozeile als auch automatisierte Programmläufe. Schließlich bietet die Sweave-Funktion eine Möglichkeit, Text, ausführbaren Programmcode und Ergebnisse in einem Latex-Dokument zu kombinieren. Durch die Einbettung eines Datenbankmoduls können die Speicherbeschränkungen von R umgangen werden: das Paket ist damit skalierbar und kann effizient auf größeren Datenmengen angewendet werden.
Ergebnisse: Das Paket RecordLinkage wird von uns seit ca. zwei Jahren im Rahmen empirischer Evaluationen verschiedener Record-Linkage-Methoden benutzt und regelmäßig durch Erweiterungen an neue Erfordernisse dieser Arbeit angepasst. Der veröffentlichte Programmcode hat sich somit bisher in der Praxis bewährt; darüber hinaus stellen umfangreiche Unit-Tests seine Zuverlässigkeit und Korrektheit sicher.
Diskussion/Ausblick: Für die empirische Evaluation von Verfahren zum Record Linkage stellt das Paket bereits eine leistungsfähige Infrastruktur zur Verfügung. Großes Erweiterungspotential besteht hinsichtlich von Funktionalitäten, die einen Einsatz als produktives Record-Linkage-System erlauben würden, insbesondere:
- Funktionen zur Datennormalisierung, z.B. Segmentierung von Adressen.
- Funktionen für die Zusammenführung gefundener Matchkomponenten
- Unterstützung von typischen Arbeitsabläufen durch eine graphische Oberfläche
- Bereitstellung als Bibliothek / Modul, das in bestehende Infrastrukturen eingebettet werden kann.
- Möglichkeit der iterativen Verarbeitung von Abfragen, wie sie in Krankheitsregistern erforderlich ist.
Das Paket kann durch die Hinzunahme solcher Funktionalitäten eine flexible und performante Alternative zu gängigen Softwareprodukten darstellen.
Literatur
- 1.
- Fellegi IP, Sunter AB. A Theory for Record Linkage. Journal of the American Statistical Association. 1969;64(328):1183-1210.
- 2.
- Elmagarmid AK, Ipeirotis PG, Verykios VS. Duplicate record detection: A survey. Ieee Transactions on Knowledge and Data Engineering. 2007;19(1):1-16.
- 3.
- Sariyar M, Borg A. The RecordLinkage Package: Detecting Errors in Data. R Journal. 2010;2(2):61-67.