Article
Die Verknüpfung epidemiologischer Datenbanken anhand personenidentifizierender Merkmale: Vergleich zweier stochastischer Record-Linkage Programme mit realistischen Daten
Search Medline for
Authors
Published: | September 6, 2007 |
---|
Outline
Text
Einleitung/Hintergrund: In vielen epidemiologischen Studien müssen Daten aus verschiedenen Datenbanken zusammengeführt werden. In der Regel ist keine eindeutige gemeinsame Identifizierungsvariable vorhanden. Daher werden Personen identifizierende Merkmale, wie die Namen, das Geburtsdatum und der Wohnort abgeglichen. Diese Verknüpfungsmerkmale sind typischerweise nicht fehlerfrei, und die Zuordnung ist damit nicht eindeutig [Ref. 1]. Der Abgleich großer Datenmengen erfordert daher spezielle Software. Das aus dem Jahre 1992 stammende Programm Automatch [Ref. 2], [Ref. 3] ist weltweit gut etabliert und wird auch an einigen deutschen Krebsregistern verwendet. Aus Effizienzgründen wurden in dem – noch unter DOS laufenden – Programm einige Einschränkungen eingebaut, die bei großen Datenmengen zu Problemen führen können. Die Kosten der Nachfolgeversion (IBM WebSphere QualityStage) übersteigen das Budget normaler epidemiologischer Studien. Als Alternative bietet sich die an der Universität Konstanz entwickelte Java-Applikation "Merge Toolbox" (MTB) an, die nach dem gleichen Verfahren arbeitet [Ref. 4].
Material und Methoden: Am Krebsregister Rheinland-Pfalz wurden zwei realistische Testdatensätze mit ca. 16.000 Neumeldungen und 462.000 Bestandsmeldungen gebildet. Diese wurden mit dem am Krebsregister etablierten Verfahren in acht Stufen mit Automatch und MTB erst auf Dubletten überprüft und dann verknüpft.
Ergebnisse: Sowohl beim Erkennen von Dubletten unter den Neumeldungen, als auch beim Abgleich beider Datensätze liefern die Programme ähnliche Ergebnisse: Automatch erkennt (je nach Durchlauf) 98,3-100 % der von MTB gefundenen Dubletten. Bei der Verknüpfung stimmen 81,2-99,9 % aller Paare überein, Automatch findet 0-0,01 % zusätzliche Paare, MTB dagegen 0,001-21,7 %. Ein Pufferüberlauf in Automatch führte in einem Verknüpfungslauf zum Verlust von 15,8 % der sonst übereinstimmenden Paare.
Schlussfolgerungen: Für das gegebene Problem lieferte MTB im Test weitgehend gleiche Resultate. Die Anhebung der Akzeptanzschwelle in MTB verbessert die Übereinstimmung. Im Gegensatz zu Automatch ist MTB hoch portabel, erweiterbar, für wissenschaftliche Zwecke frei verfügbar und bietet neben den meisten in Automatch vorhandenen zusätzliche Routinen, die für verschiedenste epidemiologische Anwendungen sinnvoll sein können.
Literatur
- 1.
- Winkler WE. Overview of Record Linkage and Current Research Directions. Research Report Series, RRS 2006/2, Statistical Research Division, U.S. Census Bureau, 2006.
- 2.
- Automatch Individual matching, geocoding and file unduplicating [computer program]. Version 4.2. Kennebunk, Maine: Matchware Technologies, Inc; 1998.
- 3.
- Jaro MA. Probabilistic linkage of large public health data files. Stat Med. 1995;14(5-7):491-8.
- 4.
- Schnell R, Bachteler T, Reiher J. MTB: Ein Record-Linkage-Programm für die empirische Sozialforschung. ZA-Information. 2005;56:93-103.