gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Die Verknüpfung epidemiologischer Datenbanken anhand personenidentifizierender Merkmale: Vergleich zweier stochastischer Record-Linkage Programme mit realistischen Daten

Meeting Abstract

  • Gaël P. Hammer - Krebsregister Rheinland-Pfalz, Registerstelle, Mainz
  • Tobias Bachteler - Zentrum für Quantitative Methoden und Surveyforschung, Universität Konstanz, Konstanz
  • Anne Krtschil - Krebsregister Rheinland-Pfalz, Vertrauensstelle, Mainz
  • Jörn Reiher - Zentrum für Quantitative Methoden und Surveyforschung, Universität Konstanz, Konstanz
  • Rainer Schnell - Zentrum für Quantitative Methoden und Surveyforschung, Universität Konstanz, Konstanz

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds542

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2007/07gmds542.shtml

Published: September 6, 2007

© 2007 Hammer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung/Hintergrund: In vielen epidemiologischen Studien müssen Daten aus verschiedenen Datenbanken zusammengeführt werden. In der Regel ist keine eindeutige gemeinsame Identifizierungsvariable vorhanden. Daher werden Personen identifizierende Merkmale, wie die Namen, das Geburtsdatum und der Wohnort abgeglichen. Diese Verknüpfungsmerkmale sind typischerweise nicht fehlerfrei, und die Zuordnung ist damit nicht eindeutig [1]. Der Abgleich großer Datenmengen erfordert daher spezielle Software. Das aus dem Jahre 1992 stammende Programm Automatch [2], [3] ist weltweit gut etabliert und wird auch an einigen deutschen Krebsregistern verwendet. Aus Effizienzgründen wurden in dem – noch unter DOS laufenden – Programm einige Einschränkungen eingebaut, die bei großen Datenmengen zu Problemen führen können. Die Kosten der Nachfolgeversion (IBM WebSphere QualityStage) übersteigen das Budget normaler epidemiologischer Studien. Als Alternative bietet sich die an der Universität Konstanz entwickelte Java-Applikation "Merge Toolbox" (MTB) an, die nach dem gleichen Verfahren arbeitet [4].

Material und Methoden: Am Krebsregister Rheinland-Pfalz wurden zwei realistische Testdatensätze mit ca. 16.000 Neumeldungen und 462.000 Bestandsmeldungen gebildet. Diese wurden mit dem am Krebsregister etablierten Verfahren in acht Stufen mit Automatch und MTB erst auf Dubletten überprüft und dann verknüpft.

Ergebnisse: Sowohl beim Erkennen von Dubletten unter den Neumeldungen, als auch beim Abgleich beider Datensätze liefern die Programme ähnliche Ergebnisse: Automatch erkennt (je nach Durchlauf) 98,3-100 % der von MTB gefundenen Dubletten. Bei der Verknüpfung stimmen 81,2-99,9 % aller Paare überein, Automatch findet 0-0,01 % zusätzliche Paare, MTB dagegen 0,001-21,7 %. Ein Pufferüberlauf in Automatch führte in einem Verknüpfungslauf zum Verlust von 15,8 % der sonst übereinstimmenden Paare.

Schlussfolgerungen: Für das gegebene Problem lieferte MTB im Test weitgehend gleiche Resultate. Die Anhebung der Akzeptanzschwelle in MTB verbessert die Übereinstimmung. Im Gegensatz zu Automatch ist MTB hoch portabel, erweiterbar, für wissenschaftliche Zwecke frei verfügbar und bietet neben den meisten in Automatch vorhandenen zusätzliche Routinen, die für verschiedenste epidemiologische Anwendungen sinnvoll sein können.


Literatur

1.
Winkler WE. Overview of Record Linkage and Current Research Directions. Research Report Series, RRS 2006/2, Statistical Research Division, U.S. Census Bureau, 2006.
2.
Automatch Individual matching, geocoding and file unduplicating [computer program]. Version 4.2. Kennebunk, Maine: Matchware Technologies, Inc; 1998.
3.
Jaro MA. Probabilistic linkage of large public health data files. Stat Med. 1995;14(5-7):491-8.
4.
Schnell R, Bachteler T, Reiher J. MTB: Ein Record-Linkage-Programm für die empirische Sozialforschung. ZA-Information. 2005;56:93-103.