gms | German Medical Science

54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. bis 10.09.2009, Essen

Bestimmung der False Match-Rate im Fellegi-Sunter-Modell mittels verallgemeinerte Paretoverteilung

Meeting Abstract

  • M Sariyar - Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz
  • A Borg - Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz
  • G Hammer - Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz
  • I Schmidtmann - Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz
  • K Pommerening - Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Essen, 07.-10.09.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09gmds225

DOI: 10.3205/09gmds225, URN: urn:nbn:de:0183-09gmds2250

Veröffentlicht: 2. September 2009

© 2009 Sariyar et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Im Rahmen der Durchführung des Record Linkage anhand des Fellegi-Sunter-Modells sind zwei wesentliche Aufgaben zur Determinierung der False Match-Rate zu lösen. Zum einen sind den erzeugten Datensatzpaaren Gewichte gemäß der Ähnlichkeit der ihnen zugrunde liegenden Daten zuzuordnen und zum anderen muss die Schranke bestimmt werden, ab welcher Gewichte als zu einer Person (Matchen) gehörig gelten. Belin und Rubin haben versucht, die letztere Aufgabe im Zusammenhang mit gemischten Normalverteilungen zu bestimmen. Dies hat sich in der Praxis als wenig tragfähig erwiesen. Wir versuchen mit Hilfe der aus der Extremwerttheorie stammenden verallgemeinerten Paretoverteilung zu einer robusten und praxisrelevanten Schätzung der False Match-Rate zu gelangen.

Material und Methoden: Als Daten stehen die als Goldstandard fungierenden pseudonymisierten und gematchten Patientendaten eines Krebsregisters zur Verfügung. Die Gewichte für die Datensatzpaare stammen aus Berechnungen anhand eines Latent-Class-Modells, auf welches in diesem Zusammenhang nicht näher eingegangen wird. Vor der Parameterschätzung werden "mean excess plots" zur Bestimmung derjenigen Schranke genutzt, ab welcher die verallgemeinerte Paretoverteilung Gültigkeit besitzt. Anschließend erfolgen Maximum-Likelihood-Schätzungen und schließlich die Bestimmung der falschen Matchraten auf Basis der sich ergebenden Quantilsschätzungen. Evaluationsumgebung ist die Statistiksoftware R.

Ergebnisse: Die Ergebnisse werden in Form von Histogrammen sowie Tabellen von geschätzten und tatsächlichen Fehlerraten dargestellt. Ziel ist es, zu zeigen, dass auf den verwendeten Daten die in der Literatur zum Record Linkage festgestellte Unterschätzung der tatsächlichen Fehlerrate im Rahmen der - "fat tails" unterstellenden - verallgemeinerten Paretoverteilung nicht gegeben ist und dabei annehmbare Schätzungen der False Match-Rate geliefert werden.

Diskussion: Schätzungen anhand der verallgemeinerten Paretoverteilung, die in einem vertretbaren Rahmen schlechter wären als bisherige Verfahren zur Bestimmung der falschen Matchrate, hätten dennoch den großen Vorteil ohne weitreichende Modellannahmen und auch ohne gelabelte Trainingsdaten arbeiten zu können. Zur abschließenden Beurteilung ist es wichtig, dass das vorgestellte Verfahren auf sehr viel mehr Daten aus unterschiedlichen Anwendungsgebieten evaluiert wird.


Literatur

1.
Belin TR, Rubin DB. A method for calibrating false-match rates in record linkage. J Amer Statist Assoc. 1995;90:694-707.
2.
Coles S. An Introduction to Statistical Modeling of Extreme Values. Springer: 2001