Artikel
Bestimmung der False Match-Rate im Fellegi-Sunter-Modell mittels verallgemeinerte Paretoverteilung
Suche in Medline nach
Autoren
Veröffentlicht: | 2. September 2009 |
---|
Gliederung
Text
Einleitung und Fragestellung: Im Rahmen der Durchführung des Record Linkage anhand des Fellegi-Sunter-Modells sind zwei wesentliche Aufgaben zur Determinierung der False Match-Rate zu lösen. Zum einen sind den erzeugten Datensatzpaaren Gewichte gemäß der Ähnlichkeit der ihnen zugrunde liegenden Daten zuzuordnen und zum anderen muss die Schranke bestimmt werden, ab welcher Gewichte als zu einer Person (Matchen) gehörig gelten. Belin und Rubin haben versucht, die letztere Aufgabe im Zusammenhang mit gemischten Normalverteilungen zu bestimmen. Dies hat sich in der Praxis als wenig tragfähig erwiesen. Wir versuchen mit Hilfe der aus der Extremwerttheorie stammenden verallgemeinerten Paretoverteilung zu einer robusten und praxisrelevanten Schätzung der False Match-Rate zu gelangen.
Material und Methoden: Als Daten stehen die als Goldstandard fungierenden pseudonymisierten und gematchten Patientendaten eines Krebsregisters zur Verfügung. Die Gewichte für die Datensatzpaare stammen aus Berechnungen anhand eines Latent-Class-Modells, auf welches in diesem Zusammenhang nicht näher eingegangen wird. Vor der Parameterschätzung werden "mean excess plots" zur Bestimmung derjenigen Schranke genutzt, ab welcher die verallgemeinerte Paretoverteilung Gültigkeit besitzt. Anschließend erfolgen Maximum-Likelihood-Schätzungen und schließlich die Bestimmung der falschen Matchraten auf Basis der sich ergebenden Quantilsschätzungen. Evaluationsumgebung ist die Statistiksoftware R.
Ergebnisse: Die Ergebnisse werden in Form von Histogrammen sowie Tabellen von geschätzten und tatsächlichen Fehlerraten dargestellt. Ziel ist es, zu zeigen, dass auf den verwendeten Daten die in der Literatur zum Record Linkage festgestellte Unterschätzung der tatsächlichen Fehlerrate im Rahmen der - "fat tails" unterstellenden - verallgemeinerten Paretoverteilung nicht gegeben ist und dabei annehmbare Schätzungen der False Match-Rate geliefert werden.
Diskussion: Schätzungen anhand der verallgemeinerten Paretoverteilung, die in einem vertretbaren Rahmen schlechter wären als bisherige Verfahren zur Bestimmung der falschen Matchrate, hätten dennoch den großen Vorteil ohne weitreichende Modellannahmen und auch ohne gelabelte Trainingsdaten arbeiten zu können. Zur abschließenden Beurteilung ist es wichtig, dass das vorgestellte Verfahren auf sehr viel mehr Daten aus unterschiedlichen Anwendungsgebieten evaluiert wird.