gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Record Linkage im Kontext von iterativen Gesamtvergleichen

Meeting Abstract

Suche in Medline nach

  • Murat Sariyar - Uniklinik Mainz, Mainz, Deutschland
  • Andreas Borg - Uniklinik Mainz, Mainz, Deutschland
  • Klaus Pommerening - Uniklinik Mainz, Mainz, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMI15-1

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds178.shtml

Veröffentlicht: 10. September 2008

© 2008 Sariyar et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Die kanonische Problemstellung des Record Linkage ist die Bestimmung der Personen zuzuordnenden Daten bei der Zusammenführung von mehreren Dateien, die Fehler enthalten. Prinzipiell werden dabei alle Kombinationen von einzelnen Datensätzen der berücksichtigten Dateien betrachtet und in Fällen von größeren Fallzahlen beispielsweise durch Blocking diejenigen Kombinationen weggelassen, die mit hoher Sicherheit nicht zu einer Person gehören können. Es gehört nicht zu den Primärzielen, die gespeicherte Informationsbasis durch das Record Linkage fortlaufend aktuell zu halten.

Iterativer Vergleich bedeutet im Unterschied dazu, dass immer nur ein Datensatz mit der Gesamtheit vorliegender Datensätze verglichen wird und zwar mit dem Ziel, schon bei der, im Vordergrund stehenden, Speicherung der Daten Redundanzen zu entdecken. Das Record Linkage ist in diesem Fall Teil des Datenhaltungs-Systems und wird nicht extern vorgenommen.

Für die Bewertung der Verfahren und deren anschließende reale Anwendung ist es nach ihrer Kalibrierung irrelevant, ob ein iterativer Vergleich stattfindet oder mehrere Dateien zusammenzuführen sind. In beiden Fällen sind Datensatzpaare zu bilden, die jedoch im Rahmen des iterativen Vergleichs in größeren zeitlichen Abständen erstellt werden. Ein wichtiger Unterschied betrifft die Qualität der Daten. Erfolgt die Zusammenführung von Daten iterativ, ist zumeist davon auszugehen, dass ein kontrollierter Eingabeprozess vorliegt und die Daten somit mit weniger Fehlern behaftet sind als bei Erstellung von Gesamtdateien.

Im Rahmen einer empirischen Evaluierung sollen fünf Verfahren (Record Linkage nach Fellegi-Sunter, Febrl, Entscheidungsbäume, Support Vector Machines und Epilink) miteinander auf unterschiedlichen, jedoch insgesamt mit wenig Fehler behafteten, Daten verglichen werden.

Material und Methoden

Ziel ist die empirische Evaluation der folgenden Verfahren:

  • Record Linkage nach Fellegi-Sunter mit Berechnung der Parameter nach dem EM-Verfahren
  • Entscheidungsbäume nach CART mit den Erweiterungen Bagging und Boosting
  • FEBRL (Freely Extensible Biomedical Record Linkage): einfaches Verfahren zum klassischen Record Linkage
  • Support Vector Machines
  • Epilink: String-Metriks-Verfahren zur Berechnung der Gewichte im klassischen Record Linkage

Die Bewertung der zur untersuchenden Verfahren basiert auf sekundären Daten, die hinsichtlich ihrer Struktur geeignet aufbereitet werden. Die Gewinnung von Primärdaten durch selbst initiierte Experimente hat zwar den Vorteil der Datenerhebung unter standardisierten und kontrollierten Bedingungen und damit der Einflussnahme auf die Qualität der Daten, ist jedoch mit hohem Aufwand verbunden und birgt die Gefahr von Response-Bias, weil ein besonderer Experimentationsrahmen notwendig ist, um die wahren Homonyme und Synonyme zur Bewertung der Verfahren zu identifizieren. Die zu verwendenden Daten dienen dabei sowohl der Kalibrierung der Parameter in den Modellen (Testdaten) als auch der vergleichenden Evaluation.

Nach einer kurzen Vorstellung der Verfahren, wird die Datenmenge beschrieben. Die Struktur der verwendeten Daten entspricht der von Individualdaten aus dem Kontext von iterativ eingefügten Patientendaten eins Krebsregisters.

Zum einen werden künstliche Daten betrachtet, die auf Basis des Datengenerierungsmoduls von FEBRL erstellt werden und Fehlerraten entsprechend der statistisch ermittelten empirischen Wahrscheinlichkeiten innerhalb des betrachteten Anwendungskontextes aufweisen. Zum anderen erfolgt eine Auswahl realer Daten.

Für die zu bildenden Datensatzpaare wird zwischen binären und “fuzzy“ Vergleichsmustern unterscheiden. Der Begriff fuzzy bedeutet hier, dass die gebildeten Vergleichsmuster Werte von Zeichenkettenvergleichen auf den gebildeten Datensatzpaaren repräsentieren.

Um zusätzlich den Einfluss des Anteils von realen Duplikaten an den Gesamtdaten auf die Ergebnisse der Verfahren zu untersuchen, werden zusätzlich die beiden Duplikaten-Anteile 1:20 beziehungsweise 1:5 in den Daten festgelegt.

Ergebnisse

Die jeweils mittels zehnfacher Kreuzvalidierung gewonnenen Ergebnisse sind sowohl tabellarisch als auch graphisch angegeben, wobei die graphische Darstellungen nur für einfache und gestutzte Entscheidungsbäume angegeben werden kann und in diesen Kontexten einerseits Einblick in die Struktur der Entscheidungsbäume anhand der resultierenden graphischen Bäume und andererseits Grundlage für die Auswahl der Werte für den Komplexitätsparameter (CP) anhand der graphischen Darstellung der Abhängigkeit des relativen Klassifikationsfehler vom Komplexitätsparameter liefern sollen. Es hat sich herausgestellt, dass die Entscheidungsbäume in der Kreuzvalidierung sehr stabil sind und nur Änderungen in der Anzahl der Objekte in den Blättern auftreten, so dass im Folgenden jeweils ein graphischer Repräsentant für die Struktur des Entscheidungsbaumes und des Komplexitätsparameters angegeben wird.

Für alle Verfahren erfolgt die Darstellung der Klassifikationsleistung zudem mit Hilfe von Vierfeldertafeln, die die Gesamtanzahl an richtig und falsch klassifizierten Daten angeben. Dabei geben die Zeilenvariablen den wahren Status (t=True oder f=False) und die Spaltenvariablen den geschätzten Status (ebenfalls t=True oder f=False) an. Die sich daraus ergebenden Kennzahlen wie Recall, Precision und die Fehlerwahrscheinlichkeiten dienen dem Vergleich der Verfahren. Die Variation der Ergebnisse wird durch die Berechnung von Medianen, Interquartilsabständen sowie für den zusammenfassenden Verfahrensvergleich anhand der Bewertungskriterien

  • Alpha- und Beta-Fehler
  • Accuracy
  • Precision
  • Recall
  • Spezifität
  • Negativer Vorhersagewert

am Ende der Ergebnisdarstellung mittels Box-Plots erfasst.

Diskussion

Es wird zu erörtern sein, ob und warum Zeichenkettenvergleiche, der Anteil der Duplikate an den Gesamtdaten und die Art der Vergleichsmuster einen Einfluss auf die Ergebnisse der einzelnen Verfahren haben. Zudem soll besprochen werden, inwieweit die Ergebnisse verallgemeinerungsfähig sind.