gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Einfluss von Varianten des anonymen Record Linkage auf Gewichtsverteilung und Klassifikation

Meeting Abstract

Suche in Medline nach

  • Daniel Nasseh - Ludwig-Maximilians-Universität München, München, DE
  • Jürgen Stausberg - Ludwig-Maximilians-Universität München, München, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.109

doi: 10.3205/13gmds058, urn:nbn:de:0183-13gmds0584

Veröffentlicht: 27. August 2013

© 2013 Nasseh et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Bei der Analyse medizinischer Daten kann es notwendig sein, Datensätze verschiedener Quellen zusammenzuführen. Meist geschieht dies über den Abgleich gemeinsamer Attribute der Beobachtungseinheiten. Entsprechend der Ähnlichkeit der Attributausprägungen werden Gewichte berechnet und zu einem Gesamtgewicht zusammengefasst. Über zwei Schwellenwerte werden Datenpaare als Link, Non-Link bzw. möglicher Link klassifiziert, welche schließlich manuell bewertet werden. Diese Methodik wird als Record Linkage bezeichnet. Schwieriger gestaltet sich das anonyme Record Linkage, das mit Datensätzen arbeitet, die datenschutzrechtlichen Beschränkungen unterliegen. Ein Beispiel hierfür ist die Studie „Familien schützen & stärken“ zu familiärem Darmkrebs, bei der neuerkrankte Patienten und deren Angehörige mit registrierten Patienten des Tumorregisters München abgeglichen werden [1]. Dieser Abgleich erfolgt nicht im Klartext, sondern pseudonymisierten Attributswerten. Hierdurch ist eine manuelle Nachkontrolle möglicher Links nicht durchführbar, wodurch lediglich eine binäre Klassifikation möglich ist. In Voruntersuchungen zur Studie wurde beobachtet, dass bereits geringe Modifikationen bei der Konfiguration des Record Linkage die Gewichte und folglich auch die Klassifikation stark beeinflussen können. Um dies und generelle Schwachstellen unüberwachter Klassifikationsmethoden offenzulegen wurden drei mögliche Varianten eines Record Linkage ausgewählt und auf verschiedene Testsets angewendet.

Material und Methoden: Ein konfigurierbares Record Linkage System, nach Felligi und Sunter [2], wurde in Java implementiert. Die Konfigurationen unterscheiden sich im Blocking sowie einer Nachbearbeitungstechnik, die in dieser Arbeit als Multi-Link-Cleaning bezeichnet wird (MLC). Blocking dient der Reduktion der Anzahl der Datenvergleiche, indem ausschließlich Einträge, die in gewählten Blocking-Variablen übereinstimmen, weiter betrachtet werden. Hierbei wurde sich zum einem für eine Variante entschieden, die Gewichte bei Übereinstimmung mehrerer Blocking-Variablen mehrfach speichert, zum anderem für eine Variante ohne mehrfachem Vorkommen von Datenpaaren und ihrer Gewichte. Bei der dritten Konfigurationsmöglichkeit werden Links mit dazugehörigen Gewichten, die Einträge enthalten, die bereits in höher gewichteten Links enthalten sind, entfernt (MLC). Das Linking wurde auf einem öffentlich zugänglichem [3] und einem künstlich erzeugten Testset durchgeführt. Zu den sechs durchgeführten Experimenten wurden Gewichtsdaten erstellt und als Histogramme visualisiert. Histogramme eignen sich zur Untersuchung, da Klassifizierer basierend auf unüberwachtem Lernen Klassenränder bei breiten Lücken bzw. Tiefpunkten vorhersagen.

Ergebnisse: Die Ergebnisse zum öffentlichen Testset veranschaulichen, dass es mehrere ausgeprägte Lücken bzw. Tiefpunkte geben kann. Die Gefahr einer starken Fehlklassifikation ist hierbei unumgänglich da unüberwachte Klassifikationssysteme die binäre Klassengrenze innerhalb einer dieser Lücken ansiedeln, was jedoch bei der Vielzahl an Lücken nicht die richtige Vorhersage sein muss. Anhand der Ergebnisse zu den künstlichen Daten zeigt sich, dass eine Klassifikation in den verschiedenen Varianten unterschiedlich schwer fällt. Während in den ersten beiden Varianten ein ausgeprägter Tiefpunkt erkennbar ist, ist dieser bei Nutzung des MLCs nicht mehr zu erkennen.

Diskussion: Binäre Klassifikation basierend auf unüberwachtem Lernen birgt die Gefahr suboptimale Klassengrenzen vorherzusagen. Bei Unklarheit kann es hilfreich sein, mehrere Konfigurationen auszuwerten. Um der Problematik besser entgegenzutreten würden sich Weiterentwicklungen im Bereich des überwachtem Lernen anbieten, da dieses von den Gewichtsdateien unabhängig ist. Die Schranken werden hier basierend auf bereits klassifizierten Trainingssets, die den original Daten strukturell ähnlich sind, vorhergesagt. Um der fehlenden Verfügbarkeit dieser Trainingssets gegenüberzutreten wäre ein möglicher Ansatz die Trainingssets basierend auf ausgewählten Parametern der Orginalsets zu konstruieren.


Literatur

1.
Mansmann U, Stausberg J, Engel J, Heussner P, Birkner B, Maar C. Familien schützen und stärken – Umgang mit familiärem Darmkrebs. Gastroenterologe. 2012: 161-162.
2.
Felligi I, Sunter A. A theory of Record Linkage. American Statistical Association Journal. 1969: 1183-1220.
3.
Cohen W, Ravikumar P, Fienberg S, Kathryn R. Secondstring.sourceforge.net [Internet]. [cited 2013 Apr 04]. Available from: http://secondstring.cvs.sourceforge.net/viewvc/secondstring/secondstring/. Externer Link