gms | German Medical Science

FAIR Metadaten zur Beschreibung der Auffindbarkeit von Datensätzen

Meeting Abstract

Suche in Medline nach

  • Matthias Löbe - Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig
  • Christian Henke - Institut für Medizinische Informatik, Universitätsmedizin Göttingen
  • Alessandra Kuntz - Institut für Medizinische Informatik, Universitätsmedizin Göttingen
  • Ulrich Sax - Institut für Medizinische Informatik, Universitätsmedizin Göttingen
  • Alfred Winter - Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig
  • Taskforce Metadaten der Medizininformatikinitiative - TMF - Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V.

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP13

doi: 10.3205/22smith24, urn:nbn:de:0183-22smith248

Veröffentlicht: 31. Januar 2023

© 2023 Löbe et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung und Zielstellung: Die Nachnutzung medizinischer Daten aus Forschung und Versorgung ist das erklärte Ziel vieler aktueller Bemühungen, auch der Medizininformatik-Initiative (MII). In der laufenden Förderphase stand primär der Aufbau der Datenintegrationszentren (DIZ) im Fokus und damit die Anbindung der klinischen Primärsysteme, die Transformation in die Strukturen des abgestimmten Kerndatensatzes und das Befüllen der Datenspeicher, z.B. der FHIR-Server. Die schwierige und in diesem Maßstab noch nicht versuchte Aufgabe erlaubte noch keine Nutzung der Datenkörper über prototypische Abfragen im Rahmen der MII-Projectathons hinaus. Kleinere Datenausleitungsprojekte wurden an der eigentlichen Informationsinfrastruktur vorbei bedient.

Inzwischen ist jedoch die Mehrzahl der DIZ an die zentralen Strukturen des Forschungsdatenportals Gesundheit (FDPG) angeschlossen und auch die organisatorischen Rahmenbedingungen zur Annahme von Anträgen auf Datennutzung und zur Bereitstellung der Daten wurden etabliert. Mit der nun möglichen Automatisierung wird auch die Zahl der Datennutzungsprojekte deutlich zunehmen und damit die Notwendigkeit der Verwaltung und Beschreibung der Datensätze durch repräsentative Metadaten. So sollten aus Gründen der Nachverfolgbarkeit und Reproduzierbarkeit ausgeleitete Datensätze archiviert und ggfs. weiteren interessierten Forschern zugänglich gemacht werden. Ein abgestimmtes Metadatenschema würde Datensätze hinsichtlich relevanter Faktoren (enthaltener Datenkranz, Aktualität, Lizenzen, Länge des Datenerhebungsintervalls, Anzahl enthaltener Samples) erkennbar und vergleichbar machen. Vorerfahrungen aus dem Leipzig Health Atlas (LHA) [1] belegen die Notwendigkeit solcher Metadaten für effiziente Such- und Filteroptionen. Andererseits muss der Aufwand für die Bereitstellung der Metadaten in einem gesunden Verhältnis zum Nutzen stehen, da die datenproduzierenden Stellen nicht direkt von der Bereitstellung profitieren. Die Problematik wird sich verstärkt auch auf anderen Gebieten, wie der Berichtspflicht der DIZ (intern), der Bereitstellung von Datenpaketen für Infrastrukturen wie der European Open Science Cloud (EOSC), dem Europäischen Raum für Gesundheitsdaten (EHDS) oder als Anhang für wissenschaftliche Publikationen (Datenpublikationen) stellen, wo die eigentlichen Datensätze sicher und dauerhaft im DIZ verbleiben. Nicht zuletzt sollen im Zuge der Bemühungen für eine Stärkung der Patientenpartizipation Beitragende über die Verwendung ihrer Daten informiert werden, was in der MII im Broad Consent festgelegt wurde.

Methoden: Die Entwicklung des Metadatenschemas (MDS) verfolgte verschiedene Ziele. Erstens sollte es vom Umfang her überschaubar und damit auch für Nichtexperten handhabbar sein, weil nicht davon ausgegangen werden kann, dass Datenproduzenten nennenswerte Ressourcen in die Auszeichnung mit Metadaten investieren werden. Daher kommen vor allem solche Datenelemente in Frage, die instantan beigebracht werden können. Auf der anderen Seite wurde untersucht, welche Metadaten für die potenziellen Datenkonsumenten besonders interessant sind. Hier wurden existierende Datenrepositorien im internationalen Kontext recherchiert und ausgewertet. Die dritte wesentliche Achse stellt die Einbettung der Datenelemente in bestehende (gröbere) Metadatenschemata dar, um nicht eine proprietäre Lösung zu erstellen, deren Durchdringung in der Community nicht wahrscheinlich wäre. Zusätzlich lassen sich dadurch leicht maschinenlesbare Serialisierungen in populären Formaten wie JSON oder RDF realisieren, die dann als API exponiert werden können. Ein wichtiger Punkt ist die Beachtung der FAIR-Prinzipien, insbesondere die Verwendung community-konsentierter Vokabulare und Wertelisten.

Wesentliche Arbeiten wurden im Rahmen des DFG-Projekts NMDR2 durchgeführt; dabei wurde neben der Beschreibung von Datensätzen auch die Datenqualität und die Provenance (Datenherkunft) betrachtet und entsprechende Vokabulare erstellt [2].

Ergebnisse und Diskussion: Das entstandene MDS umfasst 27 Elemente in 7 Domänen (Bezeichnung und Definition, Identifikation, Datum und Zeit, Personen und Rollen, Zugriff und Nutzung, Repräsentation, Kontext). Als relevantes Basismetadatenschema wurde das W3C Data Catalog Vocabulary (DCAT) genutzt, welches eine große Verbreitung in Forschungsdatenmanagementsystemen gefunden hat, allerdings nur im Einzelfall im Bereich der Medizin [3]. Einflussreich waren auch Dublin Core und DataCite. Die 27 Elemente decken aus Sicht der Autoren die geforderten relevanten Domänen ab und wurden in der Taskforce Metadaten bzw. der AG Interoperabilität der MII diskutiert bzw. vorgestellt. Eine umfassende Evaluierung steht jedoch aus.

Eine Implementierung des Schemas ist aktuell noch nicht erfolgt. Es ist geplant, die Spezifikation den DIZ und dem FDPG zur Kommentierung vorzulegen und eine MII-übergreifende Version abzustimmen. Des Weiteren sollen die Arbeiten in die Nationale Forschungsdateninfrastruktur für personenbezogene Gesundheitsdaten (NFDI4Health) eingebracht werden. Die Erwartung ist, dass hier die Vorteile einer domänenneutralen Einbettung über DCAT wegen dem Querbezug zu anderen NFDIs deutlich zum Tragen kommen. Eine weitere Anwendung erfolgt in der HL7 Arbeitsgruppe FHIR for FAIR, welche einen Implementierungsleitfaden erstellt (http://hl7.org/fhir/uv/fhir-for-fair/), der die Auffindbarkeit von Forschungsvorhaben und Datensätzen standardisieren und verbessern soll.

Ausblick: In Deutschland existieren viele Forschungsdatenzentren und Forschungsvorhabensregister, die zum allergrößten Teil nur von menschlichen Anwendern nutzbar sind, die einerseits bereit sind, sich in die unterschiedlichen Kataloge einzuarbeiten und andererseits diese Repositorien überhaupt erst einmal kennen. Der Aufwand für Pflege und Nutzung ist hoch. Wünschenswert im Sinne der Nachnutzung von Forschungsdaten, wie sie auch von den Förderern immer stärker thematisiert wird, sind klare, maschinenlesbare Metadaten und Wertelisten, die eine automatisierte, föderierte Suche nach Datensätzen unterstützen. Darauf aufbauend müssen Werkzeuge entwickelt werden, die solche Metadaten intuitiv erfassen oder deduktiv erschließen und über Schnittstellen nutzbar machen, ohne epische Erfassungsmasken vorauszusetzen.


Literatur

1.
Kirsten T, Meineke F, Löffler-Wirth H, Uciteli A, Beger C, Stäubert S, Löbe M, Hänsel R, Rauscher FG, Schuster JC, Peschel T, Herre H, Wagner J, Zachariae S, Engel C, Scholz M, Rahm E, Binder H, Löffler M. The Leipzig Health Atlas -- An open platform to present, archive and share bio-medical data, analyses and models online. Methods Inf Med. 2022 Aug 1. DOI: 10.1055/a-1914-1985 Externer Link
2.
Henke C, Graf L, Kuntz AS, Sax U, Löbe M, Ulrich H. The way data flows: Current provenance options in collaborative research. 67. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 13. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF); 2022 Aug 21-25; online. Düsseldorf: German Medical Science GMS Publishing House; 2022. DOI: 10.3205/22GMDS023 Externer Link
3.
Löbe M, Ulrich H, Beger C, Bender T, Bauer C, Sax U, Ingenerf J, Winter A. Improving findability of digital assets in research data repositories using the W3C DCAT vocabulary. Stud Health Technol Inform. 2022 Jun 6;290:61-5. DOI: 10.3233/SHTI220032 Externer Link
4.
Martínez-García A, Cangioli G, Chronaki C, Löbe M, Beyan O, Juehne A, Parra-Calderón CL. FAIRness for FHIR: Towards making health datasets FAIR using HL7 FHIR. Stud Health Technol Inform. 2022 Jun 6;290:22-6. DOI: 10.3233/SHTI220024 Externer Link