Article
Einstieg in Datenverarbeitung und Abfrage von Webservices mit OpenRefine
Search Medline for
Authors
Published: | September 16, 2022 |
---|
Outline
Text
Ziel dieses Workshops ist es, einen Einstieg in offene und reproduzierbare Arbeitsabläufe beim Umgang mit Daten zu vermitteln. Wir stellen dazu OpenRefine (https://openrefine.org/) vor, ein leistungsstarkes, kostenloses Open-Source-Tool. OpenRefine ermöglicht es, mit großen Datensätzen zu arbeiten, sie zu verstehen und zu bereinigen. Alle Verarbeitungsschritte werden dabei dokumentiert, so dass Arbeitsabläufe repliziert und mit anderen geteilt werden können. Darüber hinaus bietet OpenRefine einen vergleichsweise niedrigschwelligen Einstieg in die Abfrage von Webservices, beispielsweise um eigene Datensätze anzureichern.
Im Workshop werden wir die grundlegenden Funktionen von OpenRefine vermitteln, wie Datenimport, Aufbau der Benutzeroberfläche, Facettierung und Filterung sowie das Rückgängigmachen und Wiederholen von Arbeitsschritten. Dann stellen wir GREL (General Refine Expression Language) vor, die Programmiersprache, die in OpenRefine zur Transformation von Daten verwendet wird. Im Anschluss werden wir in die Abfrage von Programmierschnittstellen (Application Programming Interfaces, APIs) einsteigen: Wie funktionieren sie und wie kann man sie in OpenRefine nutzen? Als Beispiele werden wir uns die CrossRef API (https://github.com/CrossRef/rest-api-doc) und die E-utilities API (https://dataguide.nlm.nih.gov/eutilities/utilities.html) des NCBI, ansehen. Wir werden mit bibliografischen Daten wissenschaftlicher Artikel arbeiten und zeigen, wie man Metadaten wie den Zeitschriftentitel oder die PubMed-ID auf der Grundlage eines DOI abfragen kann. Wir stellen auch vor, wie man ausgehend von PubMed-IDs die hinterlegten Publikationstypen, Affiliations oder Similar Articles abruft. Am Ende werden wir kurz diskutieren, welche Anwendungsfälle die Teilnehmer*innen für ihre eigene Arbeit sehen.