Artikel
Reproducible Research: Die Gefahr der Vererbung von Fehlern in der Wissenschaft beim Maschinellem Lernen
Suche in Medline nach
Autoren
Veröffentlicht: | 6. September 2024 |
---|
Gliederung
Text
Motivation: Auch 30 Jahre nach der BMJ Serie „The scandal of poor medical research“ stellen systematische Fehler weiter ein Problem dar. Aktueller Auslöser zu dem Workshop war ein Vorfall in einem Forschungsprojekt, in dem das R-Package CARET eingesetzt wurde. Bei einer Masterarbeit fiel ein nicht plausibles Ergebnis auf. Einer ersten Reaktion - „Lass den Teil weg!“ - folgte eine Zweite: Die systematische Fehlersuche, Analyse, Korrektur und Aufarbeitung. Das Ergebnis war, dass es in dem R-Package CARET in einer bestimmten Konstellation zu einem falschen Aufruf des R-Package nnet und damit zu falschen Ergebnissen kommt. Der Fehler wurde korrigiert. Der Einsatz von CARET ist weit verbreitet: Es gibt 14.136 Treffer bei Scopus und 154.000 bei Google Scolar für „caret“, 2.200 Trefffer für „caret with nnet“. Die Betrachtung einer ersten Auswahl an Publikationen mit Peer-Review und Open Data zeigte, dass die auf diesem Feher beruhenden falschen Ergebnisse auch publiziert wurden und durch eine Neuberechnung mit einem korrigierten Code ein erwartbareres Ergebnis rauskam. Die Folgen des Fehlers werden derzeit systematisch untersucht und aufgearbeitet. Die (ersten, ggf. bereits publizierten) Ergebnisse werden in dem Workshop vorgestellt.
Fehler in der Forschung sind unvermeidlich. Durch die Wiederverwendung von Software und Daten in der Forschung bekommen unentdeckte Fehler eine größere Reichweite [1], [2], [3], [4]. Eine besondere Bedeutung bekommt dies beim Einsatz von Methoden des Maschinellen Lernens, bei dem auf der einen Seite die Ergebnisse nicht oder nur sehr schwer von Menschen nachvollzogen werden können, zum anderen aber auch die mit Fehlern im Code oder einem BIAS in den Daten trainierte „Algorithmen“ (z.B. Neuronale Netze) weitergegeben werden. Werden die KI-Modelle in Medizinischer Software wie zum Beispiel Entscheidungsunterstütztenden Systemen (CDSS) eingesetzt, bekommt dies mittelbare oder unmittelbare Relevanz für die Krankenversorgung.
Themen des Workshops: Der Workshop bietet eine Plattform für einen interdisziplinären Austausch zwischen (klinischer) Epidemiologie, Research Software Engineering und Medical Software Engineering. Dabei sollten folgende Fragen diskutiert werden:
- Wie groß sind die realen Risiken für die Forschungsqualität (Verlässlichkeit und Reproduzierbarkeit der Ergebnisse), sowie der Patientensicherheit in der Versorgung??????
- ?Welche Methoden zur Fehlervermeidung, Fehlererkennung und Mitigierung von resultierenden Risiken gibt es, welche werden angewandt?
- Welche Methoden sind notwendig, welche sind angemessen?
- Wie können die Methoden weitere ntwickelt werden?
- Wie können die Methoden in eine flächendeckende Anwendung gebracht werden?
Moderation: Rainer Röhrig, Dagmar Krefting
Impulsvorträge:
- ?????Einfluss eines Fehlers im CARET-Package auf die Wissenschaft (Behrus Puladi, Autor Fehleranalyse)
- Was kann man mit welchen Daten machen? (Anfrage: André Scherag / Peter Heuschmann, EVA4MI-I)
- Datenqualitätsassessments und Initiale Datenanalyse (Carsten Oliver Schmidt, FA Epidemiologie, TMF AG Datenqualität und Transparenz)
- Continoius Integration & Dependencies Tracking - Stand der Technik im Bereich Research Software Engineering (Anfrage: Dagmar Krefting, de.RSE)
- Welche Folgen hat dies für die klinische Bewertung und die Marktbeobachtung von CDSS, bzw. Medical Device Software? (Myriam Lipprandt, TMF AG MSM, fit4translation)
Ablauf: 60 min Vorträge, 30 min Diskusison
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
Literatur
- 1.
- Altmann DG. The scandal of poor medical research. BMJ. 1994 Jan 29;308(6924):283-4. DOI: 10.1136/bmj.308.6924.283
- 2.
- Eklund A, Nichols TE, Knutsson H. Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. Proc Natl Acad Sci USA. 2016 Jul 12; 113 (28): 7900–7905. DOI: 10.1073/pnas.1602413113
- 3.
- Eklund A, Nichols TE, Knutsson H. Correction for Eklund et al., Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. Proc Natl Acad Sci USA. 2016 Aug 8;113(33):E492. DOI: 10.1073/pnas.1612033113
- 4.
- Janssen C, Krefting D. Reproduzierbarkeit eines Deep Learning Verfahrens zur Bestimmung von Schlafphasen. In: Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie, Hrsg. 64. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Dortmund, 08.-11.09.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. DocAbstr. 300 DOI: 10.3205/19gmds068