Artikel
Interoperabilität und Machine Learning in der Analyse von MC4R-Genmutationen für monogene Adipositas
Suche in Medline nach
Autoren
Veröffentlicht: | 6. September 2024 |
---|
Gliederung
Text
Einleitung: Mutationen im Melanocortin-4-Rezeptor-Gen (MC4R) führen zu der seltenen Erkrankung einer monogener Adipositas. Zu den Symptomen zählen schwere, frühmanifestierte Adipositas, Hyperphagie und gesteigertes Längenwachstum. Heterozygote Mutationen gelten als wichtiger genetischer Risikofaktor für die Entwicklung von Adipositas. In dieser Studie wurden Daten von 98 Patienten mit einer heterozygoten Variante des MC4R-Gens analysiert, die in der pädiatrischen Endokrinologie der Charité-Universitätsmedizin Berlin behandelt wurden. Die Daten wurden zunächst in einem tabellarischen Format ohne Nutzung internationaler Standards erfasst und anschließend in GA4GH Phenopackets transformiert, ein interoperables Format, das die Wiederverwendbarkeit von Analysepipelines ermöglicht. Unsere Arbeit unterstreicht die Bedeutung der FAIRen Nutzung und Erhebung von Daten zu seltenen Erkrankungen, da sie die Mehrfachnutzung von Analyseskripten ermöglicht und somit eine effiziente Nutzung in klinischen Registern und weiteren Forschungsanwendungen fördert.
Methoden: Die Analyse umfasste den longitudinalen Body Mass Index (BMI) und die entsprechenden genetischen MC4R-Varianten (c.HGVS). Die funktionelle Charakterisierung der genetischen Daten basierte auf zuvor publizierten Daten und den ACMG-Kriterien. Der Datenverarbeitungsprozess beinhaltete die Erfassung in Excel, die Organisation in REDCap, den Export in Phenopackets und die Übertragung in ein Machine-Learning-Analyse-Skript. Untersucht wurden die Korrelation von Phänotypen mit spezifischen genetischen Varianten (c.HGVS) und die Entwicklung prädiktiver Modelle, um Risiken für verschiedene Adipositas-Klassen zu identifizieren. Die prädiktiven Modelle, entwickelt zur Vorhersage des Gewichtsverlaufs basierend auf verschiedenen MC4R-Mutationen, wurden in einem 70/30-Train-Test-Split trainiert und evaluiert.
Ergebnisse: Die modulare Entwicklung der Transformationspipeline und der Analyse-Skripte stellt deren Wiederverwendbarkeit und Anpassbarkeit sicher. Für die Datenaggregation aus Phenopackets wurde ein tabellarisches Format verwendet. Patienten mit mehreren Varianten wurden als einzelne Variablen behandelt, was eine Unterscheidung zwischen Patienten mit einer oder mehreren Varianten ermöglichte. Die selektive Datenverarbeitung für ML-Anwendungen erfüllte die Anforderungen von Scikit-Learn. Der entwickelte ML-Algorithmus ermittelte das optimale Klassifikationsmodell zur Vorhersage von Phänotypen, das mit einem 70/30-Train-Test-Split trainiert und evaluiert wurde, allerdings ohne Validierungsdatensatz. Das Modell kann für die Entwicklung weiterer Phenopacket-basierter Analyse-Skripte verwendet werden, die zukünftig zur Vorhersage von Phänotypen basierend auf genetischen Varianten eines Patienten dienen.
Diskussion: Die Ergebnisse wurden mit früheren Studien zum MC4R-Gen und den ACMG-Klassifikationen verglichen. Durch den modularen Entwicklungsansatz kann die Software auf weitere Datensätze, Krankheiten und klinische Fragestellungen ausgeweitet werden. Die Aufbereitung der Daten in interoperable Formate erleichtert die Wiederverwendung in Sekundäranwendungen, wie der Übertragung ins Nationale Register für Seltene Erkrankungen. Die Einhaltung der FAIR-Prinzipien ist essentiell für die Forschung und Versorgung bei seltenen Erkrankungen, da diese Daten oft unpräzise und verstreut vorliegen. Die Daten wurden innerhalb REDCap gemäß den Vorgaben des MII-KDS erhoben, um die Mehrfachnutzung wie der Anbindung an die DIZ mithilfe von REDCap-Modulen ermöglichen. Unsere Pipeline und Analysealgorithmen basieren auf FAIRen Datenmodellen (GA4GH Phenopackets und MII-KDS), die die Entwicklung wiederverwendbarer Analysepipelines für die klinische Anwendung ermöglichen. Ein Vergleich mit anderen Datenmodellen wie OMOP könnte weitere Einblicke bieten. Das Hauptresultat dieser Arbeit ist der entwickelte Analysealgorithmus auf Basis der GA4GH Phenopackets, der zeigt, wie wiederverwendbare FAIRe Analysepipelines aussehen können.
Schlussfolgerung: Diese Studie unterstreicht die Wichtigkeit der genetischen Forschung bei seltenen Erkrankungen und die Notwendigkeit, standardisierte und wiederverwendbare Datenformate zu nutzen, um die Forschung, Behandlung und das Verständnis seltener Erkrankungen zu verbessern.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass ein positives Ethikvotum vorliegt.
Literatur
- 1.
- Jacobsen JOB, Baudis M, Baynam G, Beckmann JS, Beltrán S, Buske OJ, et al. The GA4GH Phenopacket schema defines a computable representation of clinical data. Nature Biotechnology. 2022;40(6):817–20. DOI: 10.1038/s41587-022-01357-4
- 2.
- Lehne M, Saß J, Essenwanger A, Schepers J, Thun S. Why digital medicine depends on interoperability. Npj Digital Medicine. 2019;2(1):79. DOI: 10.1038/s41746-019-0158-1
- 3.
- Seelig E, Henning E, Keogh JM, Gillett D, Shin E, Buscombe JR, et al. Obesity due to melanocortin 4 receptor (MC4R) deficiency is associated with delayed gastric emptying. Clinical Endocrinology. 2021;96(2):270–5. DOI: 10.1111/cen.14615
- 4.
- Schepers J, Fleck JL, Schaaf J. Die Medizininformatik-Initiative und Seltene Erkrankungen: Routinedaten der nächsten Generation für Diagnose, Therapiewahl und Forschung. Bundesgesundheitsblatt, Gesundheitsforschung, Gesundheitsschutz. 2022;65(11):1151–8. DOI: 10.1007/s00103-022-03606-y
- 5.
- Van der Klaauw AA, Farooqi IS. The Hunger Genes: Pathways to Obesity. Cell. 2015;161(1):119–32. DOI: 10.1016/j.cell.2015.03.008