gms | German Medical Science

Jahrestagung der Vereinigung Westdeutscher Hals-Nasen-Ohren-Ärzte 2025

07.03. - 08.03.2025, Solingen

Überprüfung der Repräsentativität eines ML-gestützten „Big Data“-Patientendatennetzwerks für zukünftige epidemiologische Sekundärdatenanalysen

Meeting Abstract

  • author presenting/speaker Franz Mitze - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
  • corresponding author Sabine Eichhorn - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
  • author Fritz Wagner - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
  • author Anne Stöckert - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
  • author Jonas J.-H. Park - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland

Vereinigung Westdeutscher HNO-Ärzte. Jahrestagung der Vereinigung Westdeutscher Hals-Nasen-Ohren-Ärzte. Solingen, 07.-08.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc33

doi: 10.3205/25wdhno33, urn:nbn:de:0183-25wdhno339

Published: March 6, 2025

© 2025 Mitze et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Die Digitalisierung der Medizin in Kombination mit wachsender Rechenleistung und kostengünstigen Speichermöglichkeiten schafft neue Potenziale für die Nutzung KI-gestützter Algorithmen in der Analyse von Big Data aus elektronischen Patientenakten. Ziel dieser Studie war es, die Repräsentativität eines maschinellen Lernens (ML)-basierten Datennetzwerks zu bewerten. Hierzu wurden Basisdaten dieses ML-Datennetzwerks mit öffentlich zugänglichen Daten des Statistischen Bundesamtes (DESTATIS) verglichen, um die wissenschaftliche Validität des Netzwerks für künftige epidemiologische Analysen zu prüfen.

Methoden: In einer retrospektiven Sekundäranalyse wurden 8.106.105 anonymisierte Datensätze aus dem ML-basierten Netzwerk und die entsprechenden Daten von DESTATIS auf Alter, Geschlecht, Krankenhausverweildauer sowie allgemeinen und HNO-spezifischen ICD-10- und OPS-Codes untersucht. Darüber hinaus erfolgte ein Vergleich von ICD-10-Codes im Zusammenhang mit Substanzmissbrauch sowie eine Analyse der regionalen Verteilung zur Prüfung sozioökonomischer Einflussfaktoren.

Ergebnisse: Die Analyse zeigte eine hohe Übereinstimmung zwischen den Variablen Alter, Geschlecht, Verweildauer, den häufigsten allgemeinen ICD-10- und OPS-Codes sowie den HNO-spezifischen OPS-Codes innerhalb vorab definierter Toleranzbereiche. Unter den häufigsten HNO-spezifischen ICD-10-Codes zeigten 2 von 11 Codes eine Abweichung von maximal 3,71 %. Die Untersuchung sozioökonomischer Einflussfaktoren und der regionalen Verteilung ergab keine relevanten Abweichungen zwischen den beiden Datensätzen.

Diskussion: Die Ergebnisse weisen auf eine hohe Repräsentativität des ML-Datensatzes im Vergleich mit den DESTATIS-Daten hin. Dies unterstreicht die wissenschaftliche Validität des ML-basierten Datennetzwerks als Grundlage für zukünftige epidemiologische Analysen. Durch die Nutzung von Big Data können zukünftig Erkenntnisse generiert werden, die mit herkömmlichen Datensätzen bisher nicht zugänglich waren.