Artikel
Überprüfung der Repräsentativität eines ML-gestützten „Big Data“-Patientendatennetzwerks für zukünftige epidemiologische Sekundärdatenanalysen
Suche in Medline nach
Autoren
Veröffentlicht: | 6. März 2025 |
---|
Gliederung
Text
Einleitung: Die Digitalisierung der Medizin in Kombination mit wachsender Rechenleistung und kostengünstigen Speichermöglichkeiten schafft neue Potenziale für die Nutzung KI-gestützter Algorithmen in der Analyse von Big Data aus elektronischen Patientenakten. Ziel dieser Studie war es, die Repräsentativität eines maschinellen Lernens (ML)-basierten Datennetzwerks zu bewerten. Hierzu wurden Basisdaten dieses ML-Datennetzwerks mit öffentlich zugänglichen Daten des Statistischen Bundesamtes (DESTATIS) verglichen, um die wissenschaftliche Validität des Netzwerks für künftige epidemiologische Analysen zu prüfen.
Methoden: In einer retrospektiven Sekundäranalyse wurden 8.106.105 anonymisierte Datensätze aus dem ML-basierten Netzwerk und die entsprechenden Daten von DESTATIS auf Alter, Geschlecht, Krankenhausverweildauer sowie allgemeinen und HNO-spezifischen ICD-10- und OPS-Codes untersucht. Darüber hinaus erfolgte ein Vergleich von ICD-10-Codes im Zusammenhang mit Substanzmissbrauch sowie eine Analyse der regionalen Verteilung zur Prüfung sozioökonomischer Einflussfaktoren.
Ergebnisse: Die Analyse zeigte eine hohe Übereinstimmung zwischen den Variablen Alter, Geschlecht, Verweildauer, den häufigsten allgemeinen ICD-10- und OPS-Codes sowie den HNO-spezifischen OPS-Codes innerhalb vorab definierter Toleranzbereiche. Unter den häufigsten HNO-spezifischen ICD-10-Codes zeigten 2 von 11 Codes eine Abweichung von maximal 3,71 %. Die Untersuchung sozioökonomischer Einflussfaktoren und der regionalen Verteilung ergab keine relevanten Abweichungen zwischen den beiden Datensätzen.
Diskussion: Die Ergebnisse weisen auf eine hohe Repräsentativität des ML-Datensatzes im Vergleich mit den DESTATIS-Daten hin. Dies unterstreicht die wissenschaftliche Validität des ML-basierten Datennetzwerks als Grundlage für zukünftige epidemiologische Analysen. Durch die Nutzung von Big Data können zukünftig Erkenntnisse generiert werden, die mit herkömmlichen Datensätzen bisher nicht zugänglich waren.