Article
Was hilft zu unterscheiden? Synthetische Datensätze zum Training von künstlicher Intelligenz aus hausärztlichem Expertenwissen zu respiratorischen Infekten
Search Medline for
Authors
Published: | September 23, 2024 |
---|
Outline
Text
Hintergrund: KI-Anwendungen benötigen für das Training gesicherte Ground-Truth – etwa für die Unterscheidung unterschiedlicher Ursachen für respiratorische Symptome. Erfahrene Hausärzte und Hausärztinnen treffen diese Unterscheidung aufgrund der klinischen Angaben zu Krankheitszeichen und einer erfahrungsgestützten inneren Repräsentanz von Verlaufstypologien. Für das Training von KI zur Unterstützung der Entscheidungsfindung, etwa bei Delegation an nicht-ärztliche Fachberufe fehlen in Literatur, Forschung und Praxisdokumentation die benötigten Daten. Zahlreiche Patienten täglich über 14 Tage zu 32 Symptomen zu befragen ist aufwändig und unrealistisch.
Fragestellung: Lässt sich aus synthetischen Ground-Truth simulierten Datensätzen das Expertenwissen erfahrener Hausärztinnen und Hausärzten mittels KI herauszufinden, welche minimal erforderliche Information in der Praxis für echte Ground-Truth-Datensätze erhoben und gespeichert werden müsste?
Methoden: Aus strukturierten Interviews mit zehn erfahrenen Hausärztinnen und Hausärzten erstellten wir drei Symptom-X-Tage Matrizen zur a) erwarteten Häufigkeit eines Symptoms an einem bestimmten Tag, b) dem durchschnittlichen Schweregrad und c) der zu erwartenden Variabilität zwischen Betroffenen für Covid-19, Influenza, bakterielle Tonsillitis, unkomplizierter viraler Infekt (Erkältung), bakterielle Pneumonie oder EBV-Infektion. Die Matrix enthielt insgesamt 34 Symptome von Rhinorrhoe, Fieber oder Husten bis hin zu Zyanose. Als Tag 1 galt der erste Tag der Symptome. Per deterministischem Zufallsgenerator generierten wir je 1.000 simulierte Ground-Truth Datensätze für die acht Erkrankungen. Ein Drittel der Datensätze fungierte als Trainingsdatensatz für die KI, zwei Drittel als Validierungsdatensatz.
Ergebnisse: Die KI benötigte für eine 95%-ige Treffsicherheit der richtigen diagnostische Zuordnung folgende minimale Daten: Beginn der Symptome, die fünf wichtigsten Symptome (d.h. höchste Intensität) an zwei aufeinanderfolgenden Tagen sowie die Intensität der Symptome nicht nur binär, sondern in fünf Intensitätsabstufungen.
Diskussion: Die synthetischen Datensätze erlaubten, die benötigte Information aus der Praxis für zukünftige reale Trainingsdatensätze für eine KI zu minimieren.
Take Home Message für die Praxis: Die vorgestellte Methode zeigt, wie simulierte Datensätze, generiert aus realem Expertenwissen es ermöglichen, mittels KI herauszufinden, welche minimalen Informationen für tatsächliche KI-basierte Entscheidungsunterstützung bei häufigen Behandlungsanlässen mit Delegationspotenzial benötigt werden.