Artikel
Analyse Medizinischer Datenmodelle – Identifikation gemeinsamer Konzepte zur Analyse des Wiederverwendungspotentials
Suche in Medline nach
Autoren
Veröffentlicht: | 27. August 2013 |
---|
Gliederung
Text
Einleitung und Fragestellung: Die Medizinische Dokumentation ist sehr umfangreich und enthält zudem viele redundante Dokumentationsobjekte. Im Rahmen verschiedener Single-Source Projekte stellt sich immer wieder die Frage, welche Daten besonders häufig dokumentiert werden und welche Elemente stark kontextabhängig (z.B. bestimmte Studien) und somit eher selten sind. Bisherige Analysen zu diesem Thema beschäftigen sich meist mit wenigen Formularen innerhalb einer bestimmten Domäne. Durch das Portal Medizinischer Datenmodelle [1], das im letzten Jahr als Quelle für Formulare vorgestellt wurde und seitdem mehr als 3.500 Formulare im ODM-Format [2] zur Verfügung stellt, eröffnen sich neue Möglichkeiten für die Häufigkeitsanalyse medizinischer Elemente. Weitere Vorteile ergeben sich dadurch, dass ein Großteil der Formulare Attribute enthält, die bereits mit Konzept-Codes aus Terminologien wie UMLS oder dem NCI Thesaurus [3] codiert sind. So können Elemente auch sprachübergreifend betrachtet werden. In der hier durchgeführten Analyse sollen die gebräuchlichsten Elemente aus echten medizinischen Formularen dieses Portals ermittelt werden.
Material und Methoden: Am 05. November 2012 wurden alle Formulare als csv-Dateien exportiert. Mit Hilfe von SPSS [4] wurde in Form von deskriptiven Statistiken ermittelt, wie viele Formulare, Elemente und Konzepte zu diesem Zeitpunkt im Portal verfügbar waren und was die am häufigsten genutzten Code-Systeme, Codes und Datentypen waren. Von jeder Kategorie werden die Top-Elemente präsentiert.
Ergebnisse: Zum Analyse-Zeitpunkt waren 3.320 Formulare mit insgesamt 102.677 Elementen im Portal vorhanden (Mittelwert: 29, Minimum: 1, Maximum 478). Mehr als 84% der Elemente sind mit mindestens einem Code versehen. Diese Codes stammen am häufigsten aus dem UMLS (> 88.000 Elemente) und aus dem NCI-Thesaurus (> 80.000 Elemente). Die Analyse der Datentypen ergab, dass mit 72% ein Großteil der Elemente vom Datentyp String ist (es folgen Date mit 12% und Double mit 11%). Hier muss man jedoch berücksichtigen, dass auch strukturierte Wertebereichslisten hier als Strings hinterlegt sind. Als häufigste Datenelemente wurden auf Basis der String-Vergleiche „Patient Initials Name“ (1.858 Vorkommen), „Research Comments Text“ (1321 V.) und „Patient Participating Identifier Number“ (1.074 V.). Wenn man die gleiche Suche nun auf Basis von UMLS-Code durchführt finden sich Elemente wie „Identifier“ (9.037 V.), „Result“ (2.991 V.) oder „Physical Examination“ (2.568 V.) unter den Top 3.
Diskussion: Die Analyse auf diesem großen Datensatz zeigt die Heterogenität der Formularlandschaft, da mehr als 20.000 Elemente in weniger als 10 Formularen eingesetzt werden. Auf der anderen Seite lassen sich Attribute identifizieren, die mehr als 1000-mal eingesetzt wurden. Im Portal erkennt man aktuell einen großen Anteil an Studienformularen und CRFs. Durch weitere Formulare aus dem Krankenhausbereich könnten hier die Aussagen noch besser verallgemeinert werden. Codierte Formulare erlauben detailliertere Analysen, die zugleich sprachunabhängig sind.
Literatur
- 1.
- Breil B, Kenneweg J, Fritz F, Bruland P, Doods D, Trinczek B, Dugas M. Multilingual Medical Data Models in ODM Format - a Novel Form-based Approach to Semantic Interoperability between Routine Healthcare and Clinical Research. Appl Clin Inf. 2012; 3:276-289.
- 2.
- CDISC. http://www.cdisc.org/
- 3.
- NCI. http://www.cancer.gov/
- 4.
- SPSS. http://www-01.ibm.com/software/de/analytics/spss/