gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Ein Vorschlag für ein "Phase I-IV"-Konzept zur Evaluation bildgebender Verfahren von begrenzter Reproduzierbarkeit

Meeting Abstract (gmds2004)

Suche in Medline nach

  • corresponding author presenting/speaker Frank Krummenauer - Institut für Medizinische Biometrie, Epidemiologie und Informatik der Universität Mainz, Mainz, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds094

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds094.shtml

Veröffentlicht: 14. September 2004

© 2004 Krummenauer.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Ein nicht zuletzt im biometrischen Consulting häufig auftretendes Problem ist die sachgerechte Analyse klinischer Daten zur Evaluation diagnostischer und speziell bildgebender Verfahren: Wird ein diagnostisches Novum einer Referenz gegenüber gestellt und werden dabei im intraindividuellen Vergleich aus beiden diagnostischen Ansätzen binäre Befunde abgeleitet, so kann mit klassischen diagnostischen Größen wie Sensitivität, Spezifität und prädiktiven Werten ein Methodenvergleich erfolgen. Liegt zumindest für das Standardverfahren eine Parametrisierung vor, welche die Ableitung binärer Befunde gestattet, kann mittels ROC-Analysen eine Evaluation des Novums hinsichtlich seiner diagnostischen Qualität erfolgen. Probleme bei der „klassischen" Analyse von Methodenvergleichsstudien resultieren jedoch im Falle kategorialer Befundungen, wenn keines der beiden zu vergleichenden Diagnostika eine valide Referenz darstellt, sondern beide z.B. Mehrfachauswertung durch parallele Befundung oder Messwiederholung erfordern zur Ableitung eines Befundes. Ähnlich wie im Sinne von Bland & Altman bei stetigen Endpunkten sollte dann auch im Falle kategorialer Befundungen eine Agreement-Analyse durchgeführt werden als Basis des Methodenvergleichs. Dies kommt vor allem zum Tragen, wenn ein Proxy-Goldstandard durch ein weniger belastendes, preiswerteres oder auch effektiver durchführbares Procedere ersetzt werden soll. Bei Evaluation bildgebender Verfahren resultieren somit häufig Studiendesigns, welche parallele Mehrfachbefundungen oder -auswertungen beider konkurrierender diagnostischer Verfahren einbeziehen müssen.

Mittels verallgemeinerter kappa-Maße können in einem solchen Kontext sowohl die Reliabilität eines jeden der beiden zu vergleichenden diagnostischen Verfahren als auch deren relatives Agreement unter Adjustierung an parallele Befundungen mit jedem der Verfahren in einem Ansatz geschätzt werden. Hierbei wird jedoch oft bereits das Vorliegen einer Parametrisierung angenommen bzw. eine hinreichende Güte und Umsetzbarkeit einer bestehenden „Übersetzungs-Vorschrift" für dem diagnostischen Anwender angenommen. Meist müssen aber nicht nur Limitationen der Reliabilität durch Auswerter-Effekte, sondern auch durch die den Auswertungen zugrunde liegenden Diagnosevorschriften in Betracht gezogen werden. Der Einfluss der Diagnosevorschrift, welche durch „Verwechseln" oder begrenzte Trennbarkeit" (also Misklassifikation) benachbarter Befundkategorien Abweichungen in der Übereinstimmung paralleler Befunde(r) bewirken kann, muss daher ebenso quantifiziert und im Vergleich der diagnostischen Verfahren berücksichtigt werden.

Methoden

Es soll ein Vorschlag motiviert werden, welcher in Erweiterung des von der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS) dargestellten Konzeptes zur Evaluation diagnostischer Verfahren [1] entlang Phasen I - IV die standardisierte Evaluation vor allem bildgebender Verfahren gestattet. Ähnlich wie bei der Arzneimittelzulassung soll hierbei der Phase III das Hauptgewicht zukommen; diese wird den eigentlichen Vergleich mit einem bisherigen diagnostischen Standard beinhalten, wobei Mehrfachbefundungen durch parallele Auswerter bei beiden diagnostischen Verfahren eingehen können.

Die Phase I soll hierzu eine optimal reliable Parametrisierung des Novums im Sinne einer Auswertungs- bzw. Diagnosevorschrift leisten; hierbei soll die Kategorisierung von kontinuierlich erhobenen Messungen hin zu Befunden wie auch die Modifikation einer bereits als kategorial vorgegebenen Diagnosevorschrift als Ansatz der Parametrisierung eingehen können. Die Phase II stellt auf der Basis dieser modifizierten Diagnosevorschrift sicher, wieviele parallele Auswertungen zur Sicherung einer für die praktische Anwendung des Novums zu fordernden Mindest-Reliabilität notwendig sind. Die Informationen aus den Phasen I und II können dann insbesondere zur Auswahl von geeigneten Befundern und einem homogenen Studienkollektiv für die Phase III verwendet werden. Die Phase IV nutzt die aus der Phase III erhaltene Information zur diagnostischen Güte des Novums gegenüber dem bisherigen Goldstandard, um die prognostische Wertigkeit des Novums zu evaluieren. Insbesondere ist eine solche Phase IV-Studie nur sinnvoll, wenn die Phase III ein hinreichendes Agreement des Novums mit dem Standard belegt hat.

Die Phase I im oben vorgeschlagenen Sinne muss auf ein umfangreiches und auch heterogenes Patientenkollektiv zugreifen, um einerseits mögliche Befundkategorien erfassen, andererseits aber auch genügend Datenmaterial für einen Test- und einen Validierungsschritt zur Modifikation der Diagnosevorschrift bereit stellen zu können. Die Phase II benötigt einem dritten Datensatz (im Umfang beschränkter, doch wesentlich homogener als in der Phase I), wobei hinreichend viele paralelle Befunder der bei praktischer Anwendung in Frage kommenden Erfahrungsgrade einbezogen werden müssen. Phase III muß auf ein zur Agreement-Analyse hinreichend großes, jedoch in seinen Befundspektren homogenes Patientenkollektiv zugreifen. Hier sollten so viele Mehrfachbefundungen wie laut Phase II maximal notwendig für eine hinreichend hohe Reliabilität des Novums eingebracht werden. Für die Phase IV treffen dann wohlbekannte Empfehlungen zur Durchführung und Evaluation von Prognosestudien zu.

Die Auswertung der Phase I kann mit inter-kategoriellen kappa-Koeffizienten erfolgen [2], die der Phasen II und III mit inter-personellen kappa-Koeffizienten [2]. Beide Auswertungsmethoden liefern standardisierte Darstellungen zur Bewertung der jeweiligen Teilaussagen der Phasen I - III; das aus der Phase II ableitbare kappa-Maß zur Schätzung der Reliabilität des Novums bietet insbesondere eine Basis für eine an dessen begrenzte Reproduzierbarkeit adjustierte Fallzahlplanung der Phase III. Ergebnis der so konzipierten Phase III ist ein kappa-Maß, welches das an Mehrfachbefundungen adjustierte Agreement zwischen den beiden diagnostischen Verfahren schätzt [2].

Ergebnisse

Das beschriebene Vorgehen soll illustriert werden an der Evaluation der Sequenz-Kompression von Niederfeld-MRT-Aufnahmen zur nicht-invasiven Detektion von Rupturen des Innenmeniskus. Für 372 konsekutive Patienten der Klinik für Radiologie der Universität Mainz mit Verdacht auf Schädigung des Innenmeniskus wurde vor einer Arthroskopie als diagnostischer Referenz jeweils eine Niederfeld-MRT-Aufnahme angefertigt. Die Bilddaten dieser Aufnahme wurden anschließend auf einen Anteil von 1/20 der ursprünglich eingebrachten Sequenzen komprimiert (würde sich diese Kompression bei Beibehaltung der diagnostischen Aussagekraft der originalen Aufnahmen bewähren, resultiert eine massive zeitliche Entlastung der MRT-Arbeitsplätze). Zur Phase I der Evaluation wurde eine dreistufige Befund-Vorschrift „Ruptur, suskeptibel, ohne Befund" vorgegeben, welche von drei parallelen Befundern (Assistenzärzte der Radiologie) auf 100 der Aufnahmen angewendet wurde. Die resultierenden inter-kategoriellen kappa-Maße haben jedoch ein Aggregieren der Befundstufen „ohne Befund" und „suskeptibel" nahe gelegt. Auf der Basis der binären Befundvorschrift hat die Phase I an weiteren 100 Aufnahmen ein kappa-Maß von 0.89 zwischen den drei Ärzten geliefert (95%-Konfidenzintervall 0.82 - 0.96). In der Phase II zeigte sich bei Befundung der verbleibenden 172 Aufnahmen, dass die Befundung sowohl von Fachärzten wie auch Assistenzärzten der Radiologie mit einer Reliabilität von 0.83 bzw. 0.87 erfolgen kann (die jeweils drei Fach- und Assistenzärzte zeigten dabei keine signifikant abweichenden Befundraster). Um eine Mindest-Reliabilität von 0.80 zu sichern, genügt somit eine parallele Befundung durch zwei (Assistenz-) Ärzte.

Mangels unabhängiger Patientendaten wurde die Phase III am gleichen Datensatz wie die Phasen I und II durchgeführt - die ursprünglichen sowie die komprimierten MRT-Daten von 150 zufällig ausgewählten Patienten wurden jeweils von zwei Fachärzten für Radiologie unabhängig voneinander befundet. Es zeigte sich ein an deren inter-individuelle Abweichung innerhalb jedes Aufnahme-Modus adjustiertes Agreement zwischen Originalaufnahme und Kompression von 0.84 (0.80 - 0.89).

Im Sinne der obigen Phase IV wurden die Befunde auf Basis der komprimierten Aufnahmen ferner den als Referenz anzusehenden Ergebnissen der Arthroskopie gegenüber gestellt. Zu diesen zeigte sich ein an die Abweichung zwischen den Befundern der Phase III adjustiertes Agreement von 0.68 (0.62 - 0.74). Wären die Daten der Phase III aus einem von der Phase II unabhängigen Kollektiv entnommen, so könnte der Innenmeniskus-Diagnostik auf Basis komprimierter Niederfeld-MRT-Aufnahmen ein in sich hinreichend reliables, aber prognostisch nicht ausreichend valides Potential unterstellt werden.

Vor allem bei Nicht-Vorhandensein einer Referenzbefundung hat sich der beschriebene Vorschlag bewährt, muß aber nun kritisch diskutiert werden.


Literatur

1.
Köbberling J, Trampisch HJ, Windeler J (eds.) (1989): Memorandum zur Evaluierung diagnostischer Maßnahmen. Schriftenreihe der GMDS. Schattauer Verlag, Stuttgart
2.
Krummenauer F (2003): The comparison of reliabilties in dental imaging methods. Journal of Orofacial Orthopedics 64, 6-15