gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Sind künstliche neuronale Netze eine Black Box?

Meeting Abstract

  • Henning Cammann - Charité - Institut für Medizinische Informatik, Berlin, Deutschland
  • Jörg Wichard - Forschungsverbund Berlin e.V., Berlin, Deutschland
  • Carsten Stephan - Charité - Klinik für Urologie, Berlin, Deutschland
  • Thomas Tolxdorff - Charité - Institut für Medizinische Informatik, Berlin, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocP-36

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds222.shtml

Veröffentlicht: 10. September 2008

© 2008 Cammann et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Der Wunsch, die ärztliche Diagnostik zu objektivieren und gleichzeitig über einen langen Zeitraum gesammeltes Erfahrungswissen zu nutzen, führt zum Einsatz von entscheidungsunterstützenden Verfahren, in deren Zentrum verschiedene Klassifikationsmethoden stehen. Dazu gehören logistische Regression, Diskriminanzanalyse, künstliche neuronale Netze (ANN), Entscheidungsbäume, Support Vector Machines, regelbasierte Systeme und andere [1]. Für einen Vergleich des Nutzens unterschiedlicher Klassifikationsmethoden zur Unterstützung der Diagnostik wird vorwiegend die Güte eines Klassifikators herangezogen. Diese Güte kann durch unterschiedliche Maßzahlen, wie beispielsweise die Area Under the Curve (AUC) der Receiver Operating Characteristic (ROC)-Analyse, die Anzahl der richtig diagnostizierten Personen, Sensitivität und Spezifität, Youden Index, beschrieben werden. Von erheblicher Bedeutung für die Akzeptanz eines Klassifikators ist jedoch auch die Möglichkeit, eine Aussage über die Bedeutung einzelner in den Entscheidungsprozess einbezogener Variablen zu erhalten. Künstlichen neuronalen Netzen wird das Fehlen dieser Möglichkeit häufig als Mangel angelastet, selbst wenn die Klassifikationsergebnisse zufrieden stellend sind. In folgendem wird ein Weg beschrieben, durch den dieser Mangel weitgehend behoben werden kann.

Material und Methoden

Der medizinische Hintergrund der Untersuchungen ist die Ermittlung des Risikos für das Vorliegen eines Prostatakarzinoms für eine Patientengruppe (n=475) aus den klinischen Variablen Alter und Prostatavolumen (Vol) sowie den laborchemischen Parametern prostataspezifisches Antigen (PSA), dem Anteil des freien PSA am PSA (prozentuales freies PSA, %fPSA, hier Ratio genannt) und dem Anteil des -2proPSA am freien PSA (%p2PSA). Als Referenzgröße wird das Ergebnis der pathologischen Bewertung von Gewebeproben nach Prostatabiopsie herangezogen

Für die Stichproben wurden jeweils künstliche neuronale Netze aufgebaut (vorwärts gekoppeltes Backpropagation-ANN, eine verborgene Schicht, Bayes’sche Regularisierung, 10fach Kreuzvalidierung) [2]. Als Gütemaße für die Klassifizierung wurden aus den mit Hilfe der Ausgangswahrscheinlichkeiten gebildeten ROC-Kurven die AUC sowie die Spezifität bei 95% und bei 90% Sensitivität bestimmt.

Um Aussagen über die Bedeutung der einzelnen Variablen für die Klassifizierung zu erhalten, wurden bei der Bestimmung der Ausgangswahrscheinlichkeiten im Prozess der Kreuzvalidierung die Werte jeweils einer Variablen der Teststichprobe mit Hilfe eines Zufallsgenerators zufällig angeordnet (vgl. [3]). Dadurch sollte sich das Klassifikationsergebnis bei derjenigen Variablen, die am stärksten zur Güte der Klassifikation beiträgt, am deutlichsten verschlechtern. Als Maß für die Bedeutung einer Variablen für die Klassifikation wurde die Abweichung der AUC des „gestörten“ Tests vom ungestörten Test ermittelt.

Um die Anhängigkeit der Klassifikationsergebnisse von der zufälligen Durchmischung der Variablenwerte beim Testen des ANN zu beschreiben, wurde dieser Prozess 100fach durchgeführt und die Abweichungswerte wurden gemittelt. Die gefundenen Bedeutungen für die einzelnen Variablen wurden mit den Ergebnissen der logistischen Regression verglichen. Die Berechnungen erfolgten mit den Programmsystemen MATLAB und SPSS.

Ergebnisse

Aus der Abbildung 1 [Abb. 1] ist ersichtlich, in welcher Weise sich die AUC ändert, wenn einzelne Variablen im Vergleich zur originalen Anordnung zufällig verteilt werden. Die Variable mit der höchsten Bedeutung für die Klassifikation ist das %p2PSA (kleinste AUC = größte Bedeutung), gefolgt vom Alter und der Ratio. Das Volumen und schlussendlich das PSA tragen kaum zur Klassifikation bei.

In der Abbildung 2 [Abb. 2] sind die Boxplots für die 100 mal ermittelten Differenzen zwischen der AUC für alle originalen und die jeweils randomisierten Variablen dargestellt. Auch hier ist die zuvor beschriebene Reihenfolge in der Bedeutung der Variablen erkennbar.

Die auf der Grundlage der logistischen Regression vorgenommene Einschätzung der Bedeutung einzelner Variablen (Waldkoeffizient) beginnt bei %p2PSA und endet über Alter, Volumen, Ratio bei der Variablen PSA.

Diskussion

Das beschriebene Verfahren ermöglicht eine Einschätzung der Bedeutung einzelner Variablen für die Klassifikationsleistung von ANN und damit einen „Blick in das Innere“ der black box ANN. Die Unterschiede in der dritten und vierten Position der Bedeutung im Vergleich zur logistischen Regression könnten auf die Berücksichtigung von Zusammenhängen höherer Ordnung im ANN-Modell herrühren.


Literatur

1.
Wichard JD, Cammann H, Stephan C, Tolxdorff T. Classification Models for Early Detection of Prostate Cancer. J Biomed Biotechnol 2008 (accepted)
2.
Stephan C, Cammann H, Semjonow A, Diamandis EP, Wymenga LFA, Lein M, Sinha P, Loening SA, Jung K. Multicenter evaluation of an artificial neural network to increase prostate cancer detection and reduce unnecessary biopsies. Clin Chem 2002; 48:1279-1287
3.
Breiman L. Looking inside the black box. Wald Lecture II. 2002. http://www.stat.berkeley.edu/users/breiman/wald2002-2.pdf. Externer Link