gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Bebilderte versus nicht bebilderte anatomische Testitems in Anatomiekursklausuren und Medizinischen Staatsexamensprüfungen (M1)

Artikel Schriftliche Prüfungen

Suche in Medline nach

  • corresponding author Olaf Bahlmann - Dr. Senckenbergische Anatomie (Institut III), Frankfurt, Deutschland

GMS J Med Educ 2018;35(2):Doc25

doi: 10.3205/zma001172, urn:nbn:de:0183-zma0011725

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2018-35/zma001172.shtml

Eingereicht: 31. Mai 2017
Überarbeitet: 2. Februar 2018
Angenommen: 4. März 2018
Veröffentlicht: 15. Mai 2018

© 2018 Bahlmann.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Bebilderte Multiple-Choice- (MC) Fragen sind ein integraler Bestandteil von schriftlichen Prüfungen in der Anatomie. In bebilderten MC-Fragen bezieht sich die schriftliche Frage auf verschiedene Typen von Abbildungen wie Röntgenaufnahmen, Mikrofotografien von histologischen Schnitten oder Zeichnungen von anatomischen Strukturen. Da das Hereinnehmen von Abbildungen in MC-Fragen das Abschneiden der Items beeinflussen kann, verglichen wir die Charakteristika von anatomischen Items getestet mit bebilderten und nicht bebilderten MC-Fragen in sieben Anatomieklausuren und in zwei schriftlichen Teilen des Ersten Abschnitts der Ärztlichen Prüfung (M1).

In dieser Studie verglichen wir 25 bebilderte und 163 nicht bebilderte MC-Fragen aus Anatomieklausuren und 27 bebilderte und 130 nicht bebilderte MC-Fragen aus dem schriftlichen Teil des M1 mit einem nicht parametrischen Test für ungepaarte Stichproben. Als Ergebnis waren keine signifikanten Unterschiede im Schwierigkeits- und Trennschärfeniveau zwischen bebilderten und nicht bebilderten MC-Fragen vorhanden, dasselbe ergab sich in einer nach MC-Frageformaten stratifizierten Analyse.

Wir schließen daraus, dass das bebilderte Itemformat für sich die Itemschwierigkeit nicht zu beeinflussen scheint. Die aktuellen Ergebnisse stimmen mit früheren retrospektiven Studien überein, die keine signifikanten Unterschiede zwischen Test- und Itemcharakteristika zwischen bebilderten und nicht bebilderten MC-Fragen zeigten.

Schlüsselwörter: Prüfungsfragen, Medizinische Abbildung, Lernerfolgsmessung, Anatomie, Anatomie und Histologie


1. Einleitung

Heutzutage existieren verschiedene Ressourcen für die Lernerfolgsmessung in Anatomie. Vor der Einführung des Multiple-Choice- (MC) Formats in den Siebzigerjahren waren Staatsexamina viva voce [6]. Unstrukturierten mündlichen Prüfungen fehlt eine gute Reliabilität. Strukturierte mündliche Prüfungen können unter Verwendung eines Blueprints und einer Bewertungsschablone eine gute Reliabilität aufweisen [13].

In der schriftlichen Lernerfolgsmessung gibt es verschiedene Formate von Testitems. Derzeit ist das MC-Format mit vier oder fünf Antwortoptionen das häufigste. In Single-Best-Answer-Fragen gibt es nur eine richtige Antwort. Single-Best-Answer-Fragen sind das beliebteste MC-Format. In Richtig/Falsch-Items müssen alle richtigen Antworten (mehr als eine) markiert werden. Einfache Richtig/Falsch-Items mögen akzeptabel sein, Richtig/Falsch-Items mit Antwortkombinationen, wie sie in medizinischen Examina in der Vergangenheit verwendet wurden, werden nicht mehr empfohlen [4]. Die Extended-Matching-Frage beinhaltet eine Liste mit Antwortoptionen und mindestens zwei Fragestämme und der Prüfling muss für jeden Fragestamm die richtige Antwort aus der Liste auswählen. MC-Prüfungen zeigen eine gute Reliabilität [6], [13]. Offene Fragen können durch einen schriftlichen Essay oder Stichworte beantwortet werden (Short-answer-Frage). Offene Fragen sind, verglichen mit MC-Formaten, zeitaufwendiger [6]. Die modifizierte Essayfrage ist eine strukturierte Variante des Essayformats. In sogenannten Spotter/Tag-Tests beziehen sich MC- oder Short-answer-Fragen auf in Abbildungen oder Präparaten markierte Strukturen [1], [13].

MC-Fragen werden häufig in medizinischen Examina verwendet. Außerdem beinhalten viele Medizinlehrbücher MC-Fragen zur Selbstüberprüfung am Ende eines Kapitels. Das National Board of Medical Examiners (NBME) und andere Autoren haben Leitlinien für die Erstellung von MC-Fragen veröffentlicht [4], [8]. Visuelle Ressourcen in Prüfungsfragen sollten akkurat, komplett, relevant und unmissverständlich sein [5]. Wie visuelles Material für MC-Fragen erstellt wird und häufige Fallstricke in anatomischen MC-Fragen wurden publiziert [1], [14].

Bebilderte MC-Fragen sind ein integraler Bestandteil von Anatomieklausuren. Verschiedene MC-Frageformate, z.B. Single-Best-Answer- oder Extended-Matching-Fragen, können mit Abbildungen kombiniert werden. Verschiedene Abbildungen können hinzugenommen werden, von radiologischen oder histologischen Abbildungen bis zu Fotografien von makroskopischen Präparaten oder Abbildungen funktioneller Systeme.

Eine Itemanalyse zeigt die Schwierigkeit und Trennschärfe individueller MC-Fragen. Der Schwierigkeitsindex ist der Anteil an Teilnehmern, die das Item richtig beantwortet haben. Die Trennschärfe ist die Korrelation zwischen dem Item- und Testergebnis (Item-Gesamt-Korrelation). Gute MC-Fragen haben einen hohen Korrelationskoeffizienten [7], [11].

Frühere Studien fanden keine signifikanten Unterschiede von Item- oder Testcharakteristika zwischen bebilderten und nicht bebilderten MC-Fragen [3], [9], [12], [15]. Ausnahme war eine Studie an Studierenden im letzten Studienjahr, die mit MC-Fragen mit einer klinischen Problemstellung getestet wurden. In dieser Studie mit problembasierten Radiologiefragen waren bebilderte Items, die eine Bildinterpretation erforderten, schwieriger als Fragen, die das Erinnern von Wissensinhalten prüften [10].

Die Hereinnahme von Abbildungen in MC-Fragen beeinflusst möglicherweise die Itemschwierigkeit und damit die Schwierigkeit der Prüfung. Daher war das Ziel der vorliegenden Arbeit, die Charakteristika von bebilderten und nicht bebilderten anatomischen Items aus sieben Anatomiekursklausuren und aus zwei schriftlichen Teilen des Ersten Abschnitts der Ärztlichen Prüfung (M1) aus dem Herbst 2015 und 2016 zu untersuchen.


2. Methoden

2.1. Multiple-Choice-Fragen

MC-Fragen aus sieben aufeinanderfolgenden Anatomiekursklausuren von Winter 2014 bis Sommer 2016 bildeten die Grundlage für diese Studie. Human- und Zahnmedizinstudierende aus dem ersten und zweiten Studienjahr nahmen an den Klausuren teil. Eine Klausur mit 30 Fragen wurde am Ende des ersten Kurses (Muskuloskelettales System), zweiten Kurses (Innere Organe), dritten Kurses (Kopf- und Hals- und Neuroanatomie) und dem Anatomieseminar für Humanmedizinstudierende geschrieben. Zwischen 592 und 364 Studierende nahmen an den Anatomiekursklausuren teil. Medizinstudierende der Goethe-Universität Frankfurt schrieben die M1-Prüfungen mit je 80 Anatomiefragen im Herbst 2015 und 2016 mit 393 und 330 Teilnehmern. Die Anatomiekursklausuren beinhalteten zwischen 3 und 7 und die schriftlichen Teile des M1 12 und 15 bebilderte anatomische Items. Die Klausurbögen wurden mit der EvaExam Software (Electric paper, Lüneburg, Deutschland) evaluiert.

MC-Fragen, die als Doppel klassifiziert wurden, und bebilderte MC-Fragen mit identischen Abbildungen wurden von der Studie ausgeschlossen. Microsoft Excel wurde für die Berechnung der Itemschwierigkeit und –trennschärfe aus den Rohdaten verwendet. Der Schwierigkeitsindex wurde als mittleres Itemergebnis bestimmt. Die Itemtrennschärfe wurde als der Pearson-Produkt-Moment-Korrelationskoeffizient des individuellen Itemergebnisses und des Summenergebnisses der restlichen Items (korrigierte Itemtrennschärfe) berechnet.

Die Itemanalysen der M1-Fragen wurden vom Institut für Medizinische und Pharmazeutische Prüfungsfragen (IMPP, Mainz, Deutschland) erstellt und sind urheberrechtlich geschützt.

2.2. Statistische Auswertung

Die Daten wurden auf Normalverteilung inspiziert und getestet (Q-Q-Graph, Shapiro-Wilkinson-Test). Der Kolmogorov-Smirnov-Test für ungepaarte Stichproben wurde für den Vergleich der MC-Fragegruppen verwendet. Die statistische Auswertung wurde mit GraphPad Prism Version 7.00 für Windows (GraphPad Software, La Jolla, Kalifornien, USA) durchgeführt. Die Daten wurden mit Median und Spannweite aufgetragen. Ein Vergleich von bebilderten und nicht bebilderten MC-Fragen, stratifiziert nach MC-Frageformaten, wurde mit dem stratifizierten van-Elteren-U-Test (Bias, Version 11.02, epsilon-Verlag, 2016) vorgenommen.


3. Ergebnisse

Aus den Anatomiekursklausuren wurden 25 bebilderte und 163 nicht bebilderte MC-Fragen in diese Studie aufgenommen. Bebilderte MC-Fragen umfassten 13 histologische und 5 radiologische Abbildungen (konventionelle Röntgenaufnahmen oder CT), 4 anatomische (Schema)-Zeichnungen, 2 Anatomie-in-vivo Abbildungen und eine Abbildung einer Hirnscheibe (siehe Abbildung 1 [Abb. 1]). Die MC-Fragen beinhalteten eine am wahrscheinlichsten zutreffende/nicht zutreffende Antwort und vier Distraktoren (A-Fragenformattyp).

Anatomiefragen aus zwei M1-Prüfungen mit 27 bebilderten und 130 nicht bebilderten MC-Fragen wurden zudem in diese Studie aufgenommen. 16 histologische und 8 Anatomie-in-vivo Abbildungen, eine Abbildung eines anatomischen Präparats, eine Abbildung einer Körperscheibe und eine anatomische Schema-Zeichnung wurden in den bebilderten MC-Fragen verwendet.

Außerdem stratifizierten wir die Items nach MC-Frageformaten. Die stratifizierte Auswertung wurde an Items mit einer Fragestellung im Stamm und (kurzen) Antwortoptionen, positiv (Gruppe A) oder negativ formuliert (Gruppe B), und MC-Fragen mit Aussagen als Antwortoptionen, positiv (Gruppe C) oder negativ formuliert (Gruppe D), vorgenommen. Andere Formate (Satzvervollständigung oder Zuordnungsitems) wurden von der Auswertung ausgeschlossen.

Die mittlere Schwierigkeit von bebilderten und nicht bebilderten MC-Fragen war 0.78 vs. 0.76 in Anatomiekursklausuren und 0.76 vs. 0.82 in den schriftlichen Teilen des M1. Der Trennschärfekoeffizient war entsprechend 0.3 vs. 0.31 und 0.24 vs. 0.315. Als Ergebnis zeigten bebilderte und nicht bebilderte MC-Fragen keine signifikanten Unterschiede in Schwierigkeit und Trennschärfe in Anatomiekursklausuren und den schriftlichen Teilen des M1 (p>0.05) (siehe Abbildung 2 [Abb. 2]), was ebenfalls für die stratifizierte Auswertung zutraf.


4. Diskussion

Visuelle Ressourcen werden häufig im Anatomieunterricht und der Leistungsüberprüfung gebraucht. Jede Anatomieklausur beinhaltet bebilderte MC-Fragen, und sie sind Bestandteil des schriftlichen Teils des M1. Daher interessierten wir uns in der vorliegenden Studie für das Abschneiden dieses Itemformats. Dazu verglichen wir bebilderte und nicht bebilderte MC-Fragen in Anatomiekursklausuren und dem schriftlichen Teil des M1. Wir fanden, dass sich bebilderte und nicht bebilderte MC-Fragen nicht signifikant in der Schwierigkeit und Trennschärfe unterschieden. Dass bebilderte und nicht bebilderte MC-Fragen auf verschiedenen Ressourcen basieren, d. h. Abbildungen und Text, scheint die Itemcharakteristika nicht zu beeinflussen.

Bebilderte MC-Fragen wurden in der Vergangenheit bereits untersucht. Hunt verglich zwei Sets an problembasierten MC-Fragen in der Radiologie. Ein Set beinhaltete eine Abbildung, das andere eine Beschreibung der Abbildung, z. B. einen Radiologiebericht. Studierende im letzten Studienjahr schrieben die Sets in zwei parallelen Prüfungen. Als Ergebnis war das Set mit visuellem Inhalt signifikant schwieriger. Nach Auffassung von Hunt waren die Ergebnisse “übereinstimmend mit der Ansicht, dass Fragen, die eine Interpretation der Daten oder eine Problemlösung verlangen, ein höheres Leistungslevel oder zusätzliche Fähigkeiten erfordern als Fragen, die eine schriftliche Beschreibung der Daten bieten” ([10], S. 420).

In einer Studie an Fragen aus dem ersten Teil des FRACS-Examens (Fellowship of the Royal Australasian College of Surgeons) verglichen die Autoren 77 MC-Fragentripletts zur Anatomie und Pathologie. Die MC-Fragen boten vier Antwortoptionen. Die Tripletts bestanden aus einer visuellen und verbalen Frage desselben und einer zusätzlichen verbalen Frage vergleichbaren Inhalts. Es ergaben sich keine signifikanten Unterschiede in Itemschwierigkeit und -trennschärfe. Die Autoren argumentierten, dass ihre Studie durch eine geringe Fallzahl limitiert sei und dass eine niedrigere Kompetenz in der englischen Schriftsprache von Nicht-Muttersprachlern die Ergebnisse des FRACS-Examens beeinflusst haben könnte [3].

Vorstenborsch et al. verglichen 39 Extended-Matching-Fragen mit entweder einer Antwortliste oder einer beschrifteten anatomischen Abbildung im Fragestamm. Es wurden zwei Testversionen erstellt und die Hälfte der Studierenden schrieben beide Tests. Die Studierenden nahmen freiwillig an der informellen Prüfung teil, die vergleichbar den Bedingungen einer offiziellen Prüfung war. Manche der beschrifteten Fragen waren schwieriger und andere dagegen weniger schwierig, verglichen mit der nicht beschrifteten Version. Anders als in unserer Studie verwendeten die Autoren Extended-Matching- anstatt MC-Fragen und erstellten eng abgestimmte Items (beschriftete Abbildungen bzw. Antwortliste). Schlussendlich war es ihnen möglich, die Gesamtschwierigkeit und Reliabilität der separaten Testversionen zu vergleichen. Abgesehen von variablen Einzeleffekten fanden die Autoren keine Gesamtunterschiede zwischen den Testversionen [15].

Holland et al. untersuchten Histologieklausuren dreier aufeinanderfolgender Jahre mit 95 bebilderten und 100 nicht bebilderten MC-Fragen und fanden keine signifikanten Unterschiede in Itemschwierigkeit oder –trennschärfe [9]. In die vorliegende Studie nahmen wir 25 Items aller anatomischer Gebiete auf inklusive 13 histologische Fragen.

In ähnlicher Weise waren in einer retrospektiven Auswertung von Textaufgaben und Items mit Referenzabbildungen aus Anatomieprüfungen keine signifikanten Unterschiede in Schwierigkeit oder Trennschärfe zwischen den Itemformaten vorhanden. In dieser Studie ergänzten die Abbildungen das Item und ersetzten nicht den schriftlichen Inhalt, somit “waren [die Abbildungen] nicht als kritisch für die Beantwortung des Items anzusehen” ([12], Seite 3). Was das Studiendesign betrifft, waren die Studien von Hunt und Vorstenbosch Probeklausuren bzw. informelle Prüfungen. Die Studierenden wurden randomisiert den Testgruppen zugewiesen und nicht über die Testform unterrichtet. Obwohl es sich um eine informelle Prüfung handelte, waren die Testbedingungen vergleichbar einer offiziellen Prüfung [10]. Jede(r) Studierende beantwortete die Items in beiden Formaten [10], [15].

Die Studien von Buzzard und Hunt beinhalteten radiologische Items, die über eine Erinnerung von Wissensinhalten hinaus gingen und Denken im klinischen Kontext verlangten (vgl. Itembeispiele) [2], [10]. Hunt kategorisierte die Items nach klinischem Szenario, supplementären Daten, Interpretation, Diagnose und Behandlung im Fragestamm und Optionen. Die Items waren im bebilderten Format in allen Untergruppen schwieriger [10]. In der vorliegenden Studie deckten die meisten Items grundlegendes anatomisches Wissen auf niedrigerem kognitivem Niveau ab.

Hunt zeigte den Anstieg und die Abnahme der Schwierigkeit und Trennschärfe an Itempaaren. In 43 von 70 Itempaaren nahm die Schwierigkeit zu [10]. In der vorliegenden Studie verglichen wir die Formate von unabhängigen Items und nahmen keine paarweise Zuordnung vor.

Außerdem stratifizierten wir nach MC-Frageformaten (Formulierung und Struktur des Fragestamms und der Optionen) (siehe Abbildung 3 [Abb. 3]). Die Hereinnahme von Abbildungen in MC-Fragen hatte keinen signifikanten Effekt auf die Itemschwierigkeit und -trennschärfe.


5. Schlussfolgerung

Bebilderte MC-Fragen sind immer, wenn es geeignet erscheint, einsetzbar. Bebilderte MC-Fragen können Studierende motivieren, die gut sind in visuellem Wissen und Denken, und sie können für niedrigere und höhere kognitive Niveaus geschrieben werden. Bebilderte MC-Fragen werden genutzt, um Lehrgegenstände zu reflektieren und Rückmeldung über die Effektivität des Lehrens zu erhalten. Dadurch kann die Einführung von zusätzlichen visuellen Lehrgegenständen durch entsprechende bebilderte MC-Fragen evaluiert werden. Bei der Verwendung von bebilderten MC-Fragen ist darauf zu achten, dass die Abbildungen von ausreichender Qualität und Größe und sorgfältig beschriftet sind. Gemäß einem Constructive Alignment hilft ein Blueprint bei der Auswahl von bebilderten MC-Fragen für die Klausur. Verschiedenartige Abbildungen (histologische Abbildungen, Röntgenaufnahmen) reflektieren die Vielseitigkeit der bildlichen Informationen in der Medizin. Die Überprüfung der Qualität von bebilderten MC-Fragen wird auch das studentische Lernen an Probeklausurfragen verbessern. Schlussendlich werden die Ergebnisse der vorliegenden Studie vielleicht Frageschreiber bestärken, bebilderte MC-Fragen zu verwenden.


Danksagung

Der Autor möchte Frau Professor Eva Herrmann für die statistische Beratung, Herrn Professor Jörg Stehle und Herrn Professor Frank Nürnberger für hilfreiche Kommentare und dem Letztgenannten für das Beispiel einer bebilderten MC Frage danken.


Interessenkonflikt

Der Autor erklärt, dass er keine Interessenkonflikte im Zusammenhang mit diesem Artikel hat.


Literatur

1.
Brenner E, Chirculescu AR, Reblet C, Smith C. Assessment in anatomy. Eur J Anat. 2015;19(1):105-124.
2.
Buzzard AJ, Bandaranayake R, Harvey C. How to produce visual material for multiple choice examinations. Med Teach. 1987;9(4):451-456. DOI: 10.3109/01421598709008341 Externer Link
3.
Buzzard AJ, Bandaranayake RC. Comparison of the performance of visual and verbal multiple-choice questions. Aus N Z J Surg. 1991;61(8):614-618. DOI: 10.1111/j.1445-2197.1991.tb00302.x Externer Link
4.
Case SM, Swanson DB. National Board of Medical Examiners. Constructing written test questions for the basic and clinical sciences, 3rd ed. Philadelphia: National Board of Medical Examiners; 2001. Zugänglich unter/available from: http://www.nbme.org/pdf/itemwriting_2003/2003iwgwhole.pdf Externer Link
5.
Crisp V, Sweiry E. Can a picture ruin a thousand words? The effect of visual resources in exam questions. Educ Res. 2006;48(2):139-154. DOI: 10.1080/00131880600732249 Externer Link
6.
Elmer A, Grifka J. Vergleich von Prüfungsmethoden in der medizinischen Ausbildung. Gesundheitswesen (Suppl Med Ausbild). 1998;15(Suppl1):14-17.
7.
Haladyna TM. Developing and validating multiple-choice test items, 3rd ed. Mahwah, NJ: Lawrence Erlbaum Associates; 2004.
8.
Haladyna TM, Downing SM, Rodriguez MC. A review of multiple-choice item-writing guidelines for classroom assessment. Appl Meas Educ. 2002;15(3):309-334. DOI: 10.1207/S15324818AME1503_5 Externer Link
9.
Holland J, O'Sullivan R, Arnett R. Is a picture worth a thousand words: an analysis of the difficulty and discrimination parameters of illustrated vs. text-alone vignettes in histology multiple choice questions. BMC Med Educ. 2015;15:184. Doc184. DOI: 10.1186/s12909-015-0452-9 Externer Link
10.
Hunt DR. Illustrated multiple choice examinations. Med Educ. 1978;12(6):417-420. DOI: 10.1111/j.1365-2923.1978.tb01420.x Externer Link
11.
Möltner A, Schellberg D, Jünger J. Grundlegende quantitative Analysen medizinischer Prüfungen. Basic quantitative analyses of medical examinations. GMS Z Med Ausbild. 2006;23(3):Doc53. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000272.shtml Externer Link
12.
Notebaert AJ. The effect of images on item statistics in multiple choice anatomy examinations. Anat Sci Educ. 2017;10(1):68-78. DOI: 10.1002/ase.1637 Externer Link
13.
Samarasekera DD, Gopalakirshnakone P, Gwee MC. Assessing anatomy as a basic medical science. In: Chan LK, Pawlina W (Hrsg). Teaching anatomy: a practical guide. Bern: Springer International Publishing; 2015. S.279-289. DOI: 10.1007/978-3-319-08930-0_31 Externer Link
14.
Vahalia KV, Subramaniam K, Marks SC Jr, De Souza EJ. The use of multiple-choice tests in anatomy: Common pitfalls and how to avoid them. Clin Anat. 1995;8(1):61-65. DOI: 10.1002/ca.980080111 Externer Link
15.
Vorstenbosch MA, Klaassen TP, Kooloos, JG, Bolhuis SM, Laan RF. Do images influence assessment in anatomy? Exploring the effect of images on item difficulty and item discrimination. Anat Sci Educ. 2013;6(1):29-41. DOI: 10.1002/ase.1290 Externer Link