gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Die 60% Bestehensgrenze überwinden und die Qualität der Prüfungen verbessern

Kommentar Prüfungen

Suche in Medline nach

  • corresponding author Ara Tekian - University of Illinois, College of Medicine at Chicago, Chicago, USA
  • corresponding author John Norcini - Foundation for Advancement of International Medical Education and Research , Philadelphia, USA

GMS Z Med Ausbild 2015;32(4):Doc43

doi: 10.3205/zma000985, urn:nbn:de:0183-zma0009859

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2015-32/zma000985.shtml

Eingereicht: 14. Januar 2014
Überarbeitet: 14. Januar 2014
Angenommen: 26. Mai 2014
Veröffentlicht: 15. Oktober 2015

© 2015 Tekian et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Es ist weltweit häufig üblich, formale Bestehensgrenzen (z. B. 60%) für alle Prüfungen festzulegen. Dies führt zu Problemen bei der Entwicklung von Prüfungen, da der gesamte Inhalt der Prüfung im Hinblick auf diesen festgelegten Standard abzustimmen ist. Infolgedessen kann die Validität der Entscheidungen, die auf diesen Prüfungen fußen, nachteilig beeinflusst werden und den Nutzen für ihren beabsichtigten Verwendungszweck einschränken.

Im Laufe der letzten Jahrzehnte begegneten viele Institute diesem Problem durch die Verwendung von Verfahren des „Standard-Settings“, also Festlegungen der Bestehensgrenzen, die vertretbar, akzeptabel und zuverlässig sind [1], [2]. Hierzu steht eine Vielzahl an Methoden zur Verfügung und die Hauptgründe, diese zu nutzen, bestehen darin, sicherzustellen, dass der Testinhalt adäquat ausgewählt und so fair wie möglich gegenüber den Studierenden und anderen Testanwendern ist [2], [3].

Ein Hindernis für die breitere Anwendung dieser Verfahren ist, dass vielerorts die Tatsache beanstandet wird, dass dabei die formal festgesetzte Bestehensgrenze (z. B. 60%) nicht eingehalten wird. Es ist jedoch möglich, durch Umskalierungen die Bestehensgrenze neu zu definieren, so dass diese dem festgelegten Standard entspricht und dieselbe Skalierung auf alle Testergebnisse anwendet. Dies stellt sicher, dass die institutionellen Richtlinien nicht verletzt werden und ermöglicht die Anwendung der anerkannten Verfahren des Standard-Settings. Im Gegenzug gestattet die Anwendung dieser Verfahren die Auswahl der Prüfungsinhalte ohne Berücksichtigung des festgelegten Standards, was die Validität der getroffenen Entscheidungen erhöht und eine gerechtere und genauere Prüfung der Studierenden ermöglich.


Kommentar

Im Laufe der letzten Jahrzehnte wurde von vielen Autoren vorgeschlagen, Standards für das Bestehen einer Prüfung zu setzen, die vertretbar, akzeptabel und zuverlässig sind [1], [2]. Hierzu stehen viele Verfahren zur Verfügung und die Hauptgründe, diese anzuwenden, ist es, sicher zu stellen, dass die Prüfungsinhalte adäquat ausgewählt werden und so fair wie möglich gegenüber den Studierenden sind [2], [3].

Die Implementierung eines Standard-Setting-Verfahrens bewegt die Bestehensgrenze weg von einer festgelegten Zahl (z. B. 60%) hin zu variablen Notengrenzen, die von der Testschwierigkeit abhängig sind. Bespiel: Wenn zwei Varianten einer Prüfung verwendet werden, von welcher Prüfung A geringfügig schwieriger ist als Prüfung B, ergibt sich daraus, sofern dieselbe Bestehensgrenze für beide Prüfungen angewendet wird, ein unfairer Vorteil für Studierende mit Prüfung B. Dies gefährdet die Validität der Prüfung, da nicht qualifizierten Kandidaten aufgrund der Testcharakteristika (Schwierigkeit) der Prüfung bestehen. Das Setzen einer relativen Bestehensgrenze (z. B. Mittelwert – 2 Standardabweichungen) löst dieses Problem nicht, da sich das Können der Studierenden von Jahr zu Jahr ändern kann. Die Anwendung eines absoluten Standard-Setting-Verfahrens, das auf dem Urteil eines Expertengremiums beruht, ist zu bevorzugen.

Prüfungen können für formative und summative Zwecke eingesetzt werden. Formative Prüfungen konzentrieren sich darauf, den Studierenden Feedback zu geben. Summative Prüfungen, die auf Entscheidungen über das Vorhandensein erforderlicher Kompetenzen fokussiert sind, können einen entscheidenden Einfluss auf den Karriereweg von Studierenden haben.

In allen Gesundheitsberufen, die Medizin eingeschlossen, müssen die Studierenden auf der Grundlage ihres beruflichen Könnens und Wissens beurteilt werden. Sie müssen in Bezug auf Wissen und Leistung kompetent sein und deshalb anhand einer Menge von Kriterien oder Standards geprüft werden. Das für diesen Zweck genutzte Standard-Setting-Verfahren generiert absolute Standards im Gegensatz zu relativen (normorientierten) Standards, die Studierende miteinander vergleichen. Diese Standards werden als „absolut“ bezeichnet, weil sie als Bedingungen formuliert werden, welche Inhalte die Studierenden wissen müssen und in der Theorie folglich jeder „bestehen“ oder „nicht bestehen“ kann. Daher kann die Erfolgsrate für jede Prüfung variieren, abhängig von der Bestehensgrenze, die von einem Expertengremium festgesetzt wurde.

Es gibt eine Vielzahl von Verfahren zur Festsetzung absoluter Standards, diese können auf die Testaufgaben (testzentriert: Angoff, Ebel [4], [5]) oder auf den Prüfling (prüflingszentriert: Borderline-Methode oder Kontrast-Gruppen-Methode) fokussiert sein [6]. Es existieren auch Standard-Setting-Verfahren, die einen Kompromiss zwischen diesen darstellen, z. B. die Hofstee-Methode („relative-absolute compromise method“). Dabei werden Festlegungen, welche Inhalte gewusst werden müssen mit der relativen Leistung der Studierenden kombiniert. [7]. Abhängig vom gewählten Verfahren können die Bestehensgrenzen variieren [2], [8].

Bei einigen Verfahren basieren die Beurteilungen der zugrunde liegenden Standard-Settings auf der Definition eines hypothetischen Borderline-Prüfungskandidaten, der mit einer 50%-igen Wahrscheinlichkeit die Prüfung besteht. Die Beschreibung des Borderline-Prüfungskandidaten basiert auf einer Konsensentscheidung bezüglich der Inhaltsbereiche, die durch einen Blueprint repräsentiert und von einem Expertengremium getroffen wurden. Diese Definition basiert auf einem hypothetischen Prüfungskandidaten, der an einem bestimmten Tag die Prüfung bestehen würde und sie an einem anderen Tag nicht bestehen würde; die Kompetenz, die von einem solchen Prüfungskandidaten gezeigt wird, soll die Unsicherheit über die zum Bestehen erforderlichen Qualifikationen und Eigenschaften repräsentieren; sie können auch Beschreibungen von „verzeihlichen“ Qualitäten/ Eigenschaften umfassen, die der Kandidat zwar noch nicht hat, aber im Laufe seiner Ausbildung noch erlangen kann.

Obwohl die Angoff-Methode als Standard-Setting an vielen Medizinischen Fakultäten eine sehr beliebte Methode ist, muss die Aufmerksamkeit auf die Auswahl der Experten gerichtet werden, da ihre Expertise und ihre Fähigkeit, die Prüfungsfragen korrekt zu beantworten, die Bestehensgrenze beeinflussen kann [9]. Die Wahl zuverlässiger Experten und ihrer Kalibrierung sind gleichermaßen für das Standard-Setting wichtig. Dies gilt besonders für die Diskussion des Borderline-Prüfungskandidaten und im Verlauf von Probedurchgängen, in denen die Wahrscheinlichkeit eines Borderline-Kandidaten, ein Checklistenitem zu beantworten oder korrekt auszuführen, abgeschätzt wird [2].

An einigen Institutionen wurde begonnen, die Angoff-Methode oder andere Verfahren zu verwenden, um die Bestehensgrenze für OSCE-Prüfungen festzulegen. Sie haben diese Strategie für OSCE-Prüfungen gewählt, weil nicht bemerkt oder nichts dagegen eingewandt wurde, von der 60%-Bestehensgrenze abzuweichen, oder aber es wurde die Schwierigkeit der OSCE-Prüfung so beeinflusst, dass eine Bestehensgrenze von 60% ohne Anpassungen verwendet werden kann. Es kann jedoch auch das Ergebnis eines Standard-Settings auf die durch die Universität festgelegte Bestehensgrenze, wie etwa 60%, reskaliert werden: Dies kann ohne Verletzung der Institutsrichtlinien durch die Umwandlung der Rohwert-Bestehensgrenze einer Prüfung, die durch ein Standard-Setting festgelegt wurde, in eine neuskalierte Bestehensgrenze von 60% erreicht werden [10]. Die erreichten Punktzahlen der Studierenden werden gleichermaßen neu skaliert. Beispiel: Wurde die Bestehensgrenze für eine MCQ-Prüfung auf 54% mittels der Angoff-Methode ermittelt, wird dieser Wert der Bestehensgrenze auf 60% neuskaliert. Ebenso wird die Prüfung neuskaliert, so dass die Punkte der Studierenden und die Bestehensgrenze mit der ‚60%‘-Regel konsistent sind. Damit kann nach einem Standard-Setting-Verfahrens die willkürliche Natur einer festen Bestehensgrenze von 60% durch eine einfache Neuskalierung der ursprünglichen Bestehensgrenze an die institutionell geforderte überwunden werden.

Für die Festlegung der Bestehensgrenze gibt es keinen „Goldstandard“ [11], [2]. Üblicherweise basiert die Wahl des Standard-Setting-Verfahrens auf den verfügbaren Ressourcen und der Ausstattung für die Ausbildung. Es ist entscheidend, alle angewandten Verfahren zur Festlegung der Bestehensgrenze zu dokumentieren und dies in der für die Fakultät üblichen Form publik zu machen. Es sollte jede Anstrengung unternommen werden, um eines, der in der Literatur beschrieben Standard-Setting-Verfahren einzusetzen, um so die Bestehensgrenze vertretbar und bedeutsam zu machen. Um dies zu erreichen, ist eine intensive Fakultätsentwicklung erforderlich, damit jeder die Wichtigkeit und die Konsequenzen der Festsetzung von Standards versteht, trainiert und befähigt ist, Bestehensgrenzen festzulegen. Darüber hinaus müssen die Dozenten, die am Prozess des Standard-Settings teilnehmen, für die Beteiligten repräsentativ sein und von ihnen akzeptiert werden. Dies könnte auch einen institutionellen Wandel verlangen. Ein Weg, dies zu erreichen, ist es Diskussionen mit der Fakultätsleitung über das Rational des Standard-Settings und die dahinterstehende Evidenz zu führen. Die Verwendung von Standard-Setting-Verfahren verlangt eine Änderung der Prüfungskultur der Institutionen sowie die Forderung nach Fairness und Gerechtigkeit bei der Kompetenzmessung der Studierenden.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Norcini JJ. Setting standards on educational tests. Med Educ. 2003;37(5):464-946. DOI: 10.1046/j.1365-2923.2003.01495.x Externer Link
2.
Downing SM, Tekian A, Yudkowsky R. Procedures for establishing defensible absolute passing scores on performance examinations in health professions education. Teach Learn Med. 2006;18(1):50-57. DOI: 10.1207/s15328015tlm1801_11 Externer Link
3.
Yudkowsky R, Downing SM, Tekian A. Standard setting. In: Downing SM, Yudkowsky R (Hrsg). Assessment in health professions education. New York/London: Routledge; 2009. S.119-148.
4.
Angoff WH. Scales, norms, and equivalent scores. In: Thorndike RL (Hrsg). Educational measurement. 2nd ed. Washington, DC: American Council on Education; 1971. S.508-600.
5.
Ebel RL. Essentials of educational measurement. 2nd ed. Englewood Cliffs, NJ: Prentice Hall; 1972.
6.
Livingston SA, Zieky MJ. Passing scores: A manual for setting standards of performance on educational and occupational tests. Princeton, NJ: Educational Testing Service; 1982.
7.
Hofstee WK. The case for compromise in educational selection and grading. In: Anderson SB, Helmick JS (Hrsg). On educational testing. San Francisco: Jossey-Bass, 1983. S.107-127.
8.
Bouriscot K, Roberts T, Pell G. Standard setting for clinical competence at graduation from medical school: A comparison of passing scores across five medical schools. Adv Health Sci Educ Theory Pract. 2006;11(2):173-183. DOI: 10.1007/s10459-005-5291-8 Externer Link
9.
Verheggen MM, Muijtjens AM, Van Os J, Schuwirth LW. Is an Angoff standard an indication of minimal competence of examinees or of judges? Adv Health Sci Educ Theory Pract. 2008;13(2):203-211. DOI: 10.1007/s10459-006-9035-1 Externer Link
10.
Kolen MJ, Brennan R L. Test equating, scaling, and linking: Methods and practices. 2nd Edition. New York: Springer-Verlag; 2004. DOI: 10.1007/978-1-4757-4310-4 Externer Link
11.
Friedman M. AMEE Guide No. 18: Standard setting in student assessment. Med Teach. 2000;22(2):120-130. DOI: 10.1080/01421590078526 Externer Link