gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Aufwandsanalyse für computerunterstützte Multiple-Choice Papierklausuren

Forschungsarbeit Humanmedizin

  • author Alexander Mandel - Universität Würzburg, Medizinische Fakultät, Studiendekanat, Würzburg, Deutschland
  • author Alexander Hörnlein - Universität Würzburg, Fakultät für Mathematik und Informatik, Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik, Würzburg, Deutschland
  • author Marianus Ifland - Universität Würzburg, Fakultät für Mathematik und Informatik, Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik, Würzburg, Deutschland
  • author Edeltraud Lüneburg - Universität Würzburg, Medizinische Fakultät, Studiendekanat, Würzburg, Deutschland
  • author Jürgen Deckert - Universität Würzburg, Medizinische Fakultät, Studiendekanat, Würzburg, Deutschland
  • corresponding author Frank Puppe - Universität Würzburg, Fakultät für Mathematik und Informatik, Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik, Würzburg, Deutschland Externer Link

GMS Z Med Ausbild 2011;28(4):Doc55

doi: 10.3205/zma000767, urn:nbn:de:0183-zma0007672

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2011-28/zma000767.shtml

Eingereicht: 10. September 2010
Überarbeitet: 16. Juni 2011
Angenommen: 16. Juni 2011
Veröffentlicht: 15. November 2011

© 2011 Mandel et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Einleitung: Multiple-Choice-Klausuren spielen immer noch eine herausragende Rolle für fakultätsinterne medizinische Prüfungen. Neben inhaltlichen Arbeiten stellt sich die Frage, wie die technische Abwicklung optimiert werden kann. Für Dozenten in der Medizin gibt es zunehmend drei Optionen zur Durchführung von MC-Klausuren: Papierklausuren mit oder ohne Computerunterstützung oder vollständig elektronische Klausuren. Kritische Faktoren sind der Aufwand für die Formatierung der Klausur, der logistische Aufwand bei der Klausurdurchführung, die Qualität, Schnelligkeit und der Aufwand der Klausurkorrektur, die Bereitstellung der Dokumente für die Einsichtnahme, und die statistische Analyse der Klausurergebnisse.

Methoden: An der Universität Würzburg wird seit drei Semestern ein Computerprogramm zur Eingabe und Formatierung der MC-Fragen in medizinischen und anderen Papierklausuren verwendet und optimiert, mit dem im Wintersemester (WS) 2009/2010 elf, im Sommersemester (SS) 2010 zwölf und im WS 2010/11 dreizehn medizinische Klausuren erstellt und anschließend die eingescannten Antwortblätter automatisch ausgewertet wurden. In den letzten beiden Semestern wurden die Aufwände protokolliert.

Ergebnisse: Der Aufwand der Formatierung und der Auswertung einschl. nachträglicher Anpassung der Auswertung einer Durchschnittsklausur mit ca. 140 Teilnehmern und ca. 35 Fragen ist von 5-7 Stunden für Klausuren ohne Komplikation im WS 2009/2010 über ca. 2 Stunden im SS 2010 auf ca. 1,5 Stunden im WS 2010/11 gefallen. Einschließlich der Klausuren mit Komplikationen bei der Auswertung betrug die durchschnittliche Zeit im SS 2010 ca. 3 Stunden und im WS 10/11 ca. 2,67 Stunden pro Klausur.

Diskussion: Für konventionelle Multiple-Choice-Klausuren bietet die computergestützte Formatierung und Auswertung von Papierklausuren einen beträchtlichen Zeitvorteil für die Dozenten im Vergleich zur manuellen Korrektur von Papierklausuren und benötigt im Vergleich zu rein elektronischen Klausuren eine deutlich einfachere technische Infrastruktur und weniger Personal bei der Klausurdurchführung.

Schlüsselwörter: Multiple-Choice Prüfungen, Automatisierte Prüfungskorrektur, Aufwandsanalyse


Einleitung

Multiple-Choice (MC) Klausuren spielen immer noch eine herausragende Rolle für medizinische Prüfungen [8]. Neben inhaltlichen Arbeiten [9], [2] stellt sich die Frage, wie die technische Abwicklung optimiert werden kann. Es gibt drei grundlegende Optionen zur Durchführung von MC-Klausuren: Papierklausuren mit oder ohne Computerunterstützung oder elektronische Klausuren:

  • A. Traditionell erstellt der Dozent eine Papierklausur mit einem Textverarbeitungssystem, druckt die Klausurbögen, korrigiert die Antworten per Hand und überträgt die Ergebnisse in ein Tabellenkalkulationsprogramm, das die Noten berechnet.
  • B. Eine verbesserte Option, für die es bereits kommerzielle Software günstig zu kaufen gibt, benutzt Computer zum Einscannen der Antworten und zur automatischen Zusammenstellung der Ergebnisse im Tabellenkalkulationsprogramm.
  • C. Eine weitergehende Automatisierung ist möglich, wenn die Studierenden die Klausuren direkt am Computer schreiben, die Ergebnisse auf einen Server übertragen und automatisch ausgewertet werden.

Die Entscheidung für die ökonomischste Alternative hängt sowohl von der technischen Ausstattung als auch vom gewählten Prozessmodell ab, wobei auch das Risiko technischen Versagens zu berücksichtigen ist. In diesem Beitrag untersuchen wir die Effizienz der Durchführung von papierbasierten Klausuren mit Computerunterstützung (B) und vergleichen diese mit den anderen beiden Alternativen A und C. Im Gegensatz zu B gibt es zu C zahlreiche Publikationen (z.B. [6], [3]), darunter auch Aufwandsanalysen, wobei teilweise verschiedene Hardwarevarianten elektronischer Prüfungsorganisationen verglichen werden (Nutzung von Laptops der Studierenden vs. Nutzung hochschuleigener Computer in einem speziellen Testcenter bzw. verteilt in CIP-Pools vs. komplettes Outsourcing an eine Firma).

In einigen Publikationen werden auch Referenzwerte für Aufwände und Kosten konventioneller Prüfungen zum Vergleich angegeben, auf die wir im Folgenden eingehen. In [7] werden die Gesamtkosten, die sich aus Investitionskosten, Personalkosten und Druckkosten zusammensetzen, pro schriftlicher Prüfung bei 96 Prüfungen pro Jahr über einen Zeitraum von 3 Jahren für eine einzelne Klausur nach der Option A 1423 €, nach Option B 1072 € und nach Option C 1746 € geschätzt. Bezüglich der Zeitaufwände zeigt Tabelle 1 [Tab. 1] einen Vergleich der Schätzungen zweier Studien ([7], siehe Tabelle 1 [Tab. 1] und Tabelle 2 [Tab. 2] und [1], Tabelle 27).

Ein Vergleich beider Schätzungen zeigt ganz erhebliche Diskrepanzen, die wohl teilweise darauf zurückzuführen sind, dass bei [7] von weniger Klausurteilnehmern mit weniger Fragen pro Klausur ausgegangen wird. Insgesamt fällt auf, dass in [1] generell wesentlich höhere Zeitaufwände kalkuliert werden, wobei die Schätzung von 200 Stunden für die manuelle Auswertungen bei A (d.h. ½ Minute pro Frage bei 60 Fragen in 400 Klausuren) wohl auf einem Mix von Freitext-Fragen und geschlossenen Fragen basiert, während bei C nur geschlossene Fragen zugrundegelegt werden. Weiterhin fällt auf, dass für die Prüfungsvorbereitung und Prüfungsdurchführung in [1] beträchtliche Aufwände für Funktionsprüfungen der Computer und Fachaufsichten sowie technischem Support zusammenkommen, während in den Schätzungen von [7] diese Faktoren vernachlässigt werden.

Aus beiden Studien kann ein beträchtliches Potential für die Option B abgeleitet werden, wenn es gelingt, die Vorteile von A mit geringem technischem Aufwand bei der Vorbereitung und Durchführung der Prüfungen und die Vorteile von C einer geringen Korrekturzeit zu kombinieren. Im Folgenden analysieren wir den Zeitaufwand bei computerunterstützen reinen Multiple-Choice Papierklausuren mit automatischer Korrektur der eingescannten Antwortblätter. Andere Fragetypen, die eine Zahl- und Texteingabe erfordern, können zwar mitverwaltet werden, aber müssten manuell korrigiert werden. Zur Umsetzung wurde an der Universität Würzburg nach Erfahrungen mit dem kostenpflichtigen spidMED-Service des IMPP [https://www.impp.de/spidMED/] (Link geprüft 11.7.2011; Service seit 1.7.11 nicht mehr verfügbar) sowie einem kommerziellen Programm zur Kreuzerkennung von Multiple-Choice-Klausuren eine Komponente für computergestützte Papierprüfungen entwickelt. Da diese Komponente auf einem aus Studiengebühren finanzierten universitätsweiten Framework zur Entwicklung fallbasierter Trainingssysteme aufbaut (vgl. [5], [4]), waren die zusätzlichen Investitionskosten relativ gering. In Abschnitt 2 werden das Prozessmodell und die kritischen Aspekte computergestützter Papierprüfungen beschrieben, in Abschnitt 3 die technischen Aufwände für die verschiedenen Phasen der 12 bzw. 13 Klausuren im SS 2010 und im WS 2010/11 präsentiert (ohne Berücksichtigung der inhaltlichen Arbeit) und in Abschnitt 4 die Option B auf qualitativer Ebene mit den Optionen A und C verglichen.


Methoden und Prozessmodell

Kritische Faktoren bei der Durchführung von Klausuren sind neben der hier nicht im Fokus stehenden inhaltlichen Arbeit der Aufwand für die Formatierung der Klausur, der logistische Aufwand bei der Klausurdurchführung, die Qualität, Schnelligkeit und der Aufwand der Klausurkorrektur, die Bereitstellung der Dokumente für die Einsichtnahme und die statistische Analyse der Klausurergebnisse. Im Folgenden beschreiben wir ein allgemeines Prozessmodell mit verschiedenen Varianten:

Erstellung und Formatierung der Klausur

Die Fragen einer Klausur können von einem oder mehreren Dozenten (z.B. bei Ringvorlesungen) kommen, es können alte Fragesammlungen auf Papier oder aus einer Datenbank wiederverwen¬det oder die Fragen ganz oder teilweise neu erstellt wer¬den. Häufig kontrollieren verschiedene Personen die Fragen, so dass es mehrere Iterationen gibt. Die Fragen können sich auf Bilder oder Fallbeschreibungen beziehen, oft gibt es dann auch mehrere zusammenhängende Fragen („key feature Fragen“). Die Antwortalternativen können vom Typ A (Einfachauswahl), Typ X (wahr/falsch) oder PickN (Mehrfachauswahl) sein (vgl. http://www.let.ethz.ch/exam_eval/onlinetests/faq/nomenklatur_fragetypen.pdf). Während bei manueller Klausurkorrektur (A) Dozenten die Fragen meist direkt in einem Textverarbeitungsprogramm formatieren, sind bei B und C indirekte Formate üblich. Entweder können die Fragen aus einer Datenbank selektiert werden oder die Dozenten geben die Fragen in einem bestimmten Format ein und der Computer generiert daraus die Klausurvorlage. Auch dabei gibt es zwei Varianten: entweder die Eingabe über ein Formular oder die Eingabe in einem Textverarbeitungssystem mit Layout-Vorgaben, das erst durch einen Parse-Vorgang in das interne Format überführt wird. Um Abschreiben zu erschweren, werden bei Option A oft zwei bis vier Klausurvarianten durch Vertauschen von Fragen und Antwortalternativen manuell erstellt. Bei Option B und C wird das Vertauschen meist automatisiert, so dass jeder Teilnehmer eine andere Klausurvariante bekommt.

Im Rahmen unserer Studie gab es noch keine Fragedatenbank. Dafür wurden die Dozenten weitgehend von der Formatierung entlastet, indem sie Prüfungen als Word-Datei an einen Koordinator geschickt haben, der die notwendigen Formatierungen vorgenommen hat. Es wurden Einfach- und Mehrfachauswahlfragen (Typ A und PickN) verwendet. Letzteres ist in Tabelle 2 [Tab. 2] durch ein „ja“ in der Spalte „mehrere Antworten pro Frage möglich“ gekennzeichnet. Während es im WS 2009/2010 ein relativ kompliziertes Eingabeformat mit vielen Optionen gab, wurde ab dem darauffolgenden SS 2010 das Eingabeformat an die häufigsten Vorlagen der Dozenten angeglichen und stark vereinfacht. Dieses vereinfachte Format (siehe Abbildung 1 [Abb. 1]) wurde den Dozenten mitgeteilt, um den Koordinator zu entlasten. Allerdings mussten die Dozenten sich nicht daran halten, da der Koordinator nach wie vor die Endredaktion übernommen hat. In unseren Aufwandsmessungen in Abschnitt 3 beginnen wir daher mit einer beliebig formatierten Klausurvorlage und messen als ersten Schritt den Aufwand der Nachformatierung durch den Koordinator.

Prüfungsvorbereitung und Klausurdurchführung

Dazu gehören die Aufwände und Kosten für das Ausdrucken der Klausur sowie die Aufwände für das Auslegen am Platz und die Klausuraufsicht. Das Ausdrucken kann auf eigenen Druckern oder im Copy-Shop erfolgen, wobei in letzterem Fall eine PDF-Datei geschickt wird und dann die fertigen Klausuren abgeholt werden. Die Klausuren werden meistens am Platz ausgelegt. Während bei personalisierten Klausuren dazu ein z.B. alphabetischer Sitzplan erstellt werden muss, damit die Teilnehmer ihre personalisierte Klausur finden, schreiben bei nicht-personalisierten Klausuren die Studierenden Name und Matrikelnummer auf die Antwortbögen, was dann in die Auswertungsdatei übertragen werden muss. Die Klausuraufsicht erfordert je nach Anzahl der Teilnehmer eine oder mehrere Personen.

An der Universität Würzburg lassen sich die Kosten für das Ausdrucken typischer Medizinklausuren wie folgt schätzen: Bei ca. 140 Teilnehmern und ca. 35 Fragen werden ca. 140*20=2800 Seiten gedruckt, was bei Kosten von 2 Cent pro Kopie etwa 56 Euro pro Klausur ausmacht (die weiterhin von den Dozenten aufgebracht werden müssen; bei Verwendung von Farbkopien entsprechend höher). In Tabelle 2 [Tab. 1] ist in der Spalte „Personalisierung“ gekennzeichnet, ob personalisierte Klausuren verwendet wurden, und in der Spalte „Randomisierung“, ob Fragen und Antworten automatisch vertauscht wurden, um Abschreiben zu erschweren. Um die Korrektur zu vereinfachen, wurde ein separater Antwortbogen (siehe Abbildung 2 [Abb. 2], links wie im SS 2010, rechts wie im WS 2010/11 eingesetzt) erstellt, auf dem zu allen Fragen die Antwort-Nummern angekreuzt werden. Nach ersten Erfahrungen mit den Einscannen im WS 09/10 wurde im SS 2010 wesentlich mehr Wert auf gute Druckqualität und auf die Verwendung von Bleistift und Radiergummi zur Vermeidung von Schmierereien gelegt, was den Automatisierungsgrad bei der Korrektur deutlich verbessert hat (siehe Abschnitt Klausurauswertung). Der Schritt Prüfungsvorbereitung und Klausurdurchführung fasst Aufwände zusammen, die in unserem Modell bei den Dozenten liegen, d.h. das Drucken und Heften mit ca. ½ - 1 Stunde (entweder auf eigenem Drucker mit Heften oder in einem Copy-Shop mit Hin- und Rücktransport) sowie die Vorbereitung und Aufsicht bei der eigentlichen Klausur mit typischerweise zwei Personen für ca. eine Stunde Klausurzeit. Da diese Aufwände von ca. 3 Stunden bei jeder Papierklausur anfallen und unabhängig vom Koordinator sind, werden sie in Tab. 2 [Tab. 2] nicht gesondert ausgewiesen, aber in der Diskussion berücksichtigt.

Klausurauswertung

Während bei Option A die Dozenten die Klausuren manuell korrigieren und die Daten in ein Tabellenkalkulationsprogramm übertragen und bei Option C der Computer die Rohergebnisse sofort liefert, hängt die Effizienz bei der Option B von der Scan-Geschwindigkeit und Qualität ab. Da häufig nachträglich noch einzelne Fragen aus der Wertung genommen werden bzw. das Notenschema angepasst wird, ist in allen Optionen A, B, C die Einfachheit der Anpassung der Auswertung wichtig. Weiterhin werden bei den Optionen B und C verschiedene Statistiken (z.B. Trennschärfe der Fragen) automatisch erzeugt.

Das Hauptaugenmerk dieser Studie dient der genauen Analyse des Zeitaufwandes der Klausurauswertung für die Option B. Dazu wird dieser Schritt in Teilschritte zerlegt:

  • Das Scannen umfasst im einfachsten Fall das Einlegen der Antwortbögen in einen Scanner. Bei manchen Klausuren waren die Antwortbögen an die Angabenblätter geheftet oder die Antwortbögen verschiedener Klausuren waren vermischt, so dass sie vorher abgetrennt bzw. sortiert werden mussten. Diese Aufwände wurden mitgezählt. Während im WS 09/10 ein Hochleistungsscanner in der Universitätsbibliothek verwendet wurde, der aber wegen der Transportzeiten und der Notwendigkeit von Terminvereinbarungen unpraktisch war, wurde ab dem SS10 ein preisgünstiger Scanner (ca. 1000 Euro) für die Klausurauswertung beschafft, der allerdings nur über einen Blatteinzug von 50 Blättern verfügte und qualitativ nicht so gut war. Die geringere Scan-Qualität konnte jedoch durch eine bessere Auswertungssoftware (s. nächsten Punkt) kompensiert werden.
  • Die Auswertung umfasst die automatische Kreuzerkennung der eingescannten Blätter mit manueller Kontrolle und ggf. Nachbearbeitung. Das Programm zur Kreuzerkennung wurde in jedem der drei betrachteten Semester überarbeitet und jeweils durch eine verbesserte Version ersetzt. Alle Versionen boten eine übersichtliche Darstellung zur manuellen Kontrolle an, in der die sicher erkannten Kreuze grün, die als unsicher erkannten Kreuze rot markiert waren und eine gelbe bzw. rosa Markierung verwendet wurde, wenn die Anzahl der erkannten Kreuze größer oder kleiner als die Anzahl der erwarteten Kreuze ist. Die aktuelle Version, die seit dem WS2010/11 eingesetzt wird, kombiniert drei verschiedene Verfahren zur Kreuzerkennung, was zwar die Laufzeit des Kreuzerkennungsprogramms verlängert, aber den Aufwand der manuellen Nacharbeit deutlich reduziert. Das Ergebnis der Kreuzerkennung ist in allen Versionen eine Excel-Tabelle mit den Bewertungen für jeden Teilnehmer und jede Frage einschl. verschiedener Statistiken wie Trennschärfe sowie Dokumente für die Klausureinsichtnahme.
  • Wenn einzelne Fragen missverständlich formuliert wurden oder aus anderen Gründen angepasst oder aus der Wertung genommen werden müssen, entsteht ein Aufwand zur Anpassung der Auswertung. Obwohl dieser Aufwand inhaltlich bedingt ist, haben wir ihn in Tabelle 2 [Tab. 2] mit ausgewiesen.
  • Der allgemeine Kommunikationsaufwand wird in Tabelle 2 [Tab. 2] unter der Spalte „Sonstiges / Support“ aufgeführt. Er nimmt naturgemäß im Laufe der Semester ab, wenn die Dozenten mit dem Vorgehensmodell der Klausurdurchführung vertraut sind, aber ist bei Komplikationen höher.

Bei allen Klausuren in Tabelle 2 [Tab. 2] mit einer Ausnahme im SS 2010 bekamen die Teilnehmer verschiedene Klausurbögen mit gleichen Fragen, indem die Reihenfolge der Fragen bzw. Antwortalternativen vertauscht wurden („Randomisierung = ja“ in Tabelle 2 [Tab. 2]). Die Wahl dieser Option erfordert Vertrauen in die Technik, da mit randomisierten Klausuren eine manuelle Korrektur sehr aufwändig wäre. Anderer¬seits ist es ein wichtiges Argument für den Einsatz computergestützter Klausuren, da so Abschrei¬ben deutlich erschwert und das Auslegen der Klausurvarianten im Prüfungsraum vereinfacht wird. Eine Übersicht über das Prozessmodell bei der Klausurerstellung und -bearbeitung zeigt Abbildung 3 [Abb. 3].


Ergebnisse

Im WS 09/10 wurden elf, im SS 2010 zwölf und im WS 10/11 dreizehn Multiple-Choice-Papierklausuren in der Medizin mit Computerunterstützung erstellt und ausgewertet. Alle Klausuren bis auf eine waren randomisiert. Während ab dem SS 2010 die Aufwände vom Koordinator protokolliert wurden, gab es für das WS 09/10 vom gleichen Koordinator nur nachträgliche grobe Abschätzungen für eine typische Klausur ohne besondere Komplikationen. Die Ergebnisse zeigt Tabelle 2 [Tab. 2].

Im SS 2010 und WS 10/11 waren bis auf vier Klausuren alle personalisiert, d.h. für jeden Teilnehmer wurde Name und Matrikelnummer auf der Klausur aufgedruckt (mit Reserve-Klausuren für nicht angemeldete Nachzügler). Es nahmen im SS 10 bzw. WS 10/11 durchschnittlich 143 bzw. 137 Teilnehmer an einer Klausur teil, die im Schnitt jeweils 37 Fragen umfasste. Knapp die Hälfte der Klausuren erlaubte mehrere Antworten pro Frage, die anderen nur genau eine Antwort. Gemessen wurde der zeitliche Aufwand für den Koordinator, der den Dozenten bei der Klausurerstellung und Auswertung hilft. Der durchschnittliche Zeitaufwand wird entsprechend den Ausführungen in Abschnitt 2 in fünf Bereiche aufgeteilt:

  • Nachbearbeitung der Klausurvorlage: Während sie im WS 09/10 noch 2-3 Stunden dauerte, sank die Zeit im SS 10 und WS 10/11 auf nur 49 Minuten; bei komplikationslosen Klausuren sogar auf 32 bzw. 23 Minuten. Hier ist ein weiteres Absinken zu erwarten, da es für die Dozenten nur eine Frage der Gewöhnung ist, welches Format sie an den Koordinator schicken. Je ähnlicher es dem in Abbildung 1 [Abb. 1] gezeigten (WORD-)Eingabeformat ist, desto weniger Nacharbeit fällt für den Koordinator an.
  • Scannen: Der Scan-Aufwand hängt hauptsächlich von der Größe des Blatteinzuges und der Scan-Geschwindigkeit ab. Mit dem derzeit benutzten, relativ einfachen Scanner dauert das Einscannen einer Klausur ohne Komplikationen mit ca. 140 Antwortbögen im günstigen Fall 20-25 Minuten. Der tatsächlich gemessene Durchschnittswert aller Klausuren lag im WS 10/11 bei 28 Minuten und im SS 2010 bei 42 Minuten, was hauptsächlich dadurch bedingt war, dass die Einstellungen am Scanner für jede Klausur angepasst werden mussten, um ein optimales Ergebnis zu erzielen. Die notwendigen Schritte werden mittlerweile durch die Auswertungssoftware erledigt bzw. sind durch den Verzicht auf Grauwerte auf dem Antwortbogen entfallen.
  • Auswertung: Der kritischste Schritt ist die Auswertung der Kreuzerkennung auf den Antwortbögen, da davon die Praktikabilität des ganzen Verfahrens abhängt. Um die Qualität der Kreuzerkennung zu sichern, ist ein manueller Überprüfungsschritt mit Darstellung der erkannten Kreuze in den Ampel-Farben (siehe Abschnitt 2) Teil der Auswertung. Der durchschnittliche Aufwand war im WS 10/11 und im SS 10 jeweils etwa 50 Minuten für Klausuren mit ca. 140 Teilnehmern und 37 Fragen pro Klausur. Da verschiedene Kreuzerkennungssoftware eingesetzt wurde, ist es allerdings aussagekräftiger, den Auswertungsaufwand aller Klausuren zu betrachten, die mit der neuen Kreuzerkennung korrigiert wurden, d.h. alle Klausuren im WS 10/11 außer den beiden Pathologie-Klausuren. Hier hat sich die durchschnittliche Auswertungszeit mit nur 26 Minuten pro Klausur fast halbiert.
  • Anpassung der Auswertung: Der Aufwand hängt von Faktoren ab, die sich durch die Art der Auswertung nicht beeinflussen lassen und geht nur indirekt ein, da die verwendete Software ein Korrigieren des Bewertungsschemas oder ein Herausnehmen einzelner Fragen aus der Wertung relativ einfach machen sollte. Der durchschnittliche Aufwand war im WS 10/11 und im SS 10 jeweils ca. 20 Minuten und lag in den meisten Fällen bei 0. Lediglich in der Klausur Infektiologie im WS 2010/11 war er bedingt durch Besonderheiten der Anpassung mit 180 Minuten ungewöhnlich hoch.
  • Sonstiges/Support: Die allgemeine Kommunikation zusätzlich zu den angegebenen Zeiten lag im WS 10/11 bei 12 Minuten, im SS 10 bei 20 Minuten.

In der Summe ist der Aufwand der Klausurbearbeitung ohne Ausdrucken und Klausuraufsicht mit ca. 140 Teilnehmern und ca. 35 Fragen für den Koordinator von 5-7 Stunden für „gute“ Klausuren ohne Komplikation im WS 2009/2010 über ca. 2 Stunden im SS 2010 auf ca. 1,5 Stunden im WS 2010/11 gefallen. Für die am effizientesten korrigierte Klausur „Allgemeinmedizin“ betrug der Aufwand im WS 10/11 sogar nur 65 Minuten bei 121 Teilnehmern und 30 Fragen. Mit Komplikationen stieg die durchschnittliche Zeit auf 160 bzw. 179 Minuten pro Klausur im WS 10/11 bzw. im SS 2010; im WS 2009/2010 ist die Zahl sehr viel höher und nicht ausgewiesen. Die Zahlen zeigen deutlich, dass die Existenz und die Behandlung von Komplikationen für die durchschnittliche Gesamteffizienz fast genauso wichtig sind wie das Basismodell.


Diskussion

Insgesamt lässt sich feststellen, dass im SS 2010 und noch mehr im WS 10/11 die Zeitaufwände für Dozenten und Koordinatoren ziemlich gering sind. Obwohl immer Raum für weitere Verbesserungen besteht, dürften die Durchschnittswerte der 9 komplikationslosen Klausuren im WS 2010/11 schon ziemlich nah am Optimum von ca. 1 bis 1,5 Stunden Zeitaufwand pro Klausur liegen (ohne Berücksichtigung des inhaltlichen Aufwandes). Dazu muss noch die Zeit für das Ausdrucken der Klausur von 0,5 bis 1 Stunde addiert werden. Die Gesamtzeit ist vergleichbar mit dem minimalen Zeitaufwand für die Klausuraufsicht von ca. 2 Stunden, die nicht optimierbar ist. Allerdings wurden diese Zahlen nicht auf Anhieb erreicht, da in der Einführungsphase im WS 2009/2010 die Zeitaufwände für Klausuren ohne Komplikationen mit 5 bis 7 Stunden für die Dozenten deutlich größer waren und der Koordinator insbesondere bei Klausuren mit Komplikationen einen beträchtlichen Zusatzaufwand hatte.

Dabei scheinen die Anzahl der Klausurteilnehmer und die Anzahl der Fragen pro Klausur nur einen relativ geringen Einfluss auf den Gesamtaufwand zu haben, da mehr Fragen zwar einen erhöhten Formatierungsaufwand bedingen, und mehr Fragen und mehr Teilnehmer den Scan- und Auswertungsaufwand erhöhen, der Zusatzaufwand sich im Vergleich zu dem Basisaufwand aber in Grenzen hält. Allerdings lassen die empirischen Daten dazu keine klaren Aussagen zu, da die Klausuren relativ homogen bezüglich Fragen- und Teilnehmerzahl sind und die wenigen Klausuren mit stärkeren Abweichungen Komplikationen hatten und deswegen nicht vergleichbar sind.

Wir greifen aufgrund dieser Daten die Gesamtkostenmodelle für die Optionen A, B und C aus [7] und [1] auf und vergleichen sie auf qualitativer Ebene mit den hier ermittelten Aufwänden der Option B. Im Vergleich der Optionen A und B bleiben die Aufwände für die Erstellung der Klausur und die Klausurdurchführung ungefähr gleich, lediglich bei der Klausurauswertung gibt es Unterschiede: Während die Korrekturzeit bei Option A, die in [7] mit 13,5 Stunden pro Klausur und in [1] noch sehr viel höher geschätzt wurde, in unseren Analysen bei Option B ohne Komplikationen auf ca. 1 bis 1,5 Stunden sinkt, kommen zusätzliche Kosten für den Scanner (ca. 1000 Euro) und für die Entwicklung bzw. Anschaffung der Software und deren Wartung hinzu (die an der Universität Würzburg gering ausfielen, da die Korrektursoftware nur eine zusätzliche Komponente im Rahmen eines großen Blended Learning Projektes ist; s.o.). Im Vergleich der Optionen B und C sind die Korrekturzeiten grob vergleichbar und in beiden Optionen ist die Entwicklung bzw. Anschaffung von Software und deren Wartung notwendig. Während bei B Zeitaufwand für das Erzeugen und Ausdrucken des Klausurdokumentes anfällt (ca. 0,5 Stunden für Klausurformatierung und 0,5 bis 1 Stunde für das Drucken), müssen bei C Tests auf Funktionsprüfungen der Computer berücksichtigt werden, die in [7] nicht ausgewiesen sind, aber in [1] 8 bis 32 Stunden umfassen. Ähnliches gilt für die Prüfungsdurchführung, da bei C zusätzlich zur fachlichen Klausuraufsicht auch technisch versiertes Personal anwesend sein sollte, was bei B entfällt. Weitere Unterschiede gibt es bezüglich der Druckkosten (minimal ca. 56 Euro pro Klausur) und der Scanner-Investition bei Option B im Vergleich zu den Investitionen in die Infrastruktur, die zur Durchführung rein elektronischer Klausuren in Option C notwendig ist. Letztere sind schwer zu beziffern, da es viele Varianten gibt, die von kompletter Ausstattung eines Prüfungscenters mit eigenen Rechnern bis zu elektronischen Prüfungen auf Laptops der Studierenden reichen. Die Studie [1] deutet in diesem Zusammenhang an, dass geringere Investitionskosten einen (deutlich) höheren Zeitaufwand bedingen. Schließlich muss noch das Risiko und der Schweregrad von Komplikationen betrachtet werden, die bei C deutlich mehr ins Gewicht fallen als bei B.

Daher ist das Ziel, die Dozenten möglichst kostengünstig bei der Korrektur von Multiple-Choice-Klausuren zu entlasten, am besten mit der Option B, d.h. papierbasierten Klausuren mit Computerunterstützung, zu erreichen. Elektronische Klausuren lohnen sich derzeit nach unseren Untersuchungen nur dann, wenn auch die Möglichkeiten neuer Aufgabentypen jenseits von konventionellem Multiple-Choice bei der Klausurerstellung genutzt werden, wie z.B. Long-Menu-Fragen oder anderen Fragetypen, das Zeigen von Videos, das Arbeiten an virtuellen Mikroskopen oder das interaktive Lösen von Trainingsfällen.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenskonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Bücking J, Schwedes K, Laue H. Computergestützte Klausuren an der Universität Bremen, ZMML (Zentrum für Multimedia in der Lehre), Arbeitsbericht. Bremen: Universität Bremen; 2007. Zugänglich unter/available from: http://www.eassessment.uni-bremen.de/documents/eKlausurenBerichtZMML.pdf Externer Link
2.
Fischer M, Kopp V. Computer-based pre-clinical assessment: Does the embedding of multiple-choice questions in a clinical context change performance? GMS Z Med Ausbild. 2006;23(3):Doc52. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000271.shtml Externer Link
3.
Frey P. Computerbasiert prüfen: Möglichkeiten und Grenzen. GMS Z Med Ausbild. 2006;23(3):Doc49. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000268.shtml Externer Link
4.
Hörnlein A, Ifland M, Klügl P, und Puppe F. Konzeption und Evaluation eines fallbasierten Trainingssystems im universitätsweiten Einsatz (CaseTrain). GMS Med Inform Biom Epidemiol. 2009;5(1):Doc07. DOI: 10.3205/mibe000086 Externer Link
5.
Hörnlein A, Mandel A, Ifland M, Lüneberg, E, Deckert J, Puppe F. Akzeptanz medizinischer Trainingsfälle als Ergänzung zu Vorlesungen. GMS Z Med Ausbild. 2011;28(3):Doc42. DOI: 10.3205/zma000754 Externer Link
6.
Kopp V, Herrmann S, Müller T, Vogel P, Liebhardt H, Fischer MR. Einsatz eines fallbasierten Computerprüfungsinstruments in der klinischen Lehre: Akzeptanz der Studierenden. GMS Z Med Ausbild. 2005;22(1):Doc11. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2005-22/zma000011.shtml Externer Link
7.
Krückeberg J, Paulmann V, Fischer V, Haller H, Matthies H. Elektronische Testverfahren als Bestandteil von Qualitätsmanagement und Dynamisierungsprozessen in der medizinischen Ausbildung. GMS Med Inform Biom Epidemiol. 2008;4(2):Doc08. Zugänglich unter/available from: http://www.egms.de/static/de/journals/mibe/2008-4/mibe000067.shtml Externer Link
8.
Möltner A, Duelli R, Resch F, Schultz JH, Jünger J. Fakultätsinterne Prüfungen an den deutschen medizinischen Fakultäten. GMS Z Med Ausbild. 2010;27(3):Doc44. DOI: 10.3205/zma000681 Externer Link
9.
Smolle J. Klinische MC-Fragen rasch und einfach erstellen – ein Praxisleitfaden für Lehrende. Berlin/New York: Walter de Gruyter; 2008.