gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Reliabilität des Hamburger Auswahlverfahrens für Medizinische Studiengänge, Naturwissenschaftsteil (HAM-Nat)

Forschungsarbeit Humanmedizin

Suche in Medline nach

  • author Johanna Hissbach - Universitätsklinikum Hamburg-Eppendorf, Institut für Biochemie und molekulare Zellbiologie, Hamburg, Deutschland
  • author Dietrich Klusmann - Universitätsklinikum Hamburg-Eppendorf, Institut und Poliklinik für Medizinische Psychologie, Hamburg, Deutschland
  • corresponding author Wolfgang Hampe - Universitätsklinikum Hamburg-Eppendorf, Institut für Biochemie und molekulare Zellbiologie, Hamburg, Deutschland

GMS Z Med Ausbild 2011;28(3):Doc44

doi: 10.3205/zma000756, urn:nbn:de:0183-zma0007562

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2011-28/zma000756.shtml

Eingereicht: 8. Oktober 2010
Überarbeitet: 29. März 2011
Angenommen: 1. Juni 2011
Veröffentlicht: 8. August 2011

© 2011 Hissbach et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Ziele: Die Universität Hamburg hat im Jahr 2005 begonnen, einen Naturwissenschaftstest zur Auswahl von Studienbewerbern zu entwickeln (Hamburger Auswahlverfahren für Medizinische Studiengänge, Naturwissenschaftsteil, HAM-Nat). Diese Studie ist ein weiterer Schritt, den HAM-Nat zu etablieren. Wir untersuchen

1.
die Paralleltest- und Retest-Reliabilität,
2.
die Auswirkungen eines Chemiekurses auf die Testergebnisse, sowie
3.
die Übereinstimmung der Testergebnisse des HAM-Nat mit denen des Testmoduls „Naturwissenschaftliches Denken“, das inhaltlich und strukturell dem Modul „Medizinisch-naturwissenschaftliches Grundverständnis“ des Tests für Medizinische Studiengänge (TMS) entspricht.

Methoden: 316 Studienanfänger nahmen an der Studie in der Orientierungseinheit im Jahr 2007 teil. Sie bearbeiteten verschiedene Versionen des HAM-Nat, die jeweils aus alten Fragen (HN2006) und neuen Fragen (HN2007) bestanden. Nach vier Wochen bekam die eine Hälfte der Studienanfänger erneut den HAM-Nat, allerdings nur die 2007er Version; die andere Hälfte bekam das Modul „Naturwissenschaftliches Denken“. Innerhalb dieser 4 Wochen konnten die Studienanfänger an einem fünftägigen Chemiekurs teilnehmen.

Ergebnisse: Die Paralleltest-Reliabilitäten für die vier Testversionen lagen zwischen rtt=.53 und rtt=.67. Die Retest-Reliabilitäten der beiden 2007er Testhälften lagen bei rtt=.54 und rtt=.61. Die HAM-Nat Versionen HN2006 und HN2007 korrelierten mit dem Modul „Naturwissenschaftliches Denken“ zu r=.34 und r=.21. Studierende, die zwischen Test und Testwiederholung einen Chemiekurs absolviert hatten, verbesserten dadurch nicht ihre Testleistungen.

Schlussfolgerungen: Die Ergebnisse lassen erwarten, dass weitere Testversionen zu naturwissenschaftlichem Wissen ebenfalls keine hohe interne Konsistenz, Paralleltest-Reliabilität oder Retest-Reliabilität ergeben. Daher ist für den Aufbau einer Sammlung von Items, die austauschbar für die Erzeugung von Parallelversionen benutzt werden können, große Sorgfalt erforderlich. Das Testmodul „Naturwissenschaftliches Denken“ misst im Wesentlichen etwas anderes als der HAM-Nat. Die Tatsache, dass die Teilnahme an einem Chemiekurs keinen Effekt auf die Leistungen im Chemie-Teil des HAM-Nat hatte, ist vermutlich auf fehlende Abstimmung der Inhalte des Kurses mit dem Test zurückzuführen und auf die geringe Motivation der Studienteilnehmer, besonders zum zweiten Testzeitpunkt.

Schlüsselwörter: Studienbewerberauswahl Medizin, Externe Validität, Reliabilität, Studieneingangstest


Einleitung

Auf der Suche nach einem geeigneten Auswahlverfahren für das Medizinstudium entwickelt die Universität Hamburg seit dem Jahr 2005 einen Naturwissenschaftstest (HAM-Nat) zur Studienbewerberauswahl. Hintergrund hierfür ist die Änderung der Gesetzeslage, die es den Universitäten erlaubt, 60% ihrer Studierenden selbst auszuwählen [1]. In Hamburg dürfen laut Gesetz zur Studienbewerberauswahl unter anderem schriftliche Auswahltests eingesetzt werden [2].

Vor 2008 wurden die Studienbewerber in Hamburg allein nach ihrer Abiturdurchschnittsnote ausgewählt. Dies ist ein einfaches Verfahren, und die Abiturnote hat sich als brauchbarer Prädiktor für Studienleistungen bewährt. Für die Kohorten von Medizinstudierenden von 1986/1987 fanden Trost et al. [3] eine Korrelation von r=0.48 für die Abiturnote mit dem Ergebnis des schriftlichen Teils des Physikums. Mit dem mündlichen Teil betrug die Korrelation r=.34 [3]. In ihrer Metaanalyse berichten Trapmann et al. [4] eine korrigierte prädiktive Stärke von r=.58 für Studiennoten im vorklinischen Studienabschnitt. Auch in ausländischen Studien [5] und in nichtmedizinischen Fächern [4] besitzen Schulabschlussdurchschnittsnoten eine hohe prognostische Validität. In einer prospektiven englischen Studie zeigte sich eine gewisse Vorhersagekraft von Schulabschlussnoten in Bezug auf die Berufsausübung von Ärzten [6].

Dennoch wird die Auswahl nach Abiturnote immer wieder kritisiert. Trapmann et al. [4] fassen zusammen:

1.
geringe Vergleichbarkeit der Abiturnoten zwischen den verschiedenen Schulen und Bundesländern,
2.
unzureichende Reliabilität und Validität von Schulnoten,
3.
unterschiedliche Bewertungsmaßstäbe für verschiedene Klassen und von verschiedenen Lehrern.

Die Vorhersagekraft der Abiturdurchschnittsnote für den Studienerfolg sinkt in späteren Abschnitten des Studiums. Weil sich sehr viele Abiturienten zum Medizinstudium bewerben, liegt der zur Zulassung erforderliche Notendurchschnitt auf einem hohen Niveau. Bewerber, die Hamburg mit erster Ortspräferenz wählten, mussten in den Jahren 2005 – 2007 einen Notendurchschnitt von mindestens 1,6-1,7 aufweisen, um zugelassen zu werden. Gerade weil die Abiturnoten in den verschiedenen Bundesländern auf verschiedenen Schulformen, Fächerkombinationen und Bewertungsmaßstäben basieren, wirft die Abiturnote als alleiniges Kriterium Fragen der Fairness auf [7]. Die Hinzunahme weiterer Auswahlkriterien kann die Nachteile der Abiturnote teilweise ausgleichen.

Einige deutsche Fakultäten setzen zur Ergänzung der Abiturnote den Test für Medizinische Studiengänge (TMS) ein, der zwischen 1986 und 1996 für alle Studienbewerber der Medizin verbindlich war. Dieser Test enthält zwar naturwissenschaftliche Fragen, zielt aber auf ein anderes Konstrukt: spezifische Studierfähigkeit [8]. Die Korrelationen von Abiturnote und TMS-Ergebnis zwischen r=.37 bis r=.48 deutet darauf hin, dass Schul- und Testleistung hinreichend unterschiedliche Leistungsaspekte erfassen [3]. Die Vorhersagekraft des TMS beruht im Wesentlichen auf vier medizinnahen Aufgabengruppen (medizinisch-naturwissenschaftliches Grundverständnis, Lösung quantitativer und formaler Probleme, Textverständnis, Verständnis von Diagrammen und Tabellen) [3].

Kenntnistests, die den Wissensstand in studienfachrelevanten Bereichen prüfen, werden bereits in vielen Ländern verwendet [9]. Unter anderem in Belgien [10] und Österreich [11] werden medizinspezifische Kenntnistests für die Studierendenauswahl eingesetzt. Reibnegger et al. [12] zeigten, wie nach Einführung eines Auswahlverfahrens gegenüber dem offenen Zugang die Anzahl der Studierenden, die in der Regelstudienzeit das Grundstudium absolvierten, von 23% auf 84% der Studierenden anstieg (Mittelwerte der 3 Jahre vor und nach der Einführung). Die Abbruchrate unter den Studienanfängern im ersten Studienjahr sank von 10% bei offenem Zugang auf 1% nach Einführung des Auswahlverfahrens. Der überwiegende Teil des Tests bestand aus naturwissenschaftlichen Fragen, ähnlich den Fragen des HAM-Nat.

In England wird seit 2003 an einigen Universitäten der Biomedical Admissions Test (BMAT) zur Bewerberauswahl eingesetzt. Der Wissensteil des Tests („scientific knowledge and application“) erwies sich als brauchbarer Prädiktor der Examensleistungen im ersten und zweiten Studienjahr [13]. Die Prädiktion durch den 2. Teil des BMAT, in dem ebenfalls mit Multiple-Choice Fragen Problemlösung, Textverständnis und die Interpretation von Daten und Grafiken überprüft wird („aptitude and skill“), ist deutlich schlechter [14].

In Deutschland gibt es neben dem HAM-Nat gegenwärtig kein Auswahlverfahren mit spezifisch naturwissenschaftlichem Inhalt für medizinische Studiengänge. Mit dem Kenntnistest für Naturwissenschaften HAM-Nat führen wir auch in Hamburg ein zweites Qualifikationskriterium neben der Abiturnote ein, das einheitlich für alle Bewerber gilt und dessen Testeigenschaften fortlaufend untersucht werden können. Der HAM-Nat soll naturwissenschaftliche Kenntnisse prüfen, die für den Erfolg im ersten Studienabschnitt wichtig sind. Damit sollen Bewerber ausgewählt werden, die eine gute Chance haben, erfolgreich zu studieren. Zugleich soll der Test die Möglichkeit geben, eine schwächere Abiturnote auszugleichen. Seit 2008 finden Studienbewerber auf der Homepage des Universitätsklinikums Eppendorf eine Internetseite mit Themenkatalog und Selbsttest (http:// www.uke.uni-hamburg.de/studienbewerber). Die Internetseite hat nicht nur das Ziel, über das Studium zu informieren und einen realistischen Test für naturwissenschaftliche Kenntnisse anzubieten, sondern sie soll auch die Studienbewerber dazu anhalten, ihre Motivation zum Studium und ihre Fähigkeit, es erfolgreich zu absolvieren, selbst zu prüfen. Gewünscht ist eine Selbstselektion, die der Selektion durch die Universität vorangeht. Vorbereitung auf den HAM-Nat ist zugleich auch Vorbereitung auf das Studium, denn die naturwissenschaftlichen Fragen des HAM-Nat prüfen genau das Wissen, auf dem die naturwissenschaftlichen Studienfächer aufbauen.

In einer Pilotstudie im Jahr 2006 wurden die ersten HAM-Nat Items zunächst Oberstufenschülern mehrerer Gymnasien vorgelegt. Daraus entstand die erste Testversion für die Studienanfänger der Kohorte 2006 [15]. Für eine weitere Voruntersuchung des Tests wurden für die Kohorte 2007 neue Items erzeugt. Damit stellt sich die Frage, ob die neue 2007er Testversion zu der 2006er Version parallel ist.

Die vorliegende Untersuchung soll diese Frage beantworten und darüber hinaus die Retest-Reliabilität prüfen. Weiterhin untersuchen wir den Effekt eines Lernprogramms (fünftägiger Trainingskurs) in Chemie auf die Testleistung und die Übereinstimmung des HAM-Nat mit dem Testmodul „Naturwissenschaftliches Denken“, das inhaltlich und strukturell dem TMS Subtest „medizinisch-naturwissenschaftliches Grundverständnis“ entspricht.


Methoden

Testentwicklung HAM-Nat

Einen Überblick über die Vorarbeiten zur Entwicklung der 2006er Version des HAM-Nat liefern Hampe et al. [15]. Nachdem 8 Items, die in der Vortestung an Gymnasiasten wenig trennscharf waren, entfernt worden waren, bestand der HN2006 aus 52 Items. Zu diesen Items erzeugte eine Arbeitsgruppe 60 inhaltlich und formal ähnliche Testfragen für einen Paralleltest – den HN2007. Diese 2007er Version des HAM-Nat besteht aus 60 Multiple-Choice Fragen aus medizinrelevanten Themengebieten der Fächer Mathematik, Chemie, Physik und Biologie auf dem Niveau der gymnasialen Oberstufe. Die Arbeitsgruppe bestand aus Gymnasiallehrern sowie von Dozenten der klinischen und theoretischen Fächer der medizinischen Fakultät.

Beispiel für eine HAM-Nat Frage:

Bei der Oxidation eines Aldehyds entsteht ...
A) ein Ester.
B) ein Keton.
C) eine Carbonsäure.
D) ein Alkohol.
E) ein Alken.

Eine der fünf Antwortalternativen ist jeweils richtig. Die Teilnehmer hatten pro Frage 1,5 Minuten Zeit zur Bearbeitung. Der aktuelle Themenkatalog sowie Fragen aus den Jahren 2006 und 2007 sind als Selbsttest auf der Internetseite des Universitätsklinikums Eppendorf (UKE) zu finden (http:// www.uke.uni-hamburg.de/studienbewerber).

Testmodul „Naturwissenschaftliches Denken“

Die Aufgabengruppe „Naturwissenschaftliches Denken“ ähnelt inhaltlich und strukturell dem Modul „medizinisch-naturwissenschaftliches Grundverständnis“ des Tests für Medizinische Studiengänge (TMS). Beide Tests wurden von der ITB-Consulting GmbH entwickelt. Das Testmodul beinhaltet 24 Multiple-Choice Aufgaben, die mit der Schilderung eines naturwissenschaftlichen Sachverhalts beginnen. Es werden verschiedene Behauptungen aufgestellt und der Testteilnehmer muss entscheiden, ob diese Behauptungen den vorangegangenen Beschreibungen nach richtig sind. Es gibt jeweils 5 Antwortalternativen, von denen eine richtig ist. Die Bearbeitungszeit ist auf 55 Minuten begrenzt. Die Aufgaben setzen kein spezifisch naturwissenschaftliches Wissen voraus, sondern zielen auf die Durchdringung eines Sachverhalts und die Fähigkeit zu schlussfolgerndem Denken ab. Das Recht, das Testmodul durchzuführen, wurde von der ITB-Consulting GmbH erworben.

Chemiekurs

Der fünftägige Chemiekurs wird regelhaft für die Studienanfänger der Medizin nach der Orientierungseinheit, aber vor Beginn des ersten Semesters am Fachbereich Chemie der Universität Hamburg angeboten. Ziel des Kurses ist, das unterschiedliche Vorwissen der Studierenden anzugleichen. Die Teilnahme ist freiwillig, die Durchführung tutorengestützt. Es werden mehrere parallele Kurse in Gruppengrößen von 30-40 Studienanfängern angeboten, in denen Themen der gymnasialen Oberstufe, wie z.B. der Materiebegriff, der Begriff der chemischen Reaktion und organische Verbindungen und deren Aufbau zunächst vom Tutor vorgestellt und anschließend in Übungsaufgaben bearbeitet werden. Die Inhalte des Kurses ähneln denen des HAM-Nat-Themenkataloges. Die Tutoren kannten diesen jedoch nicht und bereiteten die Teilnehmer nicht gezielt auf den HAM-Nat vor.


Studiendesign

1. Testzeitpunkt: Paralleltests

Der 2006er Test bestand aus zwei Testhälften A und B mit jeweils 26 Items. Da der Test zuvor im Internet veröffentlicht worden war, konnten diese Items den Probanden bekannt sein, sofern sie die Seiten besucht hatten. Der 2007er Test bestand aus den Testhälften C und D mit jeweils 30 Items, die neu entwickelt worden waren. Die Studienteilnehmer bearbeiteten jeweils zwei Testhälften (AC, AD, BC oder BD), nämlich 26 alte Fragen aus dem HN2006 und 30 neue Fragen aus dem HN2007 (siehe Abbildung 1 [Abb. 1]). Vor dem 2. Testzeitpunkt bestand die Möglichkeit, an dem freiwilligen fünftägigen Chemiekurs teilzunehmen. Die Anzahl der Tage, an denen die Studienanfänger am Kurs teilnahmen, wurde erfragt.

2.Testzeitpunkt: Retest und Testmodul „Naturwissenschaftliches Denken“ nach 4 Wochen

Die Studienteilnehmer wurden randomisiert in zwei Gruppen aufgeteilt. Vier Wochen nach der ersten Testung bearbeiteten 96 Testteilnehmer den kompletten HN2007, also die Testhälften C und D. Das bedeutet, dass sie eine Testhälfte schon kannten, während die andere für sie neu war. Eine Woche später bearbeitete die andere Hälfte der Studienteilnehmer (N=91) das Modul „Naturwissenschaftliches Denken“. Die Durchführung des Tests im Anschluss an eine Pflichtlehrveranstaltung wurde durch Mitarbeiter unserer Arbeitsgruppe organisiert und von Dozenten der Medizinischen Fakultät beaufsichtigt. Der Test „Naturwissenschaftliches Denken“ wurde eigens für die Studie durchgeführt, unabhängig von den offiziellen, bundesweit angebotenen TMS-Terminen für die Studierendenauswahl.

Stichprobe

Allen Studienanfängern der Medizin, die in der ersten Semesterwoche 2007 an der Orientierungseinheit der Universität Hamburg teilnahmen, wurde die Teilnahme am Test angeboten. Die Teilnahme war freiwillig, alle Probanden willigten schriftlich in die Verwendung ihrer Daten ein. Die Stichprobe setzt sich folgendermaßen zusammen (siehe Abbildung 1 [Abb. 1]): Für die Auswertung der Paralleltestreliabilität (1. Testzeitpunkt) liegen die HAM-Nat Daten von 316 Personen vor (77% der gesamten Kohorte). Die Stichprobe bestand aus einem Drittel Männer und zwei Drittel Frauen. Dies entspricht der Geschlechterverteilung der gesamten Kohorte. Die mittlere Abiturdurchschnittsnote war 1,8. Beim Wiederholungstermin (2. Testzeitpunkt) nahmen 170 Personen (54 % der Ausgangstichprobe) am Test teil, denen ein Ergebnis aus der ersten Testung zugeordnet werden konnte. Der zweite Testtermin war an ein Seminar mit verpflichtender Teilnahme gekoppelt. Anders als in der Orientierungseinheit waren viele Anwesende nicht bereit, ein zweites Mal am Test teilzunehmen. Der Vergleich von Testwiederholern und Teilnahmeverweigerern ergab keine signifikanten Unterschiede in der Abiturnote und der Geschlechterverteilung. Zum zweiten Testzeitpunkt bearbeiteten 91 Teilnehmer das Modul „Naturwissenschaftliches Denken“ und 79 erneut den HAM-Nat. Der Effekt des Chemiekurses kann an 52 Studierenden evaluiert werden, die den HAM-Nat vor und nach dem Kurs bearbeiteten und Angaben zur Teilnahme am Kurs machten. Nicht alle Teilnehmer absolvierten den kompletten Kurs, 15 Personen gaben an, mit 3 oder weniger Tagen und 37 mit mehr als 3 Tagen am Kurs teilgenommen zu haben.

Statistische Auswertung

Die Parallelität von Testformen drückt sich in gleichen wahren Werten und gleichen Fehlervarianzen aus. Anhaltspunkte für die Parallelität verschiedener Testversionen sind gleiche Mittelwerte und Streuungen, sowie eine hohe Korrelation zwischen den Testformen. Der Retest-Reliabilität liegt die Annahme zugrunde, dass sich zwischen zwei Messzeitpunkten die wahren Werte der Testteilnehmer nicht verändern und dass die Einflüsse von Messfehlern konstant sind. Sie bezeichnet den Grad der Übereinstimmung der Ergebnisse eines bestimmten Tests für dieselben Probanden bei wiederholten Messungen. Als Maß für die Paralleltest-Reliabilität und für die Übereinstimmung der HAM-Nat Ergebnisse mit dem Modul „Naturwissenschaftliches Denken“ und der Abiturnote wählten wir die Pearson Korrelation, für die Retest-Reliablitität des HN2007 Spearmans Rangkorrelation.

Cronbach’s α ist der Erwartungswert für die Korrelation zweier Itemsets mit dem Umfang k, die nach Zufall aus dem Universum aller möglichen Items (für das gegebene Konstrukt) ausgewählt wurden. Wenn die Tests HN2006 und HN2007 parallel sind, dann müssen die Korrelationen zwischen den Teilskalen aus HN2006 und den Teilskalen aus HN2007 ebenso hoch sein wie ihre internen Konsistenzen. Wenn die Korrelationen unterschiedlich sind, dann greifen entweder beide Tests nicht auf das gleiche Universum möglicher Items zu oder sie haben zwar ein Universum möglicher Items gemeinsam, sind aber keine Zufallsauswahlen daraus.

Für die Analyse der einzelnen Testhälften wurden die Summenscores des HN2006 und des HN2007 als Messwiederholung (Innersubjektfaktor) und die Gruppenzugehörigkeit (AC, AD, BC, BD) als Zwischensubjektfaktor im Allgemeinen Linearen Modell betrachtet. Ein signifikanter Messwiederholungseffekt bedeutet, dass die Testversionen unterschiedlich schwierig sind, Interaktionseffekte mit Gruppenzugehörigkeit geben Auskunft über die Unterschiedlichkeit der beiden Hälften innerhalb eines Tests.

Um den Effekt des Chemiekurses auf die Testleistung in Items aus dem Fach Chemie zu untersuchen, wurde die Teilnahme am Kurs als dichotome Variable (0 bis 3 Tage vs. mehr als 3 Tage) als Zwischensubjektfaktor in ein neues Modell mit aufgenommen, in dem die Fragen nach Fachgebiet (Chemiefragen vs. andere Fragen) und Testzeitpunkt (erste Testung vs. Retest) getrennt als Innersubjektfaktoren behandelt wurden. Für die Analysen wurde PASW 18 für Windows [16] verwendet.


Ergebnisse

Interne Konsistenz und Paralleltest-Reliabilität

Die Inter-Item-Korrelationen lagen für alle Skalen zwischen r=-.22 und r=.53 (Mittelwert: .06), die internen Konsistenzen der Testhälften lagen zwischen α=.56 und α=.69 (siehe Tabelle 1 [Tab. 1]) und die Paralleltest-Korrelationen zwischen r=.53 und r=.67 (siehe Tabelle 2 [Tab. 2]).

Retest-Reliabilität

Die Retest-Reliabilität wurde nur für die Testversion HN2007 berechnet. Für Testhälfte C betrug die Rangkorrelation rtt=.52 (n=46), für Testhälfte D rtt=.61 (n=34) (siehe Abbildung 2 [Abb. 2]). Die entsprechenden Pearson Korrelationen waren rtt=.54 und rtt=.56. Einige Testteilnehmer schnitten im Retest schlechter ab als bei ihrer ersten Testung (siehe Abbildung 2 [Abb. 2]). Wenn die 9 Teilnehmer, die in der zweiten Testung in einer der beiden Testhälften weniger als 6 Punkte erreicht hatten, aus der Rechnung ausgeschlossen wurden, erhöhte sich die Korrelation nicht (Testhälfte C rtt=.45, n=39; Testhälfte D rtt=.61, n=32), obwohl Abbildung 2 [Abb. 2] einen solchen Effekt suggerieren mag.

Unterschiede zwischen den Testversionen 2006 und 2007

Eine detailliertere Weise, die Unterschiede zwischen den Tests zu betrachten, bietet das Allgemeine Lineare Modell (ALM). Im ALM mit den Faktoren Testversion (HN2006 vs. HN2007) als Messwiederholungsfaktoren und Testhälfte (A oder B bzw. C oder D) als Zwischensubjektfaktor zeigte sich, dass von den 2007er Fragen signifikant weniger gelöst wurden als von den alten 2006er Fragen (38.5% vs. 45.2%, F1,312=101.5; p<.001). Während alle Testteilnehmer in den beiden 2006er Testhälften etwa gleiche Ergebnisse erzielen (F1,312=2.3; p=.128), ist die Testhälfte D ist mit 35.1% gelösten Fragen etwas schwieriger als Testhälfte C mit 40.6% gelösten Fragen (F1,312=11.4; p=.001). Wird der Zwischensubjektfaktor Geschlecht in das Modell aufgenommen, zeigt sich kein signifikanter Einfluss des Geschlechts auf die Leistungen in den verschiedenen Testversionen (F=.468, p=.495), obwohl die Männer in ihrer Gesamtleistung im Test besser abschneiden als die Frauen (44% vs. 40% richtige Antworten, T=-2.64; p=.009).

Effekt des Chemiekurses

Um den Effekt eines Chemiekurses zu untersuchen, wurde für die Chemiefragen und die übrigen Fragen (Biologie, Physik, Mathematik) getrennt untersucht, inwieweit sich die Ergebnisse in den beiden Testungen vor und nach dem Kurs unterscheiden. Die Chemiefragen wurden weniger häufig richtig beantwortet als die restlichen Fragen zu den Themengebieten Biologie, Physik und Mathematik (35.8% vs. 43.4% richtig Antworten, F78,1=25.6, p<.001). Es gab weder eine Verbesserung noch eine Verschlechterung der HN2007-Ergebnisse nach dem Chemiekurs (F1,78=0.26; p=.611), auch nicht für die Chemieitems (Interaktionseffekt: F1,78=0.26; p=.610).

Um den Einfluss der Dauer der Teilnahme am Kurs zu untersuchen, wurde die Variable „Intensität der Teilnahme am Kurs“ dichotomisiert in 0-3 Tage vs. 4-5 Tage. Da nicht alle Testteilnehmer angaben, ob sie am Kurs teilgenommen hatten, reduziert sich die Stichprobe auf n=52. Auch die Intensität der Teilnahme am Kurs hatte keinen signifikanten Effekt auf die gesamte Leistung im HN2007 (F1,50=2.4; p=.124) oder die Leistung in den Chemieitems (F1,50=0.1; p=.759). Wurde das Geschlecht als weiterer Faktor in das Modell aufgenommen, ergaben sich keine signifikanten Interaktionseffekte (alle p>.289).

Bekanntheit der Fragen

Bei der zweiten Testung war die eine Hälfte der Fragen für die Testteilnehmer bekannt, die andere Hälfte war neu. Die bekannten Fragen wurden in der zweiten Testung (41.5 %) nicht signifikant häufiger richtig beantwortet als in der ersten (40.1 %; F1,50=0.4; p=.543). Auch der Ausschluss von Testpersonen, die in der zweiten Testung sehr schlechte Leistungen zeigten, änderte nichts an diesen Ergebnissen.

Korrelation Abiturnote und HAM-Nat

Die Korrelation der Abiturdurchschnittsnote mit den unterschiedlichen HAM-Nat Versionen lag zwischen r=-.34 und r=-.13 mit einem Mittelwert von r=-.24 (siehe Tabelle 1 [Tab. 1]). Die Korrelation des Moduls „Naturwissenschaftliches Denken“ mit der Abiturnote betrug r=-.11 (n=90).

Korrelation mit dem Modul „Naturwissenschaftliches Denken“

Das Testmodul „Naturwissenschaftliches Denken“ korrelierte mit der Testhälfte A des HN2006 zu r=.34 und mit der Testhälfte B ebenfalls zu r=.34. Die Korrelationen mit den Testhälften des HN2007 lagen bei r=.19 für Version C und r=.23 für die Version D (siehe Abbildung 3 [Abb. 3]). Für die zusammengefassten Testhälften betrugen die Korrelationen mit dem Modul „Naturwissenschaftliches Denken“ r=.34 (HN2006, A+B) und r=.21 (HN2007, C+D). Die Korrelationen unterschieden sich nicht signifikant (p=.350, Testung mit Fisher‘s z [17]).


Diskussion

Die Ergebnisse zur Frage der Parallelität beider Testversionen lassen sich folgendermaßen zusammenfassen:

1.
Im neuen Test (HN2007) wurden signifikant weniger Items gelöst als im alten (HN2006) und die Wiederholung des gleichen Tests nach vier Wochen führte nicht zu besseren Testleistungen.
2.
Der alte und der neue Test unterschieden sich nicht signifikant bezüglich ihrer interner Konsistenzen und ihren Korrelationen mit einem dritten Test, dem Modul „Naturwissenschaftliches Denken“.
3.
Die internen Konsistenzen (Cronbach’s α) der jeweils aus den Testversionen gebildeten Testhälften unterschieden sich nicht signifikant von den Korrelationen der Testhälften (Paralleltest-Reliabilität).

Warum ist HN2006 leichter als HN2007? Möglich wäre, dass einige Studierende die Internetdarstellung des HN2006 kannten und dadurch einen Vorteil hatten. Doch dieser Effekt kann nicht sehr stark sein, denn die Studierenden waren bereits zugelassen und wenn sie sich mit dem HN2006 im Internet beschäftigt hatten, dann nicht, um sich auf eine ernsthafte Prüfung vorzubereiten. Wir wissen nicht, wie viele Probanden die Seite besucht haben. Zum Vergleich: Die Wiederholung der Testung mit Halbformen des HN2007 ergab nicht die geringste Verbesserung trotz des kurzen Zeitintervalls von vier Wochen zwischen Test und Retest. Warum sollte dann der vermutlich seltene und kursorische Besuch einer Internetseite einen Effekt haben? Wahrscheinlicher ist, dass 2007 die Erzeuger der Testfragen tatsächlich schwierigere Items produziert haben.

Einerseits stellen die unterschiedlichen Schwierigkeiten kein Problem für den HAM-Nat dar, weil der Zweck dieses Tests darin besteht, Bewerber in eine Rangreihe zu bringen, um die Zulassung zum Studium in Kombination mit anderen Faktoren (Abiturnote, weitere Tests) zu regeln. Solange zwei Tests dieselbe Rangreihe produzieren, sind sie auch austauschbar. Andererseits sollte ein Test, der als Auswahlkriterium herangezogen wird, ein greifbares Profil besitzen und seine Beschaffenheit nicht unkontrolliert von Jahr zu Jahr ändern.

Ein Maß dieser Reproduzierbarkeit ist die Rangkorrelation. Sie beträgt für Testhälften C des HN2007 r=.52 und für die Testhälfte D r=.61. Das sind keine hohen Werte, wenn man bedenkt, dass vier Wochen nach der ersten Testung die gleichen Items vorgelegt wurden. Der Grund für die geringe Reproduzierbarkeit der Rangreihe ist vermutlich ein Störfaktor, der für die gesamte Untersuchung gilt: Da es sich um keine echte Bewerbungssituation handelte, reflektieren die Testwerte nicht nur Wissensunterschiede sondern auch Motivationsunterschiede. Dies betrifft besonders den 2. Testzeitpunkt, zu welchem die Studienteilnehmer durch die Anforderungen des Studienbeginns stark gefordert waren. Hier hat nur noch knapp mehr als die Hälfte der Ausgangsstichprobe teilgenommen. Die niedrige Retest-Korrelation sollte daher als eine Unterschätzung betrachtet werden.

Die besonders schlechten Leistungen in Chemie könnten sich dadurch erklären lassen, dass der Chemieunterricht an den meisten Schulen erst später eingeführt wird als die anderen Naturwissenschaften und zudem häufiger in der Oberstufe abgewählt wird. Diese Schüler haben daher ein sehr viel geringeres Chemiewissen im Vergleich z.B. zum Biologiewissen von Schülern, die dieses Fach in der Oberstufe abgewählt, zuvor jedoch bereits viele Jahre ein Grundwissen erworben hatten. Daher ist es sinnvoll, einen Trainingskurs anzubieten, um die Wissenslücken im Fach Chemie zu schließen. Warum aber spiegelte sich die Teilnahme am Chemiekurs nicht in besseren Leitungen im Chemieteil des HAM-Nat? Dieser Teil der Studie ist besonders auf die Motivation beim Wiederholungstest angewiesen, die, wie oben beschrieben, wahrscheinlich nicht sehr hoch war. Möglicherweise erfassten aber auch die HAM-Nat-Items teilweise ein Wissen, das im Kurs nicht behandelt wurde. Auch dieser Befund lenkt die Aufmerksamkeit auf den Vorgang der Itemerzeugung. Neue Items sollten mit dem typischen Lehrmaterial korrespondieren, das Bewerber für ihre Vorbereitung benutzen. Nur so kann Vorbereitung die Chance auf Zulassung tatsächlich verbessern – eine der gewünschten Wirkungen des HAM-Nat. Zur Verbesserung des HAM-Nat im Jahr 2008 wurde daher ein Themenkatalog veröffentlicht, um den Studienbewerbern die Vorbereitung auf den Test zu erleichtern. Alle Fragen des 2008er HAM-Nat können eindeutig einem oder mehreren Themengebieten des Katalogs zugeordnet werden.

Die gegenüber dem HN2006 nicht signifikante, aber leicht geringere interne Konsistenz des HN2007 könnte dadurch erklärbar sein, dass bei dieser Version keine Vorselektion von Items nach Trennschärfe stattfand wie bei der Version HN2006. Um das zu prüfen, haben wir für beide Versionen Items ausgeschlossen, die Trennschärfen <.10 aufwiesen und die interne Konsistenzen neu berechnet. In den 2006er Testhälften lagen nur 5 Items unter .10, während es für die beiden Testhälften des HN2007 insgesamt 15 waren. Wurden diese Items eliminiert, lagen die internen Konsistenzen für alle Testhälften zwischen .60 und .70. Damit sind die internen Konsistenzen nur geringfügig höher als die Korrelationen der Testhälften und wir können die Nullhypothese nicht zurückweisen, dass beide Tests auf das gleiche Universum möglicher Items zugreifen und Zufallsauswahlen aus einem gemeinsamen Universum möglicher Items sind.

Die niedrigen Korrelationen mit dem Test „Naturwissenschaftliches Denken“ waren zu erwarten, denn dieses Modul ist auf logisches Denken und andere Intelligenzfunktionen ausgerichtet, der HAM-Nat dagegen auf positives Wissen und dessen Anwendung.

Obwohl sich die beiden Testversionen lediglich hinsichtlich der Anzahl der gelösten Items signifikant unterscheiden, deuten die Ergebnisse darauf hin, dass es schwierig ist, parallele Testversionen für naturwissenschaftliches Wissen zu erstellen. Die irrtümliche Annahme einer Äquivalenz (ß-Fehler) in dieser Phase der Testentwicklung wäre nachteiliger als ein Irrtum in die andere Richtung.

Da es trotz vieler Maßnahmen zur Geheimhaltung der Fragen schwer ist zu verhindern, dass Testfragen an die Öffentlichkeit gelangen, müssen für jeden Jahrgang neue Items erzeugt werden. Doch ein gewisser Anteil alter Items mit günstigen Charakteristika sollte wiederverwendet werden, um die Testqualität zu erhöhen und um die Äquivalenz neuer Testversionen mit älteren einzuschätzen. Je mehr der Item-Pool aus vergangenen Tests anwächst, desto größer kann dieser Anteil sein.

Für die Analyse nachfolgender HAM-Nat Versionen sollen Methoden angewendet werden, die eine stichprobenunabhängige Schätzung der Testeigenschaften ermöglichen. Dafür eignen sich Modelle der Item Response Theorie [18]. Sie ermöglichen den Vergleich über verschiedene Testversionen und Studierendenkohorten hinweg. Hierfür benötigen wir einen Pool validierter Items, dessen Aufbau das Ziel unserer Arbeitsgruppe ist.


Danksagung

Wir danken dem Dekan Prof. U. Koch-Gromus und Herrn Dr. B. Andresen für Anregungen und lebhafte Diskussionen und ihre Unterstützung, sowie Herrn D. Münch-Harrach und Herrn C. Kothe für ihre Unterstützung bei der Datenverarbeitung. Diese Studie wird durch den Förderfonds Lehre des Dekanates der Medizinischen Fakultät Hamburg unterstützt.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenskonflikte in Zusammenhang mit diesem Artikel haben.


Literatur

1.
Bundesministerium für Bildung und Forschung. Hochschulrahmengesetz. BGBI. 2005;I:3835. Zugänglich unter/available from: http://www.bmbf.de/pub/HRG_20050126.pdf Externer Link
2.
Hansestadt Hamburg. Hochschulzulassungsgesetz Hamburg, HmbGVBI. 2004:515-517. Zugänglich unter/available from: http://www.landesrecht.hamburg.de/jportal/portal/page/bshaprod.psml?showdoccase=1&doc.id=jlr-HSchulZulGHArahmen&st=lr Externer Link
3.
Trost G, Flum F, Fay E, Klieme E, Maichle U, Meyer M, Nauels HU. Evaluation des Tests für Medizinische Studiengänge (TMS): Synopse der Ergebnisse. Bonn: ITB; 1998.
4.
Trapmann S, Hell B, Weigand S, Schuler H. Die Validität von Schulnoten zur Vorhersage des Studienerfolgs - eine Metaanalyse. Z Padagog Psychol. 2007;21(1):11-27. DOI: 10.1024/1010-0652.21.1.11 Externer Link
5.
Ferguson E, James D, Madeley L. Factors associated with success in medical school: systematic review of the literature. BMJ. 2002;324(7343):952-957. DOI: 10.1136/bmj.324.7343.952 Externer Link
6.
McManus IC, Smithers E, Partridge P, Keeling A, Fleming PR. A levels and intelligence as predictors of medical careers in UK doctors: 20 year prospective study. BMJ. 2003;327(7407):139-142. DOI: 10.1136/bmj.327.7407.139 Externer Link
7.
Wissenschaftsrat. Empfehlungen zur Reform des Hochschulzugangs. Berlin: Wissenschaftsrat; 2004. Zugänglich unter/available from: http://www.wissenschaftsrat.de/download/archiv/5920-04.pdf Externer Link
8.
Trost G. Test für Medizinische Studiengänge (TMS): Studien zur Evaluation, 20. Arbeitsbericht. Bonn: Institut für Test- und Begabungsforschung; 1996.
9.
Koeller O, Baumert J. Das Abitur - immer noch ein gültiger Indikator für die Studierfähigkeit? Politik Zeitgeschichte. 2002;B26. Zugänglich unter/available from: http://www.bpb.de/publikationen/0P7PYG,0,Das_Abitur_immer_noch_eing%FCltiger_Indikator_f%FCr_die_Studierf%E4higkeit.html Externer Link
10.
Janssen PJ. Vlaanderens toelatingsexamen arts-tandarts: resultaten na 9 jaar werking. Ned Tijdschr Geneeskd. 2006;62:1569-81. DOI: 10.2143/TVG.62.22.5002592 Externer Link
11.
Smolle J, Neges H, Macher S, Reibnegger G. Aufnahmeverfahren für das Medizinstudium: Erfahrungen der Medizinischen Universität Graz. GMS Z Med Ausbild. 2007;24(3):Doc141. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2007-24/zma000435.shtml Externer Link
12.
Reibnegger, G; Caluba, HC; Ithaler, D; Manhal, S; Neges, HM; Smolle, J. Progress of medical students after open admission or admission based on knowledge tests. Med Educ. 2010; 44(2): 205-214. DOI: 10.1111/j.1365-2923.2009.03576.x Externer Link
13.
Emery JL, Bell JF. The predictive validity of the BioMedical Admissions Test for pre-clinical examination performance. Med Educ. 2009;43(6):557-564. DOI: 10.1111/j.1365-2923.2009.03367.x Externer Link
14.
McManus IC, Ferguson E, Wakeford R, Powis D, James D. Predictive validity of the Biomedidcal Admission Test: An evaluation and case study. Med Teach. 2011;33:53-57. DOI: 10.3109/0142159X.2010.525267 Externer Link
15.
Hampe W, Klusmann D, Buhk H, Muench-Harrach D, Harendza S. Reduzierbarkeit der Abbrecherquote im Humanmedizinstudium durch das Hamburger Auswahlverfahren für Medizinische Studiengaenge - Naturwissenschaftsteil (HAM-Nat). GMS Z Med Ausbild. 2008;25(2):Doc82. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2008-25/zma000566.shtml. Externer Link
16.
PASW. Predictive Analysis SoftWare. Rel. 18.0.0 ed. Chicago: SPSS Inc.; 2009.
17.
Müller KH. Beitrag zum Prüfen der Differenz zwischen 2 Korrelationskoeffizienten. Biometr Z. 1971;13(5):342–361. DOI: 10.1002/bimj.19710130507 Externer Link
18.
Embretson SE, Reise SP. Item response theory for psychologists. Mahwah, N.J.: L. Erlbaum Associates; 2000.