gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Evaluation des Auswahlverfahrens von Medizinstudenten an der Universität Witten/Herdecke: Teil I: Inter-Rater-Reliabilität des Interviewverfahrens

Selecting medical students at the University of Witten/Herdecke : Part I: Evaluation of inter-rater-reliability in the interview selection process

Originalarbeit Humanmedizin

Suche in Medline nach

  • corresponding author Thomas Ostermann - Lehrstuhl für Medizintheorie, Fakultät für Medizin, Universität Witten/Herdecke, Herdecke, Deutschland
  • author Wilhelm Vermaasen - Studiendekanat der Fakultät für Medizin, Universität Witten/Herdecke, Deutschland
  • author Peter F. Matthiessen - Lehrstuhl für Medizintheorie, Fakultät für Medizin, Universität Witten/Herdecke, Deutschland

GMS Z Med Ausbild 2005;22(1):Doc13

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/journals/zma/2005-22/zma000013.shtml

Eingereicht: 15. Januar 2004
Veröffentlicht: 28. Januar 2005

© 2005 Ostermann et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Die Universität Witten/Herdecke wurde 1983 als erste deutsche Hochschule in privater Trägerschaft gegründet. Sie ist die einzige nichtstaatliche Universität in Deutschland, die einen Studiengang Humanmedizin anbietet. Als nichtstaatliche Hochschule ist sie nicht an das staatliche Vergabeverfahren durch die Zentralstelle für die Vergabe von Studienplätzen gebunden und hat im Zuge ihrer Autonomie ein eigenes Aufnahmeverfahren entwickelt. Um die Validität und Reliabilität des Auswahlverfahren zu untersuchen, wurde in einem ersten Schritt der Interviewprozess einer Evaluation unterzogen.

Material und Methoden: Grundlage der vorliegenden Untersuchung sind die Ergebnisse der Interviewperioden 1999 und 2000. Zur Überprüfung der Inter-Rater-Reliabilität wurde der Kappa-Koeffizient nach Cohen für mehrstufige nominalskalierte Variablen modifiziert nach Fleiss benutzt. Die Überprüfung von Unterschieden und Übereinstimmungen in den Beurteilungen der Bewerber wurde neben der Gesamtstichprobe separat für die Subgruppen Jahrgang, Altersgruppe, Abiturnote und Geschlecht durchgeführt.

Ergebnisse: Die Reliabilität ist mit Kappa-Werten zwischen 0,70 (Jahrgang 2000) und 0,88 (Jahrgang 1999) durchgängig als hoch zu bewerten. Zwischen den Jahrgängen zeigen sich allerdings deutliche Unterschiede in Bezug auf die Übereinstimmung der Interviewer. Es finden sich keine Unterschiede bei einer geschlechtsbezogenen Betrachtung (männlich: k=0,81; weiblich: k=0.8). Eine Tendenz zu einer geringeren Übereinstimmung kann bei der Subgruppenanalyse in Bezug auf die Abiturnote festgestellt werden, die mit Kappa Werten zwischen k=0.76 und k=0.82 schwankte.

Diskussion: Die Untersuchung zeigt, dass mit dem Aufnahmeverfahren zum Studium der Humanmedizin an der Fakultät für Medizin der Universität Witten/Herdecke ein reliables Instrument mit einer hohe Inter-Rater Reliabilität vorliegt, obwohl den beteiligten Interviewern keine einheitlichen Entscheidungskriterien und deren Gewichtung vorgegeben werden. Inwieweit einzelne Kriterien bzw. Konstellationen letztlich für eine Entscheidung maßgeblich waren, soll in einer nachfolgenden Arbeit untersucht werden.

Schlüsselwörter: Aufnahme-Interviews, Inter-Rater-Reliabilität, Auswahlverfahren, Medizinstudenten

Abstract

Background: The University of Witten/Herdecke was founded in 1983 as the first private university in Germany to teach medicine. The University is not part of the centralized state system of medical placement distribution but rather has its own concept and procedure relating to its choice of students. In order to evaluate reliability and validity of the process of selecting medical students at the University of Witten/Herdecke, the first step was to analyse the interview selection process.

Material and methods: The basic foundation of this examination were the results of the interview period of of the admission process from 1999 to 2000. In order to test inter-rater-reliability of the interviewers, a modified Cohen Kappa coefficient for multiple nominal scaled variables was used with regards to the group as a whole and also individually for the subgroups gender, admission year, age-groups and A Level results.

Results: With Kappa-values ranging from 0.70 in 2000 to 0.88 in 1999 the reliability of the interviewer-process is obvious. However there are clear differences in the two years examined with regards to agreement in the decisions of interviewers. In the subgroup analysis with regards to gender no differences in the Kappa values were seen (male: 0,81; female: 0.8). Slightly less agreement can be seen with regards to subgroup analyses of A Level results of applicants ranging from 0.76 to 0.82.

Discussion: In summary, this study shows that the application selection procedure for medicine at the medical faculty of the University of Witten/Herdecke is a reliable instrument with a high inter-rater reliability. This remains the case even though the interviewers do not seem to have standardized decision making criteria. Whether individual criteria/constellations were decisive with regards to the decision making process will be the subject of a further study.

Keywords: admission interviews, inter-rater reliability, selection, medical students


Einleitung

Die Universität Witten/Herdecke wurde 1983 als erste deutsche Hochschule in privater Trägerschaft gegründet. Sie ist die einzige nichtstaatliche Universität in Deutschland, die einen Studiengang Humanmedizin anbietet. Dass es vorwiegend Mediziner waren, die mit der Universitätsgründung eine grundlegende Neubestimmung und Neugestaltung einer Hochschulausbildung im allgemeinen und der Ärzteausbildung im speziellen anstrebten, dürfte kaum Zufall gewesen sein. Denn kaum ein universitärer Studiengang fand sich in Deutschland zum damaligen Zeitpunkt so verschult und durch so viele Vorschriften reglementiert, wie derjenige des Medizinstudiums [1], [2]. Der Wille zu einer Neugestaltung der Ausbildung zum Arzt erschöpfte sich daher nicht nur in der Anwendung hochschuldidaktischer Gesichtspunkte und der Erprobung neuer curricularer Techniken [3]. Zielführend war vielmehr das Anliegen, den Erwerb der Fähigkeit zu eigenständiger Erkenntnisarbeit und Urteilskraft, zu Gestaltungskraft und Verantwortungsübernahme, zu sozialer Kompetenz und lebenslanger Lernfähigkeit schrittweise zu ermöglichen und die Bereitschaft hierzu von den Studierenden zu erwarten.

Zum Zeitpunkt der Universitätsgründung gesellschaftlich und politisch eher verpönt, bedeutete dies zugleich die Neubesinnung auf einen Elitebegriff: nämlich statt des traditionellen Eliteverständnisses im Sinne einer Privilegienelite denjenigen einer Verantwortungselite zu verfolgen. Damit kommt der Frage nach der Auswahl der Studienbewerber eine zentrale Bedeutung zu. Als nichtstaatliche Hochschule ist die Universität Witten/Herdecke nicht an das staatliche Vergabeverfahren durch die Zentralstelle für die Vergabe von Studienplätzen gebunden. Im Zuge ihrer Autonomie hat sie ein eigenes Aufnahmeverfahren entwickelt mit dem Ziel, diejenigen Menschen zu finden, die bereit und in der Lage erscheinen, neben entsprechender Begabung und Motivation Ideenvermögen, Empathie und ärztlich-therapeutisches Engagement zu entwickeln [2], [4], [5].

Grundvoraussetzungen für die Aufnahme sind ein deutsches Hochschulreifezeugnis oder eine als äquivalent anerkannte Leistung sowie ein sechsmonatiges Krankenpflegepraktikum. Die Auswahl der Studenten erfolgt in einem zweistufigen Verfahren:

1. Beurteilung der schriftlichen Bewerbungsunterlagen (individuelle Darstellung des Lebenslaufs und der Motive für die Entscheidung zum Medizinstudium, Nachweise über bisherige Tätigkeiten und Praktika, Zeugnis der Hochschulreife) durch zwei Personen unabhängig voneinander. Hieraus Auswahl von Bewerbern zu nachfolgenden Interviews.

Aus durchschnittlich 500 Bewerbungen pro Jahr werden durch unabhängig voneinander vorgenommene Bewertung der Bewerbungsunterlagen durch jeweils zwei Rater etwa 120-150 Bewerber zu Interviews geladen.

2. Drei durch Pausen unterbrochene Interviews mit den Bewerbern durch je zwei Vertreter der Hochschule. Den Interviewern liegen dabei die schriftlichen Bewerbungsunterlagen der Kandidaten vor. Den beteiligten Interviewern werden keine einheitlichen Entscheidungskriterien oder Gewichtungen vorgegeben. Der Bewerber wird seinerseits aufgefordert, die Interviewer auf bereits in vorangegangenen Interviews gestellte Fragen, die in einem nachfolgenden Interview nochmals gestellt werden, aufmerksam zu machen. Nach den Interviews werden die Kandidaten in einem ersten Schritt durch jeden der insgesamt sechs Interviewer anhand einer 5-stufigen Skala (+, +O, O, O-, -) bewertet. Diese unabhängig für jeden Bewerber getroffenen Bewertungen werden in einer eingehenden gemeinsamen Abschlussdiskussion mit den anderen Interviewern diskutiert. Ziel ist es, unterschiedliche Eindrücke und Beurteilungen zusammenzuführen, um eine umfassende Grundlage für eine Abschlussbenotung zu gewinnen. Die Abschlussbenotung wird in eine Gesamtpunktzahl umgerechnet, und die Kandidaten werden gerankt.

Die höchstgerankten 42 Bewerber/innen erhalten nach Abschluss aller Interviews eine Studienplatzzusage. Durch Nichtannahme freiwerdende Plätze werden in der Folge des Rankings nachbesetzt.

Sowohl die Bewerter der schriftlichen Bewerbungen als auch die Interviewer rekrutieren sich dabei aus Dozenten der Hochschule (Fakultäten für Medizin, Biowissenschaften und Studium fundamentale), ehemaligen Studierenden sowie der Universität verbundenen Vertretern des öffentlichen Lebens.

Die Beurteilung der schriftlichen Bewerbungsunterlagen und die Beurteilung der Bewerber in den Interviews erfolgt unter den Kriterien Interessensspektrum und Ideenfähigkeit, Initiativkraft und Urteilsvermögens, Eignung zum Arzt und soziale Kompetenz. Ein weiterer Gesichtspunkt ist die Kompatibilität des Bewerbers zu den besonderen Gegebenheiten des Medizinstudiums an der UWH (Wissenschaftspluralismus, Studium fundamentale, Kleingruppenunterricht, problemorientiertes Lernen (POL) u.a.m.). Die Schwerpunktsetzung in der Bewertung des Kandidaten ist dabei individuell den Beurteilern überlassen. Trotz der individuell unterschiedlichen Schwerpunktsetzungen bei der Beurteilung haben Erfahrungswerte schon früh auf eine hohe „Inter-Rater-Reliabilität" hingedeutet [2].

Zur Überprüfung dieser Aussage und vor dem Hintergrund einer zunehmenden Tendenz zu standardisiert-anonymisierten Entscheidungsprozessen bei Auswahlverfahren an anderen Einrichtungen [6] wurde das hiesige Auswahlverfahren einer Validierung unterzogen, das zwei Komponenten überprüfte: Zum einen sollte die Frage nach der Inter-Rater-Reliabilität genauer untersucht werden. In einem zweiten Schritt soll überprüft werden, ob die ausgewählten Studierenden sich durch bestimmte gemeinsame Eigenschaften auszeichnen. In der vorliegenden Arbeit werden die Ergebnisse des ersten Teils der Untersuchung dargestellt.


Material und Methoden

Grundlage der vorliegenden Untersuchung sind die Ergebnisse der Interviewperioden 1999 (Studienbeginn 2000) und 2000 (Studienbeginn 2001). Neben den sechs Interviewbewertungen für die Bewerber wurde Geschlecht, Alter und Abiturnote der Bewerber erfasst. Daneben wurden Daten zur beruflich-akademischen Funktion der Interviewer erhoben und die Zusammensetzung der Interviewergruppen in den beiden Erhebungszeiträumen untersucht.

Um zu klären, ob verfahrensimmanent bereits hohe Übereinstimmungen in den Bewertungen erwartet werden können, wurden die Interviewer im Jahr 1999 instruiert, nach der Abschlussdiskussion ein möglichst einvernehmliches Urteil, insbesondere bei den hochgerankten Bewerbern zu erzielen. Im Jahr 2000 wurde diese Vorgabe fallengelassen.

Neben deskriptiven statistischen Verfahren zur Beschreibung der Basisdaten wurde zur Überprüfung von Unterschieden in der prozentualen Verteilung der Interviewer der Chi-Quadrat-Test angewandt. Für metrische Daten wurde der Student t-Test für die Testung von Mittelwertsdifferenzen herangezogen.

Zur Überprüfung der Inter-Rater-Reliabilität wurde der Kappa-Koeffizient nach Cohen für mehrstufige nominalskalierte Variablen, modifiziert nach Fleiss benutzt [7]. Dieser berechnet sich analog zum zweidimensionalen Fall nach der Formel Formel 1 , wobei Formel 2 die Wahrscheinlichkeit ist, dass ein beliebiges Urteilerpaar im Durchschnitt identisch geurteilt hat. Formel 3 gibt die Wahrscheinlichkeit an, mit der die Urteilsübereinstimmungen rein zufällig zustande gekommen sind (Zufallskorrektur). Die Berechnungsalgorithmen für Formel 2 und Formel 3 sowie die für die Signifikanzberechnungen zu den Kappa-Werte verwandte U-Test-Statistik sind in [8], S. 270 ff. ausführlich beschrieben. Zu den berechneten Kappa-Werten wurden außerdem 95%-Konfidenzintervalle angegeben und diejenigen Kategorien bestimmt, in denen die höchsten bzw. niedrigsten Übereinstimmungen vorlagen [9]. Die Überprüfung von Unterschieden und Übereinstimmungen in den Beurteilungen der Bewerber wurde neben der Gesamtstichprobe separat für die Subgruppen Jahrgang, Altersgruppe, Abiturnote und Geschlecht durchgeführt [10]. Hierzu wurde auf den den in [8] angegebenen Algorithmus zur kategorienspezifischen Berechnung des Kappa-Wertes zurückgegriffen.


Ergebnisse

Tabelle 1 [Tab. 1] gibt die soziodemografischen Grunddaten des Gesamtkollektiv sowie der einzelnen Jahrgänge wieder. Bezüglich der Verteilungcharakteristika ergeben sich zwischen den Jahrgängen keine signifikanten Unterschiede.

Abbildung 1 [Abb. 1] und 2 [Abb. 2] zeigen die prozentuale Zusammensetzung der Gesamtgruppe der Interviewer aus den unterschiedlichen universitären Bereichen und deren Anteile an der Gesamtzahl der Bewerberinterviews. Es ergeben sich keine signifikanten Unterschiede in der Zusammensetzung dieser Gruppen in den betrachteten Interviewperioden.

Sowohl in Bezug auf das Bewerberkollektiv als auch in Bezug auf die Interviewer liegen für die hier betrachteten Jahrgänge die notwendigen Voraussetzungen einer Vergleichbarkeit vor.

Die Kappa-Werte für die Beurteilung der Inter-Rater-Reliabilität sind in Abbildung 3 [Abb. 3] dargestellt. Neben dem berechneten Kappa-Wert sind die jeweiligen Konfidenzintervalle als Fehlerbalken grafisch dargestellt.

Die Reliabilität ist mit Kappa-Werten zwischen 0,70 (Jahrgang 2000) und 0,88 (Jahrgang 1999) durchgängig als hoch zu bewerten. Zwischen den Jahrgängen zeigen sich damit allerdings deutliche Unterschiede in Bezug auf die Übereinstimmung der Interviewer.

Es finden sich keine Unterschiede bei einer geschlechtsbezogenen Betrachtung. Eine Tendenz zu einer geringeren Übereinstimmung kann bei der Subgruppenanalyse in Bezug auf die Abiturnote festgestellt werden. Am uneinheitlichsten werden diejenigen Bewerber eingestuft, die eher schlechte Abiturnoten aufweisen. Ein solcher linearer Trend ist in der Betrachtung des Kappa-Koeffizienten für die unterschiedlichen Altersgruppen nicht festzustellen. Hier werden die Bewerber der mittleren Altersklasse am uneinheitlichsten bewertet.

Mit diesen Aussagen ist noch keinerlei Interpretation darüber möglich, in welchen Kategorien die größten Unterschiede festzustellen sind. Zu diesem Zweck wurden diejenigen Kategorien bestimmt, in denen die höchsten bzw. niedrigsten Übereinstimmungen vorlagen. Die entsprechenden Kappa-Werte sind in Tabelle 2 [Tab. 2] aufgeführt. Bis auf zwei Ausnahmen sind die Kategorien mit der höchsten Übereinstimmung die Kategorien O- (acht mal), +O (drei mal), sowie je einmal + und - bei den männlichen Bewerbern. Die Kategorie O hatte in acht Fällen den geringsten Kappa-Wert aller Kategorien.


Diskussion

Die hier durchgeführte Untersuchung analysiert die Inter-Rater-Reliabilität bei Aufnahmeinterviews von Bewerbern zum Studiengang Humanmedizin an der Fakultät für Medizin der Universität Witten/Herdecke. Die bereits in anderen Arbeiten [2], [11], [12] vermutete hohe Inter-Rater-Reliabilität konnte dabei anhand von Daten zweier Jahrgänge eindrucksvoll bestätigt werden.

Kritisch anzumerken ist jedoch, dass die in dieser Arbeit berechneten kategorienspezifischen Kappa-Werte darauf hinweisen, das in der nach dem Interview anschließenden Diskussion ein Trend vorliegt, von mittleren Beurteilungswerten O zu den angrenzenden Werten O- und +O zu wechseln. Die Neigung interindividuell unterschiedliche Urteile zu vereinheitlichen ist offenbar umso größer, je klarer aus den individuellen Noten vor der Abschlussdiskussion erkennbar wird, dass der Kandidat nicht in den Bereich der aussichtsreichen Bewerber gelangen wird. Das ursprüngliche Ziel bei der Einführung einer inhaltlich einvernehmlichen Urteilsbildung lässt sich aus den statistischen Analysen paradoxerweise besonders bei den in der Studienplatzvergabe nicht berücksichtigten Kandidaten aufzeigen. Die hier erkennbare Homogenität kann auf Tendenzen zur Urteilsvereinheitlichung der Interviewer bei fehlenden Konsequenzen für den Bewerber hindeuten.

Die Uneinheitlichkeit in der mittleren Kategorie O deuten wir als Hinweis auf eine indifferente Einschätzung des Kandidaten, die auch nach einer inhaltlichen Diskussion nicht auszuräumen war. Die relativ hohen Übereinstimmungswerte in den Kategorien + und +O implizieren ein hohe Kongruenz in Bezug auf die Bewertung von Einzelkriterien bzw. Kriterienkonstellationen bei den Bewerbern.

Neben den bisherigen bewerberbezogenen Kategorien ist die Tendenz einer einheitlichen Beurteilung vor allem Beim Vergleich der beiden Jahrgänge offensichtlich. Die berechneten Kappa-Werten von 0,7 für den Jahrgang 00/01 und 0,88 für den Jahrgang 99/00 zeigen eindeutig den Einfluss der Vorgabe für den Jahrgang 99/00 nach Anschlussdiskussion ein möglichst einvernehmliches Urteil zwischen den Interviewern zu bilden.

Zusammengefasst zeigt diese Untersuchung, dass das Aufnahmeverfahren zum Studium der Humanmedizin an der Fakultät für Medizin der Universität Witten/Herdecke ein reliables Instrument ist, bei dem eine hohe Inter-Rater Reliabilität vorliegt (siehe auch [13]), obwohl den beteiligten Interviewern keine einheitlichen Entscheidungskriterien und deren Gewichtung vorgegeben werden. Inwieweit einzelne Kriterien bzw. Konstellationen letztlich für eine Entscheidung maßgeblich waren, soll in einer nachfolgenden Arbeit untersucht werden. In einer noch ausstehenden Analyse soll ferner untersucht werden, inwieweit Interviewer ohne ausführliche Informationen zum Lebenslauf der Bewerber in ihren Bewertungen von denjenigen Interviewern abweichen, die zum Zeitpunkt der Interviews über diese Information verfügen.

Die vorgelegte Untersuchung schließt eine Lücke zwischen denjenigen Positionen, die über den inhaltlichen Wert von Aufnahmeinterviews kontrovers diskutieren [14]. Während einerseits Interviews als nicht standardisierbare Verfahren kritisch betrachtet oder sogar abgelehnt werden [15], [16], zeigen andere Untersuchungen deren Wert für die Auswahl geeigneter Studenten auf [13]. Dies gilt umso mehr für Fakultäten, die, wie im Beispiel der Universität Witten/Herdecke, den Spielraum innerhalb der staatlich vorgegebenen Ausbildungsordnung maximal ausnutzen, um zukunftsweisende Ausbildungsformen zu entwickeln [17] und dazu von Ihren Studierenden ein überdurchschnittliches Maß an Engagement und Kreativität erwarten.


Literatur

1.
Kienle G. Warum neue Wege in der Ausbildung zum Arzt? Ärztl Prax. 1982;34(93):3159.
2.
Matthiessen, PF. Das Medizinstudium an der Universität Witten/Herdecke: Versuch einer Neugestaltung der ärztlichen Ausbildung. In: Mohr J, Schubert C, eds. Arzt 2000, Perspektiven und Probleme einer Reform der Medizinierausbildung. Berlin; 1988. p. 102-15.
3.
Bornhöft G, Gross-Rollinger C, Peters K, Rützler M. Problemorientiertes Lernen in der Medizin. Austrian J Higher Educ. 1997; spec. issue.
4.
Kienle G, Kreysch W. Multiple-Choice-Prüfung und ärztliche Berufsfähigkeit. Dtsch Ärztebl. 1978;14:838-41.
5.
Kienle G. Numerus Clausus überflüssig. Ärztl Prax. 1979;31(11):429-31.
6.
Wood DF. Medical school selection-fair or unfair? Med Educ. 1999;33:399-401.
7.
Fleiss JL. Measuring nominal scale agreement among many raters. Psychol Bull. 1971;76:378-82.
8.
Bortz J, Lienert GA. Kurzgefaßte Statistik für klinische Forschung. Berlin u.a.:Springer-Verlag; 1998.
9.
Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa. Psychol Bull. 1969;72:323-7.
10.
Tutton PJ.Medical school entrants: semi structured interview ratings, prior scholastic achievment and personality profiles. Med Educ. 1993;27:328-36.
11.
McManus IC, Richards P. Reliability of short-listing in medical student selection. Med Educ. 1989;23(2):147-51.
12.
Mitchell G, Mitchell D, McGregor M. Selection of medical students--are interview evaluations consistent?. S Afr Med J. 1987;71(12):774-6.
13.
Powis DA, Neame RL, Bristow T, Murphy LB. The objective structured interview for medical student selection. Br Med J (Clin Res Ed). 1988;296(6624):765-8.
14.
Glick SM. Selecting medical students at Ben-Gurion University: An Antonovsky lagacy. Isr J Med Sci. 1996;32:166-9.
15.
Ehrenfeld M, Tabak N. Value of admission interviews in selecting of undergraduate nursing students. J Nurs Manag. 2000; 8:101-6.
16.
Faris I. Selection of medical students: time to change. Aust N Z J Surg. 1994;64:270-2.
17.
Feletti GI. Sanson-Fisher RW, Vidler M. Evaluating a new approach to selecting medical students. Med Educ. 1985;19(4):276-84.