GMS | GMS German Medical Science — an Interdisciplinary Journal | Evaluation im Medizinstudium: Zielgrößen, Erhebungsinstrumente und Störfaktoren

GMS German Medical Science — an Interdisciplinary Journal

Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF)

ISSN 1612-3174

Artikel

Artikel empfehlen

Evaluation im Medizinstudium: Zielgrößen, Erhebungsinstrumente und Störfaktoren – eine Annäherung

Übersichtsarbeit Medizinische Ausbildung

Suche in Medline nach

Sarah Schiekirka - Universitätsmedizin Göttingen, Studiendekanat, Göttingen, Deutschland
Markus A. Feufel - Charité – Universitätsmedizin Berlin, Prodekanat für Studium und Lehre, Berlin, Deutschland; Max-Planck-Institut für Bildungsforschung, Forschungsbereich Adaptives Verhalten und Kognition und Harding Zentrum für Risikokommunikation, Berlin, Deutschland
Christoph Herrmann-Lingen - Universitätsmedizin Göttingen, Klinik für Psychosomatische Medizin und Psychotherapie, Göttingen, Deutschland; Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften, Düsseldorf, Deutschland
Tobias Raupach - Universitätsmedizin Göttingen, Klinik für Kardiologie und Pneumologie, Göttingen, Deutschland; University College London, Health Behaviour Research Centre, London, Großbritannien

GMS Ger Med Sci 2015;13:Doc15

doi: 10.3205/000219, urn:nbn:de:0183-0002197

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/gms/2015-13/000219.shtml

Eingereicht:	2. April 2015
Überarbeitet:	31. August 2015
Veröffentlicht:	16. September 2015

© 2015 Schiekirka et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.

Gliederung

Zusammenfassung

Hintergrund und Fragestellung: Die Evaluation ist fester Bestandteil der Lehre an Medizinischen Fakultäten. Gemäß den Standards der Deutschen Gesellschaft für Evaluation müssen Evaluationsinstrumente eine faire und genaue Beurteilung der Lehrqualität erlauben. Entsprechend müssen die genutzten Erhebungsinstrumente eine hohe Reliabilität und Validität aufweisen. In dieser Übersichtsarbeit wird die verfügbare Literatur zur Evaluation des Medizinstudiums mit Hinblick auf die möglichen Dimensionen der Lehrqualität, die psychometrischen Eigenschaften der Instrumente und potentielle Störfaktoren dargestellt.

Methoden: Ausgehend von einer Schlagwortsuche in Pubmed, PsycINFO und PSYNDEX wurde eine Literatur-Recherche zur Evaluation im Medizinstudium durchgeführt. Berücksichtigung fanden Arbeiten, die bis zum 30.6.2011 in die Datenbanken aufgenommen wurden sowie „graue Literatur“. Die Ergebnisse werden in narrativer Form präsentiert.

Ergebnisse: Es wurden vier Dimensionen der Lehrqualität im Medizinstudium identifiziert: Strukturen, Prozesse, Dozenten-Charakteristika und das Lehr-Ergebnis. Zur Betrachtung der ersten drei Dimensionen werden in erster Linie studentische Bewertungen herangezogen. Hierfür liegen einige reliable, in deutscher Sprache verfügbare Instrumente vor. Die Validität studentischer Bewertungen wird jedoch durch zahlreiche potentielle Störfaktoren eingeschränkt. Zur Beurteilung des Lehr-Ergebnisses werden vor allem Prüfungsleistungen herangezogen, deren Nutzbarkeit allerdings aufgrund methodischer Probleme eingeschränkt sein kann. Zudem genügen nicht alle Prüfungen an deutschen medizinischen Fakultäten den gängigen Qualitätsstandards.

Folgerung: Die Auswahl von Instrumenten zur Evaluation des Medizinstudiums sollte sich daran orientieren, welche Dimension der Lehre beurteilt werden soll. Entsprechend können Evaluationsergebnisse auch nur vor dem Hintergrund des vom genutzten Erhebungsinstrument abgebildeten Konstrukts und dessen spezifischen Störfaktoren interpretiert werden.

Schlüsselwörter: Evaluation, Medizinstudium, Dimension, Störfaktor, Fragebogen

Gliederung

Einleitung

Das Medizinstudium muss höchsten Qualitätsstandards genügen, da die Absolventen medizinischer Fakultäten – in erster Linie Ärztinnen und Ärzte – große Verantwortung tragen. Zur Bewertung der Qualität der Lehre werden an allen deutschen medizinischen Fakultäten Evaluationen durchgeführt. Die Deutsche Gesellschaft für Evaluation hat bereits vor über zehn Jahren Standards für die Evaluation der Hochschullehre festgelegt. Diesen zufolge müssen Evaluationsinstrumente eine faire, genaue und verlässliche Beurteilung der Lehrqualität erlauben [1]. Auch ist zu berücksichtigen, dass das Medizinstudium einige Besonderheiten gegenüber anderen Studiengängen aufweist [2], [3], beispielweise wenig Freiheiten bezüglich der Kurswahl sowie spezifische Unterrichtsformen wie das Problem-orientierte Lernen (POL) oder der Unterricht am Krankenbett (UaK). Selbst in scheinbar allgemeintypischen Veranstaltungstypen wie Vorlesungen können Besonderheiten wie Patientenvorstellungen auftreten. Somit ist fraglich, ob Evaluationsinstrumente aus anderen Studiengängen problemlos auf die Lehre im Medizinstudium übertragbar sind. Grundsätzlich muss zur Beurteilung der Reliabilität und insbesondere der Validität der eingesetzten Verfahren zunächst bekannt sein, welches Konstrukt von „guter Lehre“ einem Evaluationsinstrument zugrunde liegt. In der vorliegenden Arbeit werden die Ergebnisse einer breit angelegten Literaturrecherche zum Thema „Evaluation im Studium der Humanmedizin“ vorgestellt, die von der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) finanziert wurde. Die Ergebnisse wurden im Anschluss an die Recherche in einem gemeinsamen Gremium der AWMF und des Medizinischen Fakultätentags diskutiert. Im Rahmen der Literaturrecherche sollten folgende Leitfragen beantwortet werden:

1.: In welchen Dimensionen kann die Qualität der medizinischen Lehre erfasst werden?
2.: Welche Instrumente kommen derzeit zum Einsatz und welche Zielgrößen werden von ihnen betrachtet?
3.: Welche psychometrischen Eigenschaften besitzen diese Erhebungsinstrumente?
4.: Was ist bei der Konstruktion von Fragebögen für die Evaluation im Medizinstudium zu beachten, und welche Störgrößen müssen bei der Interpretation der Ergebnisse berücksichtigt werden?

Gliederung

Methoden

Zur Beantwortung der genannten Forschungsfragen erfolgte eine breit angelegte Literaturrecherche, in die publizierte Original- und Übersichtsarbeiten, Dissertationen sowie so genannte „Graue Literatur“ in deutscher und englischer Sprache einbezogen wurden. In einer Schlagwortsuche in Pubmed, PsycINFO und PSYNDEX (Begriffe: „medical education“, „undergraduate medical education“, „medical curriculum“ kombiniert mit „evaluation“, „evaluation of teaching effectiveness“ und „student ratings“ bzw. die analogen deutschen Begriffe: „Medizinische Ausbildung“, „Medizinstudium“/„Studium der Medizin“, „medizinisches Curriculum“, „Evaluation“, „Lehrevaluation“, „studentische Bewertungen“) wurden zunächst relevante Arbeiten identifiziert, die seit Beginn der Erfassung in den jeweiligen Datenbanken bis zum 30.6.2011 publiziert wurden.

Eine Durchsicht der Literaturverzeichnisse dieser Arbeiten lieferte Hinweise auf weitere relevante Beiträge. Des Weiteren fand eine Suche direkt in den Online-Archiven folgender Zeitschriften statt: Deutsche Medizinische Wochenschrift, GMS Zeitschrift für Medizinische Ausbildung, Hochschulmanagement, Qualität in der Wissenschaft sowie Wissenschaftsmanagement. Ebenfalls wurde persönlichen Literaturempfehlungen von Experten auf dem Gebiet der medizinischen Ausbildungsforschung gefolgt und mittels der allgemeinen Internetsuchmaschine Google gesucht. Die Literatur wurde im Hinblick auf die Forschungsfragen gesichtet, bis eine inhaltliche Sättigung erreicht war (d.h. bis keine neuen inhaltlichen Aspekte mehr identifiziert werden konnten).

Aus den identifizierten Publikationen wurden in einer zweiten, tiefergehenden Durchsicht diejenigen Arbeiten extrahiert, aus denen Antworten auf die vier oben genannten Forschungsfragen abgeleitet werden konnten. Die inhaltliche Extraktion erfolgte anhand einer Vorlage, in die jeweils die betrachtete Dimension der Lehrqualität und das genutzte Datenerhebungsinstrument (falls verfügbar mitsamt den psychometrischen Eigenschaften, insbesondere Cronbach’s α) eingetragen wurde.

Gliederung

Ergebnisse

Insgesamt wurden 116 Arbeiten gefunden, davon 46 in Pubmed, 22 in PsycINFO und vier in PSYNDEX. Des Weiteren konnten 28 Arbeiten in Online-Archiven der oben genannten deutschen Zeitschriften, identifiziert werden. Die übrigen 16 Arbeiten wurden als Sekundärliteratur, Empfehlung oder durch allgemeine Internetsuchmaschinen gefunden. Eine komplette Liste der 116 Artikel ist in Anhang 1 [Anh. 1] verfügbar. Viele dieser Arbeiten waren jedoch nicht auf die medizinische Lehre bezogen, sondern enthielten eher allgemeine, für die Evaluation in der Hochschullehre relevante, Betrachtungen. Zudem fanden sich nicht in allen Arbeiten konkrete Antworten auf die oben formulierten Forschungsfragen. Zur Beantwortung der ersten drei Forschungsfragen wurde auf die Inhalte derjenigen 30 Volltext-Arbeiten zurückgegriffen, die einen direkten Bezug zum Medizinstudium aufwiesen. Hinsichtlich der vierten Forschungsfrage fanden sich in der medizinspezifischen Literatur kaum verwertbare Ergebnisse, so dass zu diesem Punkt auch die nicht-medizinspezifische Literatur einbezogen wurde (14 weitere Arbeiten). In der Komplettliste der 116 Volltext-Artikel wurden die Artikel gekennzeichnet, die zur Beantwortung der einzelnen Forschungsfragen herangezogen wurden.

Aufgrund der inhaltlich breit angelegten Forschungsfragen und folglich hohen inhaltlichen und strukturellen Heterogenität der eingeschlossenen Arbeiten entschieden wir uns für eine narrative Darstellung der Ergebnisse. Dieses Vorgehen wird aktuell für Übersichten empfohlen, in denen überwiegend quasi-experimentelle Studien berücksichtigt werden. In diesem Kontext erscheinen numerische Auswertungsverfahren (z.B. Meta-Analysen) zur Bearbeitung entsprechender Fragestellungen nicht optimal, da hierdurch das Spektrum der abgedeckten Inhalte unnötig eingeengt wird [4]. Nach aktueller medizindidaktischer Lehrmeinung [5] können narrative Übersichten bei guter wissenschaftlicher Durchführung einen höheren Informationsgehalt bieten als gemittelte Kennzahlen.

Die Präsentation orientiert sich an den vier oben genannten Fragen und wird innerhalb der ersten drei Forschungsfragen nach den vier verschiedenen Dimensionen der Lehre gegliedert, die im Folgenden genauer dargestellt werden.

Frage 1: Qualitäts-Dimensionen der medizinischen Hochschullehre

Alle in der publizierten Literatur beschriebenen Zielparameter zur Bewertung der Lehrqualität lassen sich einer von vier Dimensionen zuordnen [6]: Auf curricularer Ebene können sowohl strukturelle als auch prozedurale Kenngrößen der Lehre betrachtet werden; als drittes Qualitätskriterium stehen Dozenten-spezifische Charakteristika, als vierte Dimension das Ergebnis der Lehre zur Verfügung. Die Strukturdimension umfasst beispielweise die räumliche Ausstattung der Lehre, Arbeitsmaterialien sowie die Konzeption des Studiums. Der Lehrprozess meint Aspekte wie Interaktion oder Lehr-/Lernatmosphäre. Dozentenspezifische Charakteristika können unter anderem das didaktische Geschick sowie die Vorbereitung, aber auch der von den Studierenden wahrgenommene Enthusiasmus von Lehrenden sein. Die Ergebnisdimension beschreibt Aspekte wie den Lernerfolg und Entwicklung professioneller Einstellungen durch die Lehre.

Lehrbezogene Strukturen und Prozesse werden von vielen publizierten Evaluationsinstrumenten erfasst (siehe Frage 2), zumal die Datenerhebung und -auswertung leicht automatisierbar ist. Die reliable und valide Bewertung der Lehrleistung individueller Dozenten ist weitaus komplexer. Insbesondere aufgrund möglicher Konsequenzen solcher Evaluationsergebnisse für die Karriere wissenschaftlicher Mitarbeiter müssen die entsprechenden Instrumente besonders hohen psychometrischen Ansprüchen genügen.

Eine Beurteilung der Lehrqualität anhand der im Rahmen der Lehre erzielten Ergebnisse erscheint intuitiv. Blumberg [7] schlägt diesbezüglich drei Qualitäten vor: Als „educational outcome“ bezeichnet die Autorin die Entwicklung von Fertigkeiten zum eigenständigen lebenslangen Lernen. Unter „clinical career outcomes“ werden die für den Arztberuf erforderlichen Kompetenzen zusammengefasst (siehe auch [8]). Unter „environmental outcomes“ versteht Blumberg die Ausbildung einer professionellen Einstellung zur Lehre selbst – in dem Sinne, dass Absolventen die Weitergabe von Wissen und Fertigkeiten als eigene professionelle Aufgabe im Beruf verstehen und somit das Klima an Ausbildungsstätten prägen. Bislang fehlt aber ein allgemein anerkanntes Konzept zur Operationalisierung dieser “educational outcomes“.

Frage 2: Zielgrößen und Erhebungsinstrumente

Die folgende Darstellung der Zielgrößen und Erhebungsinstrumente orientiert sich wie oben bereits erwähnt an vier Dimensionen der Lehrqualität: Struktur, Prozess, Dozent und Ergebnis. Da eine trennscharfe Zuordnung der vier Dimension zu den einzelnen Instrumenten (und umgekehrt) nicht immer möglich ist, werden die verfügbaren Instrumente im Kontext derjenigen Dimension erörtert, auf die sie in erster Linie abzielen. Eine Zusammenschau aller identifizierten medizinspezifischen Instrumente bietet Tabelle 1 [Tab. 1].

Lehrbezogene Strukturen und Prozesse werden vorrangig mit Hilfe von Fragebögen evaluiert, die von den Studierenden selbst ausgefüllt werden. Einige der verfügbaren Instrumente decken sowohl Strukturen als auch Prozesse ab („Medical Student Experience Questionnaire“; MedSEQ; 32 Items [9] und „Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin“; 12 Items [10]). Vier weitere Instrumente beziehen sich in erster Linie auf lehrbezogene Prozesse und verwenden in diesem Kontext den Begriff „Lernumgebung“ („learning environment“). Das „Dundee Ready Education Environment Measure“ (DREEM; 50 Items [11]) steht seit kurzem auch auf Deutsch zur Verfügung [12]. Der sehr umfassende „Learning Environment Questionnaire“ (LEQ; 65 Items [13]) weist Überschneidungen mit dem etwas kürzeren „Measuring the School Learning Envionment Survey“ (MSLES; 50 Items [14]) auf.

Speziell für die Evaluation der klinischen Lehre wurde das Instrument „Medical Instructional Quality“ (MedIQ; 25 Items [15]) entwickelt, das vier Aspekte der klinischen Lehre im ambulanten Setting erfasst; unter anderem werden hier das klinische Lernumfeld und die Integration der Lernenden in die Versorgung von Patienten thematisiert. Eine umfassende Übersicht über weitere Instrumente zur Bewertung der Lernumgebung wurde im Jahr 2010 publiziert [16].

Zur Bewertung individueller Dozenten stehen zahlreiche Instrumente zur Verfügung (siehe Tabelle 1 [Tab. 1]). Auch hier stehen von den Studierenden ausgefüllte Evaluationsbögen meist mit skalierten Items und Freitextfeldern im Vordergrund. Die medizinspezifischen Dozenten-Evaluationsinstrumente beziehen sich in erster Linie auf die klinische Lehre (z.B. Unterricht am Krankenbett) und weniger auf Vorlesungen und Seminare. Details zu den verfügbaren Instrumenten sind der Tabelle 1 [Tab. 1] zu entnehmen. Hervorzuheben ist ein Bogen zur Bewertung von Dozenten, die im Kontext der ambulanten Patientenversorgung unterrichten („Student Evaluation of Teaching in Outpatient Clinics“; SETOC [17]). Zudem soll auf den SFDP-26 („Stanford Faculty Development Program“ [18])-Bogen hingewiesen werden, der auch in deutscher Übersetzung verfügbar ist [19]. Dieser ursprünglich an der Mayo Clinic entwickelte Bogen bildet die sieben „Stanford-Kriterien guter Lehre“ ab und weist somit eine gute theoretische Fundierung auf.

Das Ergebnis der Lehre, d.h. der Lernerfolg der Studierenden spiegelt sich, wie oben ausgeführt, nicht nur im Erwerb von Faktenwissen und praktischen Fertigkeiten sondern auch in der Entwicklung einer professionellen Einstellung wider [7], [8]. Leider konnten keine Instrumente identifiziert werden, die dieses Spektrum erschöpfend abbilden. An einigen deutschen Fakultäten werden die Leistungen der Studierenden im schriftlichen Teil des Zweiten Staatsexamens als Indikatoren der Lehrqualität interpretiert [20]. Allerdings wird in Multiple Choice-Prüfungen vorrangig Faktenwissen thematisiert, und Studierende können durch das Wiedererkennen der richtigen Antwort [21] sowie durch Trainings im Umgang mit MC-Fragen [22] ihr Prüfungsergebnis unabhängig von ihrem Faktenwissen steigern. Ähnlichen Limitationen unterliegt der an einigen deutschen Fakultäten eingesetzte Progress Test. Diese formative, wiederholt während des Studiums durchgeführte Prüfungsform verwendet ebenfalls MC-Fragen. Der Test wird durch das quer- und längsschnittliche Design jedoch als sinnvolle Quelle für wichtige Informationen für den Lernenden sowie für die Curriculumsevaluation angesehen [23].

Die staatliche Examensprüfung weist in der Regel eine hohe interne Konsistenz auf. Zur Bewertung des Ergebnisses einzelner Veranstaltungen innerhalb einer Fakultät müssen jedoch fakultätsinterne Prüfungen herangezogen werden. Diese genügen einer aktuellen Analyse zufolge oft nicht den Qualitätsstandards [24]. Als Alternative zur Messung des Lehr-Ergebnisses anhand von Prüfungsleistungen wurde kürzlich ein Instrument zur Abschätzung des Lernerfolgs anhand wiederholter studentischer Selbsteinschätzungen entwickelt. Dieses bietet gegenüber Abschlussprüfungen den Vorteil, dass es auch den initialen Leistungsstand der Studierenden berücksichtigt und somit Aussagen über den tatsächlichen Lernzuwachs während einer Veranstaltung zulässt [25].

Schließlich ist als Methode zur Bewertung der medizinischen Lehre die Absolventenbefragung zu nennen. Prinzipiell können mit dieser Methode alle vier Dimensionen der Lehrqualität betrachtet werden. Im Rahmen der vorliegenden Literatursuche wurden jedoch weder medizinspezifische Forschungsarbeiten noch Studien aus anderen Bereichen der Hochschullehre identifiziert, in denen die Qualität der hierzu genutzten Instrumente systematisch untersucht wurde.

Frage 3: Psychometrische Eigenschaften der Erhebungsinstrumente

Sowohl studentische Evaluationsbögen als auch Prüfungen können hinsichtlich ihrer Reliabilität und Validität beurteilt werden. Die Reliabilität der Instrumente zur Bewertung lehrbezogener Strukturen und Prozesse ist der letzten Spalte von Tabelle 1 [Tab. 1] zu entnehmen. Das Cronbach’s α als unteres Grenzmaß der Reliabilität ist für die meisten betrachteten Fragebogen-Instrumente zufriedenstellend. Die Interrater-Reliabilität der Evaluation hängt von der Anzahl der ausgefüllten Evaluationsbögen ab [26]. Allerdings liegen bislang keine Studien dazu vor, welcher absolute Rücklauf mindestens erforderlich ist, um aussagekräftige Daten zu erhalten (s.u.). Die Messung der Reliabilität fakultätsinterner Prüfungen stellt eine wesentliche Voraussetzung für deren Nutzung zu Evaluationszwecken dar. Bislang werden entsprechende statistische Analysen allerdings für weniger als 40% der Leistungsnachweise an deutschen Medizinischen Fakultäten angestellt [24].

Eine inhaltlich fundierte Interpretation von Evaluationsergebnissen setzt voraus, dass die erhobenen Daten valide sind. Während viele Evaluationsbögen und Prüfungen eine akzeptable Inhaltsvalidität aufweisen, sind in der Regel keine Informationen über ihre Kriteriums- und Konstruktvalidität verfügbar. Zu berücksichtigen sind außerdem Störfaktoren, die sich auf die Validität der Ergebnisse auswirken können und in erster Linie bei studentischen Bewertungen identifiziert wurden. Diese möglichen Faktoren sind unten genauer dargestellt (Frage 4); allerdings stützen sich die Betrachtungen zu diesem Aspekt vorrangig auf Literatur ohne direkten Bezug zum Medizinstudium.

Die Validität von Prüfungen wird im Wesentlichen durch zwei Störfaktoren gefährdet [27]. Eine „Konstrukt-Unterrepräsentation“ liegt dann vor, wenn das zu prüfende Konstrukt in der Prüfung nicht erschöpfend behandelt wird. In diesem Fall sind Studierende im Vorteil, die (zufällig) diejenigen Inhalte intensiver gelernt haben, die von der Prüfung abgedeckt wurden. Der zweite wesentliche Störfaktor ist die „Konstrukt-irrelevante Varianz“; sie entsteht beispielsweise dann, wenn Prüfungsfragen suboptimal konstruiert sind, so dass nicht nur die offensichtlichen Inhalte, sondern auch die Befähigung der Studierenden zum Umgang mit schwer verständlichen Formulierungen geprüft wird. Die Kriteriumsvalidität von Prüfungen wird im praktischen Lehr-Alltag in Ermangelung eines validen Außenkriteriums und der erforderlichen Ressourcen meist nicht überprüft. Das oben erwähnte Instrument zur Abschätzung des studentischen Lernerfolgs anhand wiederholter Selbsteinschätzungen hat sich in einer ersten Studie als konstruktvalide erwiesen [25]; weitere publizierte Ergebnisse lagen zum Zeitpunkt der hier vorgestellten Literatursuche noch nicht vor. Auch konnten keine Studien zur Reliabilität und Validität von Absolventenbefragungen identifiziert werden.

Frage 4: Fragebogenkonstruktion und Störgrößen

Das dominierende Erhebungsinstrument sowohl in der Praxis als auch in den identifizierten Publikationen sind von Studierenden auszufüllende Fragebögen. Bei der Konstruktion und dem Einsatz von Fragbögen sind jedoch einige Aspekte zu berücksichtigen. Wie oben bereits angemerkt, ließ sich für diese Forschungsfrage bedauerlicherweise kaum medizinspezifische Literatur identifizieren. Somit sollen im Folgenden einige einschlägige Erkenntnisse zur Fragebogenkonstruktion und zu den wichtigsten Störgrößen studentischer Lehrevaluationsinstrumente vornehmlich ohne direkten Bezug zum Medizinstudium dargestellt werden.

Sowohl das Fragenformat als auch die Antwortskala und das Erhebungsformat können sich auf die psychometrischen Eigenschaften der Instrumente auswirken. Bezüglich des Fragenformats wird zunächst zwischen Freitextfragen und skalierten Items unterschieden. Frei formulierte Evaluationskommentare können wertvolle qualitative Informationen liefern, werden aber nicht von allen Studierenden abgegeben. Skalierte Items bilden die Grundlage quantitativer Analysen. Die häufig verwendeten globalen Items zur Gesamtbewertung einer Veranstaltung (z.B. nach dem Schulnotenprinzip) werden von einigen Autoren aufgrund ihrer Anfälligkeit für verzerrende Einflüsse (s.u.) kritisiert [28], [29]. Andere Autoren vertreten hingegen die Ansicht, dass gute Lehre als nahezu eindimensionales Konstrukt gut mittels globaler Items beurteilt werden kann [30]. Wieder andere Studien zeigen, dass die Reliabilität eines Instruments umso höher ist, je mehr spezifische Items es enthält [31], [32].

Bezüglich der Skalierung der Antwortoptionen ist anzumerken, dass generell bessere Bewertungen zu erwarten sind, wenn sich der positive Anker der Skala links befindet [33]. Des Weiteren ist bekannt, dass die Formulierungen der Items nicht von allen Studierenden gleich interpretiert werden [3]. Auch das Erhebungsformat ist zu berücksichtigen. Diesem kommt eine wachsende Bedeutung zu, da viele Fakultäten die Evaluation ihrer Lehrveranstaltungen mittlerweile über Online-Plattformen abwickeln. Online-Evaluationen gehen zumeist mit einem geringeren Rücklauf einher als traditionelle Papier-Evaluationen. Wenngleich sich dies einer Studie zufolge nicht auf die Evaluationsergebnisse auswirkt und online sogar mehr Freitext-Kommentare abgegeben werden [34], wurde auch berichtet, dass sich leistungsschwache Studierende weniger an Online-Evaluationen beteiligen als leistungsstarke [35]. Des Weiteren ist anzumerken, dass anonyme Befragungen in der Regel schlechtere Bewertungen liefern als Befragungen, in denen die Studierenden sich identifizieren müssen [36]. Hinsichtlich der oben erwähnten Absolventenbefragungen ist zu beachten, dass Evaluationsergebnisse umso schlechter ausfallen, je größer der zeitliche Abstand zwischen der Lehre und ihrer Bewertung ist [37].

Items, die zur Bewertung individueller Dozenten eingesetzt werden, zeigen sich besonders störanfällig. So wurde wiederholt gezeigt, dass Lehrende, die enthusiastisch auftreten oder eine gute Reputation [38] haben, systematisch besser bewertet werden – selbst wenn die von ihnen vermittelten Inhalte fehlerhaft sind [39], [40]. Das studentische Interesse an einem Kurs ist ein weiterer wichtiger Störfaktor [41], [42] – folglich werden Wahlkurse in der Regel besser bewertet als Pflichtkurse [28], [43]. Veranstaltungen, die besser besucht sind, erhalten ebenfalls zumeist positivere Bewertungen [44]. Speziell im Medizinstudium werden die Veranstaltungen theoretischer Fächer tendenziell schlechter bewertet als die Lehre in klinischen Fächern; ebenso erhalten Vorlesungen im Schnitt schlechtere Bewertungen als Kleingruppenunterricht [37].

Gliederung

Diskussion

Die vorliegende Arbeit ist das Ergebnis einer breit angelegten Bestandsaufnahme der verfügbaren Literatur zur Evaluation der Lehre in der Humanmedizin. Die Ergebnisse der Recherche unterstreichen nochmals, dass die Qualität der Lehre kein eindimensionales Konstrukt darstellt; vielmehr können und sollten in Evaluationen alle vier – teilweise überlappenden – Dimensionen „Struktur“, „Prozess“, „Dozent“ und „Ergebnis“ betrachtet werden. Außerdem muss die Beurteilung von Evaluationsergebnissen stets vor dem Hintergrund des Konstrukts erfolgen, das dem genutzten Instrument zugrunde liegt. Konkret können aus studentischen Bewertungen der Pünktlichkeit von Dozenten oder der räumlichen Gegebenheiten an einer Hochschule keine unmittelbaren Rückschlüsse auf den Lernerfolg der Studierenden gezogen werden. Prüfungsergebnisse können zwar zur Abschätzung des Lehr-Ergebnisses herangezogen werden; sie bilden jedoch in der Regel nur den Leistungsstand zu einem festen Zeitpunkt ab und erlauben keine Bewertung des Lernerfolgs im Laufe einer Lehrveranstaltung. Der Progress Test überwindet diese Einschränkung zwar durch seine wiederholte Durchführung, beinhaltet jedoch nur MC-Fragen und bildet daher keine praktischen Fertigkeiten oder professionellen Einstellungen ab. Außerdem wird er nicht vor und nach jedem Kurs/Modul durchgeführt – dies wäre aber erforderlich, um einzelne Kurse/Module (und nicht nur Studierendenkohorten bzw. ganze Studiengänge) zu evaluieren.

Die quantitative Analyse von Evaluationsdaten (z.B. durch Mittelwertbildung der studentischen Globalbewertung eines Kurses auf einer Schulnoten-Skala) eröffnet zwar die Möglichkeit des Vergleichs zwischen Veranstaltungen; dieses Vorgehen birgt aber zwei Risiken: Erstens wird mit Globalbewertungen wahrscheinlich ein nicht trennscharf definiertes Konstrukt abgebildet, und zweitens sind solche Bewertungen einer Vielzahl verzerrender Einflüsse unterworfen [45]. Beides wirkt sich mindernd auf die Reliabilität und Validität von Globalbewertungen aus, falls angenommen wird, dass die Qualität der gesamten Lehre mit allen Facetten durch eine einzige Kennzahl abgebildet werden kann. Zusätzlich zu den zahlreichen oben genannten Störfaktoren soll an dieser Stelle auch der Umfang der Erhebungsinstrumente erwähnt werden. Einige der in Tabelle 1 [Tab. 1] aufgeführten Bögen enthalten über 60 Items und eignen sich aufgrund mangelnder studentischer Akzeptanz wahrscheinlich nicht zum Einsatz im Rahmen einer regelmäßigen und häufigen Veranstaltungsevaluation [46].

Weniger als die Hälfte der identifizierten Volltext-Arbeiten haben Eingang in die hier präsentierte Zusammenstellung gefunden. Hauptgrund für den Ausschluss der meisten Arbeiten war ihr fehlender Bezug zum Medizinstudium. Sehr weit verbreitet ist im amerikanischen Raum beispielsweise der validierte Fragenbogen SEEQ („Students’ Evaluation of Educational Quality”) [47]. Ob dieses Instrument auf die Medizin übertragbar ist, ist fraglich: Zum einen ist es für die amerikanische Hochschullehre entwickelt worden, die nur eingeschränkt mit der deutschen vergleichbar ist, zum anderen ist es kein medizinspezifisches Instrument. Weithin bekannte deutschsprachige Instrumente zur Evaluation der (nicht-medizinischen) Hochschullehre sind HILVE („Heidelberger Inventar zur Lehrveranstaltungs-Evaluation“) [48] und HILVE II. Beide besitzen gute psychometrische Charakteristika, aber auch hier stellt sich die Frage nach der Übertragbarkeit auf den medizinischen Kontext. Aufgrund der eingangs genannten Besonderheiten des Medizinstudiums erscheint auf jeden Fall vor einem entsprechenden Einsatz eine erneute psychometrische Testung in diesem Setting geboten.

Generelle Empfehlungen zum Einsatz spezifischer Instrumente im Medizinstudium an deutschen Fakultäten lassen sich aus den Ergebnissen der Literatursuche nicht ableiten, da die Wahl des Instruments sich wie oben dargestellt am Evaluationsziel orientieren sollte. Eine vorläufige, ressourcensparende Lösung könnte darin bestehen, die bereits in deutscher Sprache verfügbaren und mit guten psychometrischen Charakteristika ausgestatteten Bögen Marburger Fragebogen (für Strukturen und Prozesse) und SFDP-26 German [19] (für Dozenten) einzusetzen. Aufgrund der eingeschränkten Übertragbarkeit der vornehmlich im angelsächsischen Sprachraum entwickelten und validierten Instrumente auf den Kontext des deutschen Medizinstudiums sollte mittelfristig angestrebt werden, aus bereits verfügbaren, teilweise aber auch neu konstruierten Items einen neuen Fragebogen zu erstellen, der dann direkt an deutschen Fakultäten evaluiert wird. Dieser Prozess muss von psychometrischer Expertise begleitet werden und könnte im Rahmen eines entsprechenden Forschungsprojekts mehrere interessierte medizinische Fakultäten einbeziehen. Mit Hilfe eines gemeinsam konsentierten Instrumentes könnte durch die Nutzung an mehreren Standorten eine höhere Vergleichbarkeit der Ergebnisse erreicht werden. Bezüglich einer möglichen Entwicklungs- und Implementierungsstrategie finden zurzeit weitergehende Konsultationen zwischen MFT und AWMF statt.

Neben der Möglichkeit, dass relevante Publikationen in unserer Literatursuche nicht enthalten sind, ist die Hauptlimitation der vorliegenden Arbeit, dass ein Großteil der betrachteten Literatur aus dem anglo-amerikanischen Sprachraum stammt mit zuweilen erheblichen Unterschieden gegenüber dem Medizinstudium in Deutschland (z.B. eingeschränkte Übertragbarkeit angelsächsischer „clerkships“ auf deutsche Blockpraktika und Famulaturen; Fehlen eines direkten Äquivalents zum Praktischen Jahr in den angelsächsischen Studiengängen). Zudem bezogen sich die Quellen, auf die bei der vierten Forschungsfrage zurückgegriffen wurde, größtenteils nicht primär auf das Medizinstudium. Es ist zumindest fraglich, ob Erkenntnisse zur Fragebogenkonstruktion und Störgrößen in der Evaluation aus anderen Disziplinen sich ohne weiteres auf das Studium der Humanmedizin übertragen lassen. Schließlich lieferte die von uns angestellte Suche nach publizierten Instrumenten zur Beurteilung der Lehrqualität hauptsächlich Fragebögen, die im Rahmen einer studentischen Evaluation eingesetzt werden können. Andere Verfahren (z.B. Absolventenbefragungen) könnten ebenfalls hilfreiche Informationen liefern; aufgrund der diesbezüglich limitierten Datenlage wurde auf eine entsprechende Diskussion im Rahmen dieser Übersicht verzichtet.

Gliederung

Fazit

Die Evaluation der medizinischen Hochschullehre stützt sich in erster Linie auf studentische Bewertungen, die sich auf lehrbezogene Strukturen und Prozesse sowie die Leistung individueller Dozenten beziehen. In der vorliegenden Recherche wurden einige reliable Instrumente zur Betrachtung dieser drei Dimensionen der Lehrqualität identifiziert; allerdings sind zumindest einige Störfaktoren aus nicht medizinichscher Literatur bekannt, die sich auf das studentische Bewertungsverhalten auswirken und somit die Validität der Erhebungsinstrumente einschränken. Diese Störfaktoren sollten auch bei der Nutzung studentischer Evaluationen zur Bewertung der medizinischen Lehre Berücksichtigung finden bzw. neu geprüft werden. Die Bewertung der Lehrqualität anhand von Prüfungsergebnissen ist aufgrund der bisher ungesicherten Qualität fakultätsinterner Prüfungen in Deutschland problematisch; Absolventenbefragungen werden nicht flächendeckend und mit Instrumenten ungewisser Validität und Reliabilität durchgeführt.

Gliederung

Konsequenzen für Klinik und Praxis

Die Qualität der medizinischen Lehre ist ein mehrdimensionales Konstrukt; die wesentlichen vier Dimensionen, anhand derer die Lehrqualität beurteilt werden kann, sind Strukturen, Prozesse, Dozenten-Charakteristika und das Lehr-Ergebnis.
Für die Bewertung von Strukturen, Prozessen und individuellen Dozenten im Medizinstudium stehen verschiedene Instrumente mit guten psychometrischen Charakteristika zur Verfügung. Die Messung des Lehr-Ergebnisses ist aufgrund der größtenteils unbekannten bzw. unbefriedigenden Reliabilität und Validität fakultätsinterner Prüfungen zurzeit noch erheblichen Limitationen unterworfen.
Bei der Konzeption und Nutzung von Evaluationsinstrumenten müssen die in dieser Arbeit dargestellten Störgrößen berücksichtigt werden, insofern diese aus anderen Lehr-Kontexten bekannten Faktoren auf das Medizinstudium übertragbar sind.

Gliederung

Anmerkungen

Interessenkonflikte

Die Autoren erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.

Autorenschaft

Die Autoren Herrmann-Lingen C and Raupach T haben gleichermaßen zu der Arbeit beigetragen.

Gliederung

Literatur

1.: DeGEval – Gesellschaft für Evaluation e.V., editor. Standards für Evaluation. Köln: DeGEval; 2002.
2.: Kogan JR, Shea JA. Course evaluation in medical education. Teach Teach Educ. 2007;23(3):251-64. DOI: 10.1016/j.tate.2006.12.020
3.: Billings-Gagliardi S, Barrett SV, Mazor KM. Interpreting course evaluation results: insights from thinkaloud interviews with medical students. Med Educ. 2004 Oct;38(10):1061-70. DOI: 10.1111/j.1365-2929.2004.01953.x
4.: Colliver JA, Kucera K, Verhulst SJ. Meta-analysis of quasi-experimental research: are systematic narrative reviews indicated? Med Educ. 2008 Sep;42(9):858-65. DOI: 10.1111/j.1365-2923.2008.03144.x
5.: Eva KW. On the limits of systematicity. Med Educ. 2008 Sep;42(9):852-3. DOI: 10.1111/j.1365-2923.2008.03140.x
6.: Gibson KA, Boyle P, Black DA, Cunningham M, Grimm MC, McNeil HP. Enhancing evaluation in an undergraduate medical education program. Acad Med. 2008 Aug;83(8):787-93. DOI: 10.1097/ACM.0b013e31817eb8ab
7.: Blumberg P. Multidimensional outcome considerations in assessing the efficacy of medical educational programs. Teach Learn Med. 2003;15(3):210-4. DOI: 10.1207/S15328015TLM1503_10
8.: Frank JR, Danoff D. The CanMEDS initiative: implementing an outcomes-based framework of physician competencies. Med Teach. 2007 Sep;29(7):642-7. DOI: 10.1080/01421590701746983
9.: Boyle P, Grimm MC, McNeil HP, Scicluna H. The UNSW Medicine Student Experience Questionnaire (MedSEQ). San Francisco: Academia; 2009. Available from: http://www.academia.edu/5252480/Medicine_Student_Experience_Questionnaire_MEDSEQ_UNSW
10.: Krebs K. Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin: Eine Untersuchung zur Reliabilität und Dimensionalität des Marburger Fragebogens zur Evaluation des Lehrangebots am Fachbereich Medizin [Dissertation]. Marburg: Philipps-Universität Marburg; 2006. Available from: http://archiv.ub.uni-marburg.de/diss/z2006/0387/pdf/dkk.pdf
11.: Roff S. The Dundee Ready Educational Environment Measure (DREEM)– a generic instrument for measuring students' perceptions of undergraduate health professions curricula. Med Teach. 2005 Jun;27(4):322-5. DOI: 10.1080/01421590500151054
12.: Rotthoff T, Ostapczuk MS, De Bruin J, Decking U, Schneider M, Ritz-Timme S. Assessing the learning environment of a faculty: psychometric validation of the German version of the Dundee Ready Education Environment Measure with students and teachers. Med Teach. 2011;33(11):e624-36. DOI: 10.3109/0142159X.2011.610841
13.: Rothman AI, Ayoade F. The development of a learning environment: a questionnaire for use in curriculum evaluation. J Med Educ. 1970;45(10):754-9. DOI: 10.1097/00001888-197010000-00006
14.: Marshall RE. Measuring the medical school learning environment. Acad Med. 1978;53(2):98-104. DOI: 10.1097/00001888-197802000-00003
15.: James PA, Osborne JW. A measure of medical instructional quality in ambulatory settings: the MedIQ. Fam Med. 1999 Apr;31(4):263-9.
16.: Soemantri D, Herrera C, Riquelme A. Measuring the educational environment in health professions studies: a systematic review. Med Teach. 2010;32(12):947-52. DOI: 10.3109/01421591003686229
17.: Zuberi RW, Bordage G, Norman GR. Validation of the SETOC instrument – Student evaluation of teaching in outpatient clinics. Adv Health Sci Educ Theory Pract. 2007 Feb;12(1):55-69. DOI: 10.1007/s10459-005-2328-y
18.: Litzelman DK, Stratos GA, Marriott DJ, Skeff KM. Factorial validation of a widely disseminated educational framework for evaluating clinical teachers. Acad Med. 1998;73(6):688-95. DOI: 10.1097/00001888-199806000-00016
19.: Iblher P, Zupanic M, Härtel C, Heinze H, Schmucker P, Fischer MR. Der Fragebogen "SFDP26-German": Ein verlässliches Instrument zur Evaluation des klinischen Unterrichts? [The Questionnaire "SFDP26-German": a reliable tool for evaluation of clinical teaching?]. GMS Z Med Ausbild. 2011;28(2):Doc30. DOI: 10.3205/zma000742
20.: Herzig S, Marschall B, Nast-Kolb D, Soboll S, Rump LC, Hilgers RD. Positionspapier der nordrhein-westfälischen Studiendekane zur hochschulvergleichenden leistungsorientierten Mittelvergabe für die Lehre [Distribution of government funds according to teaching performance]. GMS Z Med Ausbild. 2007;24(2):Doc109. Available from: http://www.egms.de/en/journals/zma/2007-24/zma000403.shtml
21.: Schulze J, Drolshagen S. Format und Durchführung schriftlicher Prüfungen [Format and implementation of written assessments]. GMS Z Med Ausbild. 2006; 23(3):Doc44. Available from: http://www.egms.de/en/journals/zma/2006-23/zma000263.shtml
22.: Mahamed A, Gregory PA, Austin Z. "Testwiseness" among international pharmacy graduates and Canadian senior pharmacy students. Am J Pharm Educ. 2006 Dec;70(6):131. DOI: 10.5688/aj7006131
23.: Freeman A, Van Der Vleuten C, Nouns Z, Ricketts C. Progress testing internationally. Med Teach. 2010;32(6):451-5. DOI: 10.3109/0142159X.2010.485231
24.: Möltner A, Duelli R, Resch F, Schultz JH, Jünger J. Fakultätsinterne Prüfungen an den deutschen medizinischen Fakultäten [School-specific assessment in German medical schools]. GMS Z Med Ausbild. 2010;27(3):Doc44. DOI: 10.3205/zma000681
25.: Raupach T, Münscher C, Beissbarth T, Burckhardt G, Pukrop T. Towards outcome-based programme evaluation: using student comparative self-assessments to determine teaching effectiveness. Med Teach. 2011;33(8):e446-53. DOI: 10.3109/0142159X.2011.586751
26.: Spiel C, Schober B, Reimann R. Evaluation of curricula in higher education: challenges for evaluators. Eval Rev. 2006 Aug;30(4):430-50. DOI: 10.1177/0193841X05285077
27.: Downing SM, Haladyna TM. Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ. 2004;38(3):327-33. DOI: 10.1046/j.1365-2923.2004.01777.x
28.: Aleamoni LM. Student rating myths versus research facts from 1924 to 1998. J Pers Eval Educ. 1999;13(2):153-66. DOI: 10.1023/A:1008168421283
29.: Marsh HW, Roche LA. Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. Am Psychol. 1997;52(11):1187-97. DOI: 10.1037/0003-066X.52.11.1187
30.: d'Apollonia S, Abrami PC. Navigating student ratings of instruction. Am Psychol. 1997;52(11):1198-208. DOI: 10.1037/0003-066X.52.11.1198
31.: Jackson DL, Teal CR, Raines SJ, Nansel TR, Force RC, Burdsal CA. The dimensions of students' perceptions of teaching effectiveness. Educ Psychol Meas. 1999;59(4):580-96. DOI: 10.1177/00131649921970035
32.: Marsh HW. Students' evaluations of university teaching: Dimensionality, reliability, validity, potential baises, and utility. J Educ Psychol. 1984;76(5):707-54. DOI: 10.1037/0022-0663.76.5.707
33.: Albanese M, Prucha C, Barnet JH, Gjerde CL. The effect of right or left placement of the positive response on Likert-type scales used by medical students for rating instruction. Acad Med. 1997 Jul;72(7):627-30. DOI: 10.1097/00001888-199707000-00015
34.: Sorenson DL, Johnson TD. Online student ratings of instruction. New Dir Teach Learn. 2003;2003(96):1-112.
35.: Adams MJ, Umbach PD. Nonresponse and online student evaluations of teaching: Understanding the influence of salience, fatigue, and academic environments. Res High Educ. 2012;53(5):576-91. DOI: 10.1007/s11162-011-9240-5
36.: Afonso NM, Cardozo LJ, Mascarenhas OA, Aranha AN, Shah C. Are anonymous evaluations a better assessment of faculty teaching performance? A comparative analysis of open and anonymous evaluation processes. Fam Med. 2005 Jan;37(1):43-7.
37.: van den Bussche H, Weidtmann K, Kohler N, Frost M, Kaduszkiewicz H. Evaluation der ärztlichen Ausbildung: Methodische Probleme der Durchführung und der Interpretation von Ergebnissen [Evaluation of medical education: methodological problems of implementation and interpretation of results]. GMS Z Med Ausbild. 2006;23(2):Doc37. Available from: http://www.egms.de/en/journals/zma/2006-23/zma000256.shtml
38.: Griffin BW. Instructor reputation and student ratings of instruction. Contemp Educ Psychol. 2001 Oct;26(4):534-52. DOI: 10.1006/ceps.2000.1075
39.: Marsh HW, Ware JE. Effects of expressiveness, content coverage, and incentive on multidimensional student rating scales: New interpretations of the Dr. Fox effect. J Educ Psychol. 1982;74(1):126-34. DOI: 10.1037/0022-0663.74.1.126
40.: Naftulin DH, Ware JE, Donnelly FA. The Doctor Fox Lecture: a paradigm of educational seduction. J Med Educ. 1973 Jul;48(7):630-5. DOI: 10.1097/00001888-197307000-00003
41.: Prave RS, Baril GL. Instructor ratings: Controlling for bias from Initial student interest. J Educ Bus. 1993;68(6):362-6. DOI: 10.1080/08832323.1993.10117644
42.: Cashin WE. Student ratings of teaching: A summary of the research. East Lansing, MI, USA: Office of Faculty and Organizational Development at Michigan State University; 1988. (IDEA Paper; No.20). Available from: http://ideaedu.org/wp-content/uploads/2014/11/idea-paper_50.pdf
43.: Ting KF. A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience. Res High Educ. 2000;41(5):637-61. DOI: 10.1023/A:1007075516271
44.: Abrami PC, D'Apollonia S, Cohen PA. Validity of student ratings of instruction: What we know and what we do not. J Educ Psychol. 1990;82(2):219-31. DOI: 10.1037/0022-0663.82.2.219
45.: Schiekirka S, Raupach T. A systematic review of factors influencing student ratings in undergraduate medical education course evaluations. BMC Med Educ. 2015 Mar 5;15:30. DOI: 10.1186/s12909-015-0311-8
46.: Schiekirka S, Reinhardt D, Heim S, Fabry G, Pukrop T, Anders S, Raupach T. Student perceptions of evaluation in undergraduate medical education: A qualitative study from one medical school. BMC Med Educ. 2012 Jun 22;12:45. DOI: 10.1186/1472-6920-12-45
47.: Marsh HW. SEEQ: A reliable, valid, and useful instrument for collecting students' evaluations of university teaching. Brit J Psychol. 1982;52(1):77-95. DOI: 10.1111/j.2044-8279.1982.tb02505.x
48.: Rindermann H, Schofield N. Generalizability of Multidimensional Student Ratings of University Instruction Across Courses and Teachers. Res High Educ. 2001;42(4):377-99. DOI: 10.1023/A:1011050724796
49.: Stalmeijer RE, Dolmans DH, Wolfhagen IH, Muijtjens AM, Scherpbier AJ. The Maastricht Clinical Teaching Questionnaire (MCTQ) as a valid and reliable instrument for the evaluation of clinical teachers. Acad Med. 2010 Nov;85(11):1732-8. DOI: 10.1097/ACM.0b013e3181f554d6
50.: Irby DM, Gillmore GM, Ramsey PG. Factors affecting ratings of clinical teachers by medical students and residents. Acad Med. 1987;62(1):1-7. DOI: 10.1097/00001888-198701000-00001
51.: Beckman TJ, Lee MC, Rohren CH, Pankratz VS. Evaluating an instrument for the peer review of inpatient teaching. Med Teach. 2003 Mar;25(2):131-5. DOI: 10.1080/0142159031000092508