gms | German Medical Science

GMS Zeitschrift für Medizinische Ausbildung

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 1860-3572

Implementierung und Erprobung eines Lernziel-basierten Evaluationssystems im Studium der Humanmedizin

Forschungsarbeit Humanmedizin

  • corresponding author Tobias Raupach - Universitätsmedizin Göttingen, Abteilung Kardiologie & Pneumologie, Göttingen, Deutschland; University College London, Department of Clinical, Educational and Health Psychology, London WC1E 7HB, United Kingdom
  • author Sarah Schiekirka - Universitätsmedizin Göttingen, Studiendekanat, Göttingen, Deutschland
  • author Christian Münscher - Universitätsmedizin Göttingen, Studiendekanat, Göttingen, Deutschland
  • author Tim Beißbarth - Universitätsmedizin Göttingen, Abteilung Medizinische Statistik, Göttingen, Deutschland
  • author Wolfgang Himmel - Universitätsmedizin Göttingen, Abteilung Allgemeinmedizin, Göttingen, Deutschland
  • author Gerhard Burckhardt - Medizinische Fakultät Göttingen, Studiendekan, Göttingen, Deutschland
  • author Tobias Pukrop - Universitätsmedizin Göttingen, Abteilung Hämatologie & Onkologie, Göttingen, Deutschland

GMS Z Med Ausbild 2012;29(3):Doc44

doi: 10.3205/zma000814, urn:nbn:de:0183-zma0008146

Dieses ist die Originalversion des Artikels.
Die übersetzte Version finden Sie unter: http://www.egms.de/en/journals/zma/2012-29/zma000814.shtml

Eingereicht: 8. Juli 2011
Überarbeitet: 12. Dezember 2011
Angenommen: 12. Januar 2012
Veröffentlicht: 15. Mai 2012

© 2012 Raupach et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Zielsetzung: Aktuell werden an den deutschen medizinischen Fakultäten unterschiedliche Konzepte zur leistungsorientierten Mittelvergabe (LOM) in der Lehre diskutiert. Die Umsetzung scheitert mitunter am Mangel valider Messkriterien zur Beurteilung der Lehrqualität. Neben der Struktur und den Prozessen der Lehre sollte das Ergebnis der Lehre im Mittelpunkt der Qualitätsbewertung stehen. Ziele dieser Arbeit waren die Erprobung eines neuen, lernzielbezogenen Evaluationssystems im klinischen Abschnitt des Studiums der Humanmedizin und der Vergleich der Ergebnisse mit den Daten eines traditionellen Evaluationsverfahrens.

Methodik: Aus studentischen Selbsteinschätzungen zu Beginn und Ende eines jeden Lehrmoduls wurde nach einer neu entwickelten Formel der lernzielbezogene, prozentuale Lernerfolg berechnet. Die Lernerfolgs-Mittelwerte pro Modul wurden mit traditionellen Evaluationsparametern, insbesondere mit Globalbewertungen, ins Verhältnis gesetzt.

Ergebnisse: Der mittels vergleichender Selbsteinschätzungen berechnete Lernerfolg und die Globalbewertungen produzierten deutlich unterschiedliche Rangfolgen der 21 klinischen Module. Zwischen dem Lernerfolg und den Globalbewertungen fand sich keine statistisch signifikante Korrelation. Allerdings korrelierten die Globalbewertungen stark mit den studentischen Erwartungen vor Modulbeginn und mit strukturellen und prozeduralen Parametern der Lehre (Pearson’s r zwischen 0,7 und 0,9).

Schlussfolgerung: Die Messung des Lernzuwachses mittels vergleichender studentischer Selbsteinschätzungen kann die traditionelle Evaluation um eine wichtige Dimension erweitern. Im Unterschied zu studentischen Globalbewertungen ist das neue Instrument lernzielbezogen und unabhängiger vom Einfluss Konstrukt-irrelevanter Parameter. Hinsichtlich der Entwicklung eines LOM-Algorithmus eignet sich das neue Instrument gut zur Beurteilung der Lehrqualität.

Schlüsselwörter: Evaluation, Selbsteinschätzung, LOM, Lernziel, Kongruenz, klinisches Studium


Einleitung

Auf der Grundlage der Anregungen des Wissenschaftsrates [1] fand im Jahr 2009 an über der Hälfte aller Medizinischen Fakultäten in Deutschland eine leistungsorientierte Mittelvergabe (LOM) für gute Lehre statt.

Auch die Verteilung von Landesmitteln auf einzelne Fakultäten orientiert sich zunehmend an Leistungsparametern. Diesbezüglich wurden in Nordrhein-Westfalen verschiedene Qualitätskriterien erarbeitet, die in drei Ebenen zusammengefasst wurden [2]: Struktur-, Prozess- und Ergebnisqualität der Lehre. Während die Evaluation der Strukturen (Ressourcen, Stundenpläne) und Prozesse (didaktische Gestaltung der Lehre, Prüfungen) nicht im Mittelpunkt der Betrachtungen stand, schlugen die Autoren vor, zur Beurteilung des Studienergebnisses globale Parameter wie die studentischen Leistungen im Staatsexamen, die Studiendauer und die Retentionsrate heranzuziehen. Diese Kriterien sind insbesondere im klinischen Studienabschnitt nicht nach Modulen und Fächern aufgeschlüsselt und eignen sich somit praktisch nicht zur Verteilung von LOM-Mitteln innerhalb einer Fakultät. Es ist somit notwendig, Qualitätsindikatoren zu entwickeln, die zum Ranking von Lehrveranstaltungen oder Fächern innerhalb einer Fakultät herangezogen werden können. Diese Indikatoren sollten sich auch auf Fakultätsebene auf Strukturen, Prozesse und das Ergebnis der Lehre beziehen.

Eine Erhebung im Jahre 2009 ergab, dass an vielen Fakultäten studentische Evaluationen die Grundlage für die Zuteilung von LOM-Lehre waren [3]. Gebräuchliche Evaluationsbögen beinhalten überwiegend Fragen zu strukturellen und organisatorischen Aspekten sowie globale Einschätzungen auf Schulnotenskalen. Zwar erlauben diese Instrumente möglicherweise eine Beurteilung von Strukturen und Prozessen; inwieweit hieran aber auch die Ergebnisqualität abgelesen werden kann, ist bislang unklar.

Wenngleich verschiedene Definitionen des gewünschten „Ergebnisses“ im Medizinstudium denkbar sind, liegt es nahe, den studentischen Lernerfolg als eine mögliche Messgröße für das Studien-Ergebnis festzulegen. Wünschenswert wäre folglich ein Evaluationsinstrument, mit dem der in einer Veranstaltung erzielte Lernerfolg abgeschätzt werden kann. An der Medizinischen Fakultät Göttingen wurde kürzlich ein entsprechendes lernzielbasiertes Evaluationsinstrument entwickelt, dessen Reproduzierbarkeit und Kriteriums-Validität belegt werden konnten [4]. Somit steht neben der traditionellen Evaluation mit den Hauptzielgrößen „Struktur- und Prozessqualität“ nun auch ein neues Instrument mit der Zielgröße „Lernerfolg“ zur Verfügung. Zur Untersuchung der diskriminanten Validität des Instruments sollten in der vorliegenden Studie folgende Forschungsfragen beantwortet werden:

1.
Ergibt sich auf der Grundlage des lernzielbasierten Instruments eine andere Rangfolge der Lehrveranstaltungen als auf der Grundlage traditioneller Evaluationsparameter? Es wird die Hypothese aufgestellt, dass durch beide Verfahren unterschiedliche Aspekte der Lehre erfasst werden und sich daher eine Rangfolge der Lehrveranstaltungen nach strukturellen/prozeduralen Kriterien deutlich von einer Rangfolge der Veranstaltungen nach dem hierin erzielten Lernerfolg unterscheidet.
2.
Inwieweit korrelieren die Erwartungshaltung der Studierenden und traditionelle Evaluationsparameter untereinander sowie mit den Ergebnissen der lernzielbezogenen Evaluation? Es wird die Hypothese formuliert, dass traditionelle Evaluationsparameter untereinander starke Korrelationen aufweisen. Da Strukturen und Prozesse ebenfalls einen Einfluss auf die Lehrqualität ausüben und somit auch den Lernerfolg beeinflussen können, werden zwischen den Ergebnissen der beiden Evaluationsinstrumente moderate Korrelationen erwartet.

Methodik

Klinisches Curriculum und Evaluationsinstrumente an der Medizinischen Fakultät Göttingen

Der dreijährige klinische Studienabschnitt in Göttingen ist modular organisiert. Die 21 interdisziplinären Module erstrecken sich über zwei bis sieben Wochen. Im ersten klinischen Jahr werden ärztliche Basisfertigkeiten sowie die Grundlagen der Infektiologie und Pharmakologie vermittelt, in den folgenden drei Semestern werden Gesundheitsstörungen samt ihrer Behandlung thematisiert und im letzten klinischen Semester differentialdiagnostische Aspekte betont.

1.
Traditionelle Evaluation: Jeweils zu Modulende findet eine Online-Evaluation statt (EvaSys®, Electric Paper, Lüneburg). Hierbei bewerten die Studierenden organisatorische und strukturelle Aspekte der Lehre auf einer sechsstufigen Skala. Die vom Evaluationsausschuss der Fakultät entwickelten Aussagen lauten:
1.1.
„Die Umsetzung des interdisziplinären Unterrichts ist in diesem Modul sehr gut gelungen.“ (Interdisziplinarität)
1.2.
„In diesem Modul wurde das selbständige Aufarbeiten der Lernziele gefördert.“ (Selbstlernkompetenz)
1.3.
„Bezogen auf meine berufliche Zukunft schätze ich meinen Lernzuwachs in diesem Modul als sehr hoch ein.“ (subjektiver Lernzuwachs)
1.4.
„Mit der grundlegenden Struktur des Moduls (Aufbau, Unterrichtsformen, Zeitplan) war ich sehr zufrieden.“ (Modulstruktur)
1.5.
„Dieses Modul sollte so fortgeführt werden wie bisher.“ (Beibehaltung)
2.
Schließlich werden die Studierenden mit dem Item „Bitte bewerten Sie das Modul mit einer Gesamtnote“ um eine Globalbewertung nach dem Schulnotensystem gebeten.
3.
Um einen möglichen Zusammenhang zwischen studentischen Erwartungen vor Modulbeginn und Bewertungen nach Modulende zu untersuchen, wurde zum Zweck dieser Studie für jedes Modul eine Online-Vorbefragung eingerichtet. Hierbei sollten die Studierenden auf einer sechsstufigen Skala angeben, inwieweit sie den folgenden drei Aussagen zustimmen:
3.1.
„Ich glaube, dieses Modul ist wichtig für meine spätere berufliche Zukunft.“ (Wichtigkeit)
3.2.
„Ich freue mich schon auf dieses Modul.“ (Vorfreude)
3.3.
„Ich habe von Kommilitoninnen und Kommilitonen vor allem Gutes über dieses Modul gehört.“ (Ruf des Moduls)
4.
Lernzuwachs-Evaluation mittels vergleichender Selbsteinschätzung (VSE): Das neu entwickelte Evaluations-Instrument bestimmt auf der Grundlage wiederholter studentischer Selbsteinschätzungen den Lernzuwachs für spezifische Lernziele. In der Online-Befragung vor Modulbeginn wurden die Studierenden gebeten, ihr Leistungsniveau bezüglich spezifischer Lernziele (Beispiel: „Ich kann ein EKG interpretieren.“) auf einer sechsstufigen Skala von „trifft voll zu“ bis „trifft überhaupt nicht zu“ einzuschätzen. Diese Selbsteinschätzung wurde in der unverändert durchgeführten Online-Evaluation zu Modulende wiederholt. Mittels Division der Mittelwert-Differenz (prä-post) für ein spezifisches Lernziel durch den korrigierten Mittelwert der initialen Selbsteinschätzungen aller Studierenden wurde der lernzielbezogene Lernzuwachs als Prozentwert berechnet (siehe Abbildung 1 [Abb. 1]):

Der Gesamt-Lernzuwachs eines Moduls wurde als Mittelwert aus den prozentualen Lernzuwachs-Werten von 15 spezifischen Lernzielen berechnet, die für jedes Modul entsprechend den Vorgaben des Göttinger Lernzielkatalogs (http://www.med.uni-goettingen.de/de/media/G1-2_lehre/lernzielkatalog.pdf) formuliert wurden. Zwischen dem oben aufgeführten Evaluations-Item „Bezogen auf meine berufliche Zukunft schätze ich meinen Lernzuwachs in diesem Modul als sehr hoch ein“ (subjektiver Lernzuwachs) und dem Lernzuwachs auf dem Boden der VSE bestehen wesentliche Unterschiede: Der subjektive Lernzuwachs wird zu einem einzigen Zeitpunkt erhoben und hat globalen Charakter. Der Lernzuwachs nach VSE wird aus zwei Messpunkten errechnet und bezieht sich auf spezifische Inhalte. In einer kürzlich publizierten Reliabilitäts- und Validitätsstudie konnte gezeigt werden, dass der so berechnete Lernzuwachs sehr gut mit objektiven Leistungsparametern korreliert [4].

Stichprobenbeschreibung

Im Wintersemester 2008/09 waren insgesamt 977 Studierende zur Teilnahme an den Modulen des klinischen Studienabschnitts angemeldet. Alle Studierenden wurden per E-Mail zur Teilnahme an der Evaluation eingeladen; über ein automatisches Versandsystem erhielt jeder Studierende pro Befragung drei E-Mails mit einem direkten und nur einmal verwendbaren Link zur Online-Plattform. Für die Befragungen zu Modulbeginn wurde die Datensammlung drei Tage vor Modulbeginn gestartet und drei Tage nach Modulbeginn beendet; analoge Zeiträume wurden für die Befragungen zu Modulende vorgegeben. Die Teilnahme an der Evaluation war freiwillig, und alle Daten wurden anonym eingegeben. Daher ist keine nähere Charakterisierung der Stichprobe nach Alter und Geschlecht möglich.

Datenerhebung und -analyse

In die vorliegende Arbeit gingen anonym gesammelte Evaluationsdaten ein, die im Wintersemester 2008/09 erhoben wurden. Die Studierenden wurden gebeten, in der Modul-Abschlussevaluation anzugeben, ob sie auch an der Eingangsbefragung teilgenommen hatten. Um Prä-Post-Vergleiche zu ermöglichen, wurden lediglich Daten von Studierenden verwendet, die nach eigenen Angaben an beiden Befragungen teilgenommen hatten. Da die Datenanalyse sich auf Mittelwerte ganzer Studierendenkohorten bezieht, war keine individuelle Kennung von Studierenden erforderlich.

Zur Beantwortung der ersten Forschungsfrage wurden Ranglisten der 21 Module erstellt, die sich entweder auf den Mittelwert der Globalbewertung oder den über 15 Lernziele gemittelten Lernzuwachs (VSE) bezogen. Zur Bearbeitung der zweiten Fragestellung wurden die Korrelationen zwischen den Mittelwerten der traditionellen Evaluationsparameter und dem mittleren Lernzuwachs (VSE) in den Modulen untersucht. Zur statistischen Datenanalyse wurde SPSS® 14.0 (Illinois, USA) verwendet. Alle Daten zeigten sich im Kolmogorov-Smirnov-Anpassungstest normalverteilt. Folglich sind Korrelationen als Pearson’s r angegeben. Der quadrierte Korrelationskoeffizient gibt dabei das Bestimmtheitsmaß der Korrelation und somit auch die Varianzaufklärung an.


Ergebnisse

Rücklaufquoten

Von den 977 zu den klinischen Modulen angemeldeten Studierenden gaben 573 Studierende insgesamt 51.915 Einzelratings ab. Die Rücklaufquoten innerhalb der verschiedenen Module lagen zwischen 36,7 und 75,4%.

Modulrankings im Vergleich

Tabelle 1 [Tab. 1] stellt die mittels der traditionellen Evaluation erhobenen Globalbewertungen den Lernzuwachsdaten der verschiedenen Module gegenüber. Die Module wurden gemäß dieser Ergebnisse in zwei Rangreihen gebracht (siehe die letzten beiden Spalten der Tabelle). Teilweise führten die beiden Methoden zu deutlich divergierenden Rangplätzen. Bei sechs der 21 Module wiesen die Ergebnisse Unterschiede von mindestens sechs Rangplätzen auf. Besonders fiel das Modul 19 auf, das mit 1,56 die beste Note erreichte, nach der Lernzuwachs-Evaluation mit durchschnittlich 55,6% jedoch den 17. Platz belegte. Umgekehrt belegte das Modul 7 (Thema „Evidenzbasierte Medizin“) im Ranking nach der Globalbewertung mit einer Gesamtnote von 3,67 den letzten Platz, obwohl in diesem Modul ein mittlerer Lernzuwachs von 64,3% (Platz 9) erzielt wurde. In diesem Zusammenhang fiel auf, dass die Studierenden das Modul bereits in der Motivationsabfrage negativ beurteilt hatten (Wichtigkeit: 3,64; Vorfreude: 4,20; Ruf des Moduls: 4,59).

Korrelationen zwischen den verschiedenen Evaluationsparametern

Die Ergebnisse der Korrelationsanalysen sind in Tabelle 2 [Tab. 2] dargestellt. Studentische Erwartungen vor Modulbeginn und die allgemeine Bewertung organisatorischer und struktureller Aspekte der Lehre nach Teilnahme am Modul korrelierten stark positiv. Auch zwischen der globalen Modulbewertung und der Zustimmung zur Aussage „Bezogen auf meine berufliche Zukunft schätze ich meinen Lernzuwachs in diesem Modul als sehr hoch ein“ fand sich eine starke positive Korrelation (r=0,94; p<0,001). Demgegenüber wiesen die Daten zum Lernerfolg nach VSE keine signifikante Korrelation mit den Erwartungen vor Modulbeginn auf. Zwischen dem Lernerfolg und den Ergebnissen der traditionellen Evaluation fand sich nur für zwei Aspekte eine schwache Korrelation (Varianzaufklärung maximal 22%). Der Lernerfolg korrelierte schwach mit der subjektiven Einschätzung, viel gelernt zu haben (r=0,44; p=0,044; Varianzaufklärung 19%) und nicht-signifikant mit der allgemeinen Modulbewertung (r=-0,42; p=0,061; Varianzaufklärung 18%; siehe Abbildung 2 [Abb. 2]).


Diskussion

Wichtigste Ergebnisse

In der vorliegenden Studie korrelierten globale Bewertungen von Lehrveranstaltungen signifikant mit der studentischen Erwartung vor Teilnahme an einen Modul sowie den retrospektiven Bewertungen von curricularer Struktur und subjektivem Lernzuwachs. Dagegen bestand keine Korrelation zwischen dem nach VSE berechneten Lernzuwachs und den studentischen Erwartungen vor Modulbeginn; zwischen dem berechneten Lernzuwachs und dem subjektiv wahrgenommenen Lernzuwachs fand sich eine schwache Korrelation. Entsprechend unterschied sich die Modul-Rangfolge – je nachdem, ob eine Globalbewertung oder der selbst eingeschätzte Lernzuwachs Maßstab war.

Stärken und Schwächen der Studie

Das hier vorgestellte, neue Evaluationsinstrument ermöglicht bei geringem Implementierungs-Aufwand erstmals auf der Ebene spezifischer Lernziele eine Beurteilung des Lernerfolgs durch vergleichende studentische Selbsteinschätzungen. Die hier vorgestellten Daten wurden im Rahmen des normalen Lehrbetriebs erhoben und stützen sich auf eine große Zahl von Einzelratings von über 500 Studierenden.

Die Validität punktueller Selbsteinschätzungen wurde in der Vergangenheit häufig kritisiert [5], [6], da verschiedene Konstrukt-irrelevante Faktoren die Genauigkeit von Selbsteinschätzungen beeinflussen können. Allerdings konnten Colthart et al. [7] zeigen, dass die Selbsteinschätzungsfähigkeit durch explizite Bewertungskriterien, Ankersetzung und Feedback verbessert werden kann. Somit stellt die Verwendung spezifischer Lernziele [8] eine entscheidende Voraussetzung für die Funktionalität des hier vorgestellten Instrumentes dar. Der Einfluss individueller Charakteristika auf das Ergebnis der Lernerfolgs-Evaluation nach VSE wird durch die wiederholte Erhebung von Selbsteinschätzungen in der gleichen Studierendengruppe reduziert.

Vergleich mit der Literatur und Bedeutung der Ergebnisse

Lehrqualität ist ein multidimensionales Konstrukt, in das unterschiedliche prozedurale, strukturelle, inhaltliche und ergebnisbezogene Parameter eingehen [9]. Studentische Evaluationen leisten einen Beitrag zur Bewertung der Lehrqualität an einer Fakultät. Allerdings unterliegen diese subjektiven Einschätzungen verschiedenen Einflüssen; daher ist nicht immer offensichtlich, welches Konstrukt im Detail in einer studentischen Evaluation abgebildet wird. Dies gilt insbesondere für globale Bewertungen einzelner Veranstaltungen, die zumeist mit Hilfe von Skalen nach dem Schulnotenprinzip erhoben werden. So zeigen die Daten der vorliegenden Studie, dass globale Bewertungen von Lehrveranstaltungen signifikant mit der studentischen Erwartung vor Teilnahme an einem Modul sowie den retrospektiven Bewertungen von curricularer Struktur und subjektivem Lernzuwachs (siehe Tabelle 2 [Tab. 2]) korrelieren. Hier bieten sich zwei – sich nicht unbedingt widersprechende – Erklärungen an: Entweder den studentischen Bewertungen liegt tatsächlich ein Konstrukt von „guter Lehre“ zugrunde im Sinne eines gut strukturierten, interdisziplinären Unterrichts, in dem gleichzeitig die Selbstlernkompetenz gefördert wird und der subjektive Lernzuwachs hoch ist.

Alternativ könnte vermutet werden, dass mit den unterschiedlichen Evaluationsparametern ein eigenes, homogenes Konstrukt abgebildet wird, innerhalb dessen eine Differenzierung der Einzelaspekte nicht mehr möglich ist. Im Extremfall wird lediglich die studentische Zufriedenheit mit der Lehre gemessen, die – wie an den hier beobachteten Korrelationen ersichtlich ist – stark mit den Erwartungen vor Modulbeginn korreliert. In der Tat bestätigen auch andere Untersuchungen, dass nicht nur strukturelle und prozedurale Aspekte [10], [11], [12], [13], [14], sondern auch das Auftreten der Dozenten [15], ihr Umgang mit den Studierenden [16] und der Ruf eines Dozenten bzw. einer Veranstaltung [17] sich auf studentische Globalbewertungen auswirken. Wenngleich ein professionelles Verhalten von Dozenten dem Konstrukt „gute Lehre“ hinzugerechnet werden kann, bleibt somit bei der Interpretation von studentischen Globalbewertungen meist unklar, welchen Beitrag dieser Aspekt zur Gesamtbewertung geleistet hat.

Neben strukturellen, prozeduralen und personenbezogenen Parametern sollte unbedingt auch der studentische Lernerfolg in die Bewertung von Lehrveranstaltungen einfließen [9]. Spontan wird man daran denken, hierfür die Ergebnisse fakultätsinterner Klausuren oder der Staatsexamina zur Beurteilung der Ergebnisqualität der Lehre heranzuziehen. Allerdings wurde erst kürzlich darauf hingewiesen, dass viele Prüfungen an deutschen medizinischen Fakultäten den internationalen Qualitätsstandards nicht genügen [18] und somit keinen Anspruch auf eine zufriedenstellende Validität erheben können. So repräsentieren Multiple Choice-Fragen der medizinischen Staatsexamina lediglich eine Dimension der ärztlichen Ausbildung (Wissen) und lassen keine Rückschlüsse auf die Qualität der praktischen Ausbildung zu. Zudem ist es insbesondere in reformierten Curricula kaum möglich, die aggregierten Examensergebnisse der Leistung einzelner Lehrveranstaltungen oder Fächer zuzuordnen, so dass eine intrafakultäre LOM-Verteilung auf dieser Grundlage verfehlt erscheint.

Praktische Implikationen

Bei der Interpretation von Evaluationsdaten ist generell darauf zu achten, dass das der Evaluation zugrunde liegende Konstrukt von „guter Lehre“ klar charakterisiert ist und dass die genutzten Erhebungsinstrumente dieses Konstrukt valide abbilden. Wünschenswert sind daher Evaluationsinstrumente, die valide spezifische Aspekte guter Lehre erfassen und eine möglichst geringe Kreuz-Korrelation zwischen unterschiedlichen Items aufweisen. Auf der Grundlage einer fehlenden bzw. geringen Korrelation zwischen Globalbewertungen und dem nach VSE bestimmten Lernzuwachs ist anzunehmen, dass das hier vorgestellte neue Evaluationsinstrument zusätzliche Informationen über den Lernerfolg liefert, die von traditionellen Evaluationsmethoden nicht erfasst werden. Ein Instrument mit diesen Eigenschaften empfiehlt sich für eine valide Unterrichts-Evaluation.

Zukünftiger Forschungsbedarf

Die studentische Definition des „Lernerfolgs“ wurde in der vorliegenden Arbeit nicht untersucht und sollte – insbesondere in Abgrenzung zur Definition durch die Lehrenden – Gegenstand künftiger Forschungsprojekte sein.

Für die zukünftige Verwendung unseres Verfahrens ist zu klären, ob eine Stichprobe von 15 Lernzielen pro Modul ausreichend ist, um das Spektrum einer Veranstaltung hinreichend abzubilden und somit den potentiellen Lernfortschritt verlässlich abzubilden. Zudem sollte ein eventueller Einfluss des Erhebungsinstruments [19] und der Rücklaufquote auf die Ergebnisse des neuen Evaluations-Instrumentes näher untersucht werden.

Aus der Notwendigkeit, an beiden Erhebungszeitpunkten Einschätzungen von den gleichen Individuen zu erhalten, ergeben sich mitunter datenschutzrechtliche Probleme, da die Evaluation medizinischer Lehrveranstaltungen anonym erfolgen sollte. Um dieses Problem zu umgehen, könnte anstatt einer Befragung zu zwei verschiedenen Zeitpunkten auch eine am Modulende liegende retrospektive Erhebung des subjektiven Leistungsstandes vor Modulbeginn erwogen werden [20]. Schließlich ist zu prüfen, inwieweit das neue Instrument auf andere Fakultäten und Curricula übertragbar ist.


Schlussfolgerung

Studentische Globalbewertungen von Veranstaltungen spiegeln nicht alle Aspekte der Lehrqualität wider und sind daher nur bedingt geeignet für die Zuteilung von LOM-Mitteln in der Lehre. Dagegen scheint das hier vorgestellte Instrument mit dem Lernzuwachs eine wichtige Dimension der Lehrqualität valide und unabhängig von gängigen Globalbewertungen abzubilden. Die Ergebnisse der Lernzuwachs-Evaluation nach VSE könnten daher zukünftig ein wesentlicher Bestandteil in Algorithmen zur Allokation von LOM-Mitteln sein.


Anmerkung

Die Autoren Raupach und Schiekirka teilen sich die Erstautorenschaft.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Wissenschaftsrat. Empfehlungen zur Qualitätsverbesserung von Lehre und Studium. Berlin: Wissenschaftsrat; 2008.
2.
Herzig S, Marschall B, Nast-Kolb D, Soboll S, Rump LC, Hilgers RD. Positionspapier der nordrhein-westfälischen Studiendekane zur hochschulvergleichenden leistungsorientierten Mittelvergabe für die Lehre. GMS Z Med Ausbild. 2007;24(2):Doc109. Zugänglich unter: http://www.egms.de/static/de/journals/zma/2007-24/zma000403.shtml Externer Link
3.
Müller-Hilke B. "Ruhm und Ehre" oder LOM für Lehre? - eine qualitative Analyse von Anreizverfahren für gute Lehre an Medizinischen Fakultäten in Deutschland. GMS Z Med Ausbild. 2010;27(3):Doc43. DOI: 10.3205/zma000680 Externer Link
4.
Raupach T, Münscher C, Beißbarth T, Burckhardt G, Pukrop T. Towards outcome-based programme evaluation: Using student comparative self-assessments to determine teaching effectiveness. Med Teach. 2011;33(8):e446-453. DOI: 10.3109/0142159X.2011.586751 Externer Link
5.
Falchikov N, Boud D. Student Self-Assessment in Higher Education: A Meta-Analysis. Rev Educ Res. 1989;59(4):395-430.
6.
Davis DA, Mazmanian PE, Fordis M, Van Harrison R, Thorpe KE, Perrier L. Accuracy of physician self-assessment compared with observed measures of competence: a systematic review. Jama. 2006;296(9):1094-1102. DOI: 10.1001/jama.296.9.1094 Externer Link
7.
Colthart I, Bagnall G, Evans A, Allbutt H, Haig A, Illing J, et al. The effectiveness of self-assessment on the identification of learner needs, learner activity, and impact on clinical practice: BEME Guide no. 10. Med Teach. 2008;30(2):124-145. DOI: 10.1080/01421590701881699 Externer Link
8.
Harden RM. Learning outcomes as a tool to assess progression. Med Teach. 2007;29(7):678-682. DOI: 10.1080/01421590701729955 Externer Link
9.
Rindermann H. Lehrevaluation an Hochschulen: Schlussfolgerungen aus Forschung und Anwendung für Hochschulunterricht und seine Evaluation. Z Evaluation. 2003(2):233-256.
10.
Beckman TJ, Ghosh AK, Cook DA, Erwin PJ, Mandrekar JN. How reliable are assessments of clinical teaching? A review of the published instruments. J Gen Intern Med. 2004;19(9):971-977. DOI: 10.1111/j.1525-1497.2004.40066.x Externer Link
11.
Kogan JR, Shea JA. Course evaluation in medical education. Teach Teach Educ. 2007;23(3):251-264. DOI: 10.1016/j.tate.2006.12.020 Externer Link
12.
Marsh HW. The Influence of Student, Course, and Instructor Characteristics in Evaluations of University Teaching. Am Educ Res J. 1980;17(2):219-237.
13.
Marsh HW. Multidimensional ratings of teaching effectiveness by students from different academic settings and their relation to student/course/instructor characteristics. J Educ Psychol. 1983;75:150-166. DOI: 10.1037/0022-0663.75.1.150 Externer Link
14.
McKeachie W. Student ratings; the validity of use. Am Psychol. 1997;52(11):1218-1225. DOI: 10.1037/0003-066X.52.11.1218 Externer Link
15.
Marsh HW, Ware JE. Effects of expressiveness, content coverage, and incentive on multidimensional student rating scales: New interpretations of the Dr. Fox effect. J Educ Psychol. 1982;74(1):126-134. DOI: 10.1037/0022-0663.74.1.126 Externer Link
16.
Jackson DL, Teal CR, Raines SJ, Nansel TR, Force RC, Burdsal CA. The dimensions of students' perceptions of teaching effectiveness. Educ Psychol Meas. 1999;59:580-596. DOI: 10.1177/00131649921970035 Externer Link
17.
Griffin BW. Instructor Reputation and Student Ratings of Instruction. Contemp Educ Psychol. 2001;26(4). DOI: 10.1006/ceps.2000.1075 Externer Link
18.
Möltner A, Duelli R, Resch F, Schultz JH, Jünger J. Fakultätsinterne Prüfungen an den deutschen medizinischen Fakultäten. GMS Z Med Ausbild. 2010;27(3):Doc44. DOI: 10.3205/zma000681 Externer Link
19.
Thompson BM, Rogers JC. Exploring the learning curve in medical education: using self-assessment as a measure of learning. Acad Med. 2008;83(10 Suppl):S86-S88. DOI: 10.1097/ACM.0b013e318183e5fd Externer Link
20.
Skeff KM, Stratos GA, Bergen MR. Evaluation of a Medical Faculty Development Program. Eval Health Prof. 1992;15(3):350-366. DOI: 10.1177/016327879201500307 Externer Link