gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Leitsymptomvorlesungen im klinischen Studienabschnitt - Effekte evaluationsbasierter Interventionen auf eine Großgruppen-Lehrveranstaltung

Forschungsarbeit Humanmedizin

  • corresponding author Olaf Kuhnigk - Universitätsklinikum Hamburg-Eppendorf, Klinik für Psychiatrie und Psychotherapie, Hamburg, Deutschland; Universitätsklinikum Hamburg-Eppendorf, Prodekanat für Lehre, Hamburg, Deutschland
  • Katja Weidtmann - Universitätsklinikum Hamburg-Eppendorf, Prodekanat für Lehre, Hamburg, Deutschland
  • author Sven Anders - Universitätsklinikum Hamburg-Eppendorf, Institut für Rechtsmedizin, Hamburg, Deutschland
  • author Bernd Hüneke - Universitätsklinikum Hamburg-Eppendorf, Klinik und Poliklinik für Geburtshilfe und Pränatalmedizin, Hamburg, Deutschland
  • René Santer - Universitätsklinikum Hamburg-Eppendorf, Klinik und Poliklinik für Kinder- und Jugendmedizin, Hamburg, Deutschland
  • author Sigrid Harendza - Universitätsklinikum Hamburg-Eppendorf, III. Medizinische Klinik, Hamburg, Deutschland

GMS Z Med Ausbild 2011;28(1):Doc15

doi: 10.3205/zma000727, urn:nbn:de:0183-zma0007272

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2011-28/zma000727.shtml

Eingereicht: 15. Januar 2010
Überarbeitet: 2. August 2010
Angenommen: 23. September 2010
Veröffentlicht: 4. Februar 2011

© 2011 Kuhnigk et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

In der medizinischen Hochschulausbildung ist das Veranstaltungsformat „Vorlesung“ trotz vielfacher Kritik weiterhin ein wesentliches Element bestehender Curricula. Im Rahmen der Studienreform an der Medizinischen Fakultät der Universität Hamburg im Jahr 2004 wurden im reformierten klinischen Curriculum die fachspezifischen Vorlesungen durch Leitsymptomvorlesungen (LSV) ersetzt, die sich durch alle sechs Themenblöcke der Studienjahre drei bis fünf ziehen. Da die regelmäßigen Trimesterabschlussevaluationen der Studierenden auf einen Verbesserungsbedarf der LSV hindeuteten, wurde in dieser Studie die LSV mit Terminevaluationen durch anwesende Studierende und durch geschulte Auditoren (PJ-Studierende und wissenschaftliche Mitarbeiter) untersucht. Auf der Basis dieser Ergebnisse erfolgte ein schriftliches Feedback der Evaluationsdaten an die Lehrenden in Kombination mit Informationsmaterial über eine optimale Gestaltung der LSV nach modernen didaktischen Gesichtspunkten. In einer zweiten Erhebung wurden die Effekte der Intervention untersucht. Es zeigte sich, dass auf der Ebene von Schulnoten nach der Intervention nur geringe Verbesserungen der Qualität der LSV bemerkbar waren. In der Bewertung der Einzelmerkmale, insbesondere zur didaktischen Qualität, ließen sich hingegen signifikante Verbesserungen aufzeigen. Insgesamt bewerteten Studierende die LSV in der ersten Erhebungsphase bezogen auf die Einzelmerkmale signifikant positiver als die geschulten Auditoren. Dieser Effekt war in der zweiten Erhebungsphase nicht mehr nachweisbar. Unter den Auditoren bestand eine gute Inter-Rater-Reliabilität. Durch diese Untersuchung wurde insbesondere deutlich, dass die Einbettung von Lehrveranstaltungen auf struktureller und personeller Ebene in curriculare Gesamtkonzepte regelmäßig durch Qualitätssicherungsmaßnahmen zu begleiten ist. Wie häufig und in welcher Form strukturierte Rückmeldungen nach Evaluationen erfolgen müssen, um nachhaltige Effekte auf die didaktische Qualität der Lehrveranstaltungen zu haben, müssen zukünftige Studien zeigen.

Schlüsselwörter: Vorlesung, Evaluation, Audit, Intervention, Leitfaden, didaktische Fertigkeiten, Dozententraining, Qualitätssicherung


Einleitung

Vorlesungen als Lernformat

Das Veranstaltungsformat „Vorlesung“ ist trotz Kritik und sich daraus ergebender Studienreformen weiterhin ein für die medizinische Ausbildung wichtiges didaktisches Element [6]. Einerseits wird am traditionell-systematischen Frontalvortrag kritisiert, dass er für die Entwicklung von eigenständigem Denken nicht förderlich sei. Andererseits bieten Vorlesungen die Möglichkeit, Gruppen von Lernenden Informationen ökonomisch und ressourceneffizient zu vermitteln, einen Einstieg in komplexere Themen zu liefern, sowie aktuelle Forschungsergebnisse und persönliche, klinische oder wissenschaftliche Erfahrungen darzustellen [5]. Damit diese potentiellen Vorteile der Vorlesung genutzt werden können, sollte das Veranstaltungsformat „Vorlesung“ in die an Lernzielen orientierten curricularen Rahmenbedingungen eingefügt [15] und zur Stimulation des eigenverantwortlichen Lernens der Studierenden mit anderen Lernformaten verknüpft werden [13]. Inhaltlich hat sich hierbei vor allem das fallbezogene Unterrichtsformat bewährt [10].

Leitsymptomvorlesungen im Hamburger Curriculum

An der Medizinischen Fakultät der Universität Hamburg erfolgte im Jahr 2004 eine umfassende Reform des klinischen Studienabschnitts, wobei das reformierte Klinische Curriculum Medizin (KliniCuM) auf eine fächerübergreifende und praxisbezogene Ausbildung abzielt [30]. Der Unterricht der Studienjahre drei bis fünf ist in sechs Themenblöcke und ein Wahlfach aufgeteilt und am Hamburger Lernzielkatalog [29] orientiert, der die verschiedenen Lerndimensionen und Kompetenzebenen abbildet. Systematische, fachspezifische Vorlesungen wurden im Zuge dieses Reformprozesses abgeschafft und durch Vorlesungen ersetzt, die sich fallbezogen an führenden Symptomen verschiedener Krankheiten orientieren. Das Konzept der Leitsymptomvorlesung (LSV) ist ein zentraler Bestandteil des KliniCuM, der sich als roter Faden durch alle Themenblöcke zieht und Zusammenhänge zwischen Inhalten anderer Veranstaltungen (z.B. problemorientierte Tutorien, Unterricht am Krankenbett) erkennbar macht. Erste Ergebnisse der Besuchsquoten und der Evaluationen deuteten auf eine größere Studierendenzufriedenheit mit dem neuen Format im Vergleich zu Vorlesungen vor der Studienreform hin. Allerdings zeigte sich auch früh Verbesserungsbedarf, wobei jedoch die konkreten Kritikpunkte der Studierenden an der LSV in eher allgemein gehaltenen Kommentaren der nach dem jeweiligen Trimester durchgeführten Abschlussevaluation weitgehend unklar blieben [32].

Evaluation als Interventionsbasis

Studierende sind in der Lage, die didaktische Qualität von Lehrveranstaltungen reliabel und valide zu bewerten [12], [22]. Gleichzeitig wird jedoch gefordert, Lehrevaluationen nicht allein auf studentische Beurteilungen zu stützen [11], [21]. Da die LSV nach den oben genannten Kriterien [10], [13] für eine inhaltlich sinnvolle Nutzung dieses Lernformats konzipiert worden war, führten wir zur Qualitätskontrolle die hier vorliegende Studie durch. Diese beinhaltet eine detaillierte Untersuchung der an der LSV empfundenen Mängel und die Beobachtung der Auswirkungen einer auf dieser Mängelanalyse basierenden Intervention zur Optimierung dieser Veranstaltungsform.


Methoden

Fragestellung und Hypothesen

In der vorliegenden Studie wurden zwei Fragen untersucht. Erstens: Lassen sich bei Terminevaluationen durch Vorlesungsteilnehmende und Audits durch geschulte Auditoren nach einer Intervention, die auf dem Boden der erhobenen Ergebnisse durchgeführt wird, Veränderungen in der Bewertung der LSV feststellen? Zweitens: Unterscheiden sich die Bewertungen der anwesenden Studierenden von den Urteilen geschulter Auditoren?

Die zentralen Hypothesen der Studie lauteten:

1.
Die LSV wird nach einer Intervention, insbesondere in den didaktischen Bewertungen, positiver beurteilt als vor der Intervention.
2.
Die Bewertungen geschulter Auditoren sind einheitlicher und insgesamt kritischer als die der Studierenden.

Erhebungsinstrumente

Eine Übersicht über den Ablauf der Studie, die sich in zwei Erhebungsphasen und eine dazwischen liegende Interventionsphase gliedert, ist in Abbildung 1 [Abb. 1] dargestellt. In einer Pilotphase war eine Checkliste für Audits der Leitsymptomvorlesung konzipiert und validiert worden [32]. Sie beinhaltete sieben Merkmale zu Struktur und Inhalt der Vorlesung sowie neun Merkmale zu didaktischen Fertigkeiten der Dozierenden. Die Gruppe der Auditoren setzte sich aus acht wissenschaftlichen Mitarbeitern und 14 Studierenden im Praktischen Jahr zusammen. Es wurden jeweils Auditorenpaare aus einem wissenschaftlichen Mitarbeiter und einem Studierenden ausgelost, um eventuelle systematische Unterschiede, z.B. durch den Status (Nicht-Studierender/Studierender) begründete divergierende Perspektiven, zu kontrollieren. Vor der Pilotphase erfolgte eine dreistündige Schulung aller Auditoren, in der das Testinstrument erklärt und ein für die Evaluation standardisiertes methodisches Vorgehen eingeübt wurden.

Außerdem wurde ein Fragebogen zur Terminevaluation für die in der LSV anwesenden Studierenden entworfen. Dieser enthielt sowohl zentrale Aspekte der Vorlesung wie Orientierung an Leitsymptomen, Praxisbezug oder strukturierter Aufbau, als auch Merkmale der Lehrperson, z.B. Art des Umgangs mit den Studierenden, Verständlichkeit und Anschaulichkeit des Vortrags. Die Terminevaluation dokumentierte zudem Charakteristika der Studierenden, z.B. Geschlecht und Regelmäßigkeit des Vorlesungsbesuchs. Merkmale der Fragebögen und Checklisten waren auf einer 6-stufigen Likert-Skala zu bewerten (1: „trifft gar nicht zu“ bis 6: „trifft sehr zu“). Freitextkommentare waren darüber hinaus möglich und die Gesamtbewertung der Veranstaltung erfolgte in Form einer Schulnote (1=sehr gut, 2=gut, 3=befriedigend, 4=ausreichend, 5=mangelhaft, 6=ungenügend). Die Datenerhebungsinstrumente erwiesen sich in den Pilottestungen als praktikabel und verständlich. Sie wurden für die Erhebungen nur noch geringfügig modifiziert, zum Beispiel durch Umstellung der Fragenreihenfolge oder durch Verdeutlichung von Merkmalen durch Nennung von Beispielen in Klammern.

Da sich in den Pilottestungen in einigen Bereichen deutliche Unterschiede zwischen den beiden Auditorengruppen (wissenschaftliche Mitarbeiter / PJ-Studierende) ergaben, wurde vermutet, dass die initiale Schulung der Auditoren nicht alle wesentlichen Aspekte ausreichend hatte vermitteln können. Es erfolgte daher eine zweite Schulung vor Beginn der ersten Erhebungsphase mit einer erläuternden Zusammenfassung des Konzepts der LSV im KliniCuM, einer Illustration der Orientierung an Leitsymptomen und von Bezügen zwischen den Fächern des Themenblocks sowie der Vermittlung von leitsymptom-orientiertem Fachwissen anhand von konkreten Beispielen. Die Übereinstimmung der Bewertungen zwischen den beiden Auditorengruppen wurde mittels Berechnung des Intraklassenkoeffizienten ermittelt [34].

Design und Stichprobe

Alle an der LSV teilnehmenden Dozierenden wurden über die Durchführung dieser Evaluationsstudie informiert. Die Dozierenden wurden nicht darüber in Kenntnis gesetzt, ob ihre Vorlesung für eine Evaluation ausgelost wurde bzw. welcher der von ihnen unterrichteten Termine ausgelost wurde. Für die erste Erhebungsphase wurde aus den insgesamt 247 Einzelterminen der LSV aller sechs Themenblöcke im Trimester April bis Juli 2006 randomisiert eine repräsentative Stichprobe ausgewählt, die ca. ein Drittel der LSV pro Themenblock umfasste (insgesamt über alle Themenblöcke n=85). Dieses Vorgehen ist als Ziehung geschichteter Stichproben zu charakterisieren und wurde gewählt, da die Grundgesamtheit (sämtliche LSV aller Themenblöcke) als sehr heterogen einzuschätzen ist, also die Merkmalsausprägungen der Grundgesamtheit große Unterschiede aufweisen könnten. Um die bestehenden Schattierungen der Grundgesamtheit in einer Stichprobe ausreichend abzubilden, müsste nach dem Prinzip der reinen Zufallsauswahl die Stichprobe sehr groß sein, um die Repräsentativität zu gewährleisten. Zur Lösung dieser Problematik wurde die Grundgesamtheit in disjunkte Klassen (Schichten) aufgeteilt. Dabei wurde angenommen, dass sich die Elemente einer jeden Schicht bezüglich der untersuchten Frage ähnlich verhalten und dass sich dementsprechend Elemente aus unterschiedlichen Schichten durch die als relevant definierten verschiedenen Eigenschaften auszeichnen [8]. In dieser Untersuchung bildeten die sechs Themenblöcke die Schichten. Von proportional geschichteten Stichproben wurde aus jeder Klasse eine reine Zufallsstichprobe durch Auslosung der einzelnen Vorlesungstermine gezogen. Die Auswertung der Daten erfolgte mit dem statistischen Auswertungsprogramm SPSS 16.0. Mittelwertvergleiche wurden anhand des t-Tests für unabhängige Stichproben durchgeführt (Signifikanzniveau p<0,05). Die statistischen Tests wurden deskriptiv verwendet.

Basierend auf den Daten der ersten Erhebungsphase wurde folgende Intervention durchgeführt. Es wurden drei Gruppen ermittelt, die eine Intervention erhalten sollten: die in der Stichprobe evaluierten Lehrenden (Gruppe 1), alle an der LSV beteiligten Lehrenden und Abteilungsdirektoren, die bisher nicht evaluiert wurden (Gruppe 2), Studierende und die interessierte Öffentlichkeit (Gruppe 3). Komponenten der Intervention und ihre Zuordnung waren:

  • Anschreiben: Alle Personen der Gruppen 1 und 2 erhielten ein persönliches Anschreiben, das über Hintergrund, Vorgehen und Ziele des Projekts sowie über die jeweiligen Feedback-Komponenten und die Ansprechpartner bei Rückfragen informierte.
  • Allgemeines Feedback: Alle drei Gruppen erhielten eine Auswertung der Ergebnisse der ersten Erhebungsphase mit nicht personenbezogenen, allgemeinen Statistiken.
  • Individuelles Feedback: Alle Personen der Gruppe 1 erhielten ihr personenbezogenes Feedback mit den Bewertungen und Freitextkommentaren der Auditoren und Studierenden.
  • LSV-Leitfaden: Alle Gruppen erhielten einen auf den Daten der ersten Erhebung zusammengestellten Leitfaden als „Gold-Standard“ für die Ausgestaltung von LSV mit konkreten Tipps zu Inhalt und Form.
  • Publikation: Gruppe 1 und 2 erhielten die Veröffentlichung „Teaching large groups“ [7], eine Publikation zur Ausgestaltung von Großgruppen-Lehrveranstaltungen in der medizinischen Ausbildung, die in sehr kompakter Darstellung einfach umzusetzende Anregungen für die Ausgestaltung von Vorlesungen nach modernen didaktischen Prinzipien enthält.
  • Für alle Personen der Gruppe 3 wurden Informationen zur LSV und der LSV-Leitfaden auf die Homepage des Prodekanats für Lehre ins Internet gestellt.

Für die zweite Erhebungsphase wurden die in Erhebungsphase 1 evaluierten Vorlesungen (n=78, die geringere Zahl erklärt sich durch drei Ausfälle von Audits und vier Ausfälle von Vorlesungen) auf der Basis ihrer Bewertung nach deutschen Schulnoten in drei Ligen eingeteilt (siehe Tabelle 1 [Tab. 1]). Die Auswahl der zu evaluierenden LSV erfolgte als Ziehung von Quotenstichproben [4], also als bewusste Auswahl, die für die zu ziehenden Stichproben anstrebt, in der Grundgesamtheit vorliegende Strukturen nachzuahmen. Die Grundgesamtheit ist hier durch die sechs Themenblöcke und die drei Ligen definiert, wobei die Termine entsprechend repräsentativ ausgewählt wurden. Da in der Untersuchung insbesondere die Frage beantwortet werden sollte, ob sich die didaktische Qualität der LSV nach Durchführung der oben beschriebenen Intervention verbessert, wurde dies durch die studentische Evaluation der Termine per Schulnote kriterienbasiert operationalisiert. Unter Heranziehung von Überlegungen zum angestrebten minimalen Unterschied bei der studentischen Bewertung sowie zur Testpower wurde eine erforderliche Stichprobengröße von studentischen Bewertungen von n=633 ermittelt [20]. In diesem Fall waren folgende relevante Kriterien bestmöglich erfüllt: Effektstärke d=0,3 (d=0.1: kleiner Effekt, d=0,3: mittlerer Effekt, d=0,5: großer Effekt), minimaler Mittelwertsunterschied Δ=+0,255, Teststärke 1-ß=0,8 und α=0,05. Da in der ersten Erhebungsphase pro Vorlesungstermin durchschnittlich etwa n=35 studentische Bewertungen erhoben werden konnten, ergaben sich damit n=18 notwendige Terminevaluationen im Rahmen der zweiten Erhebungsphase. Hierbei handelte es sich in 14 Fällen um dieselben Lehrpersonen wie in Erhebungsphase 1. Die Themen der 18 Vorlesungen waren in allen Fällen dieselben wie in der ersten Erhebungsphase. Für eine gleichmäßige Verteilung dieser Messungen auf die Struktur der Grundgesamtheit ergab sich die Auswahl je eines Vorlesungstermins aus jedem der sechs Themenblöcke und jeder der drei Ligen.


Ergebnisse

Veränderungen in der Bewertung der LSV nach Schulnoten

Auf Basis der Schulnoten zeigen bei der studentischen Terminevaluation von 18 erfassten LSV-Mittelwertvergleichen derselben Veranstaltungen in Erhebungsphase 1 und 2 fünf signifikante Verbesserungen (28%), drei signifikante Verschlechterungen (17%) und zehn unveränderte Beurteilungen (55%) (siehe Tabelle 2 [Tab. 2]). Damit zeigen die studentischen Evaluationen für die Mehrheit der in der zweiten Erhebung erfassten LSV Termine keine Veränderung. Das oben beschriebene Kriterium eines minimalen Mittelwertunterschieds bei der Schulnote von Δ=+0,255 wird bei acht Vorlesungen erfüllt (44%).

Die Bewertung der LSV anhand der Schulnotenskala durch die Auditoren ergibt ebenfalls kein einheitliches Bild bezüglich eines Effekts der Intervention (siehe Tabelle 3 [Tab. 3]). Das prozentuale Verhältnis der Veränderungen entspricht dem oben dargestellten der studentischen Terminevaluation, wobei vier der fünf als verbessert bewerteten LSV übereinstimmen. In der ersten Erhebungsphase beurteilten in der Gruppe der Auditoren die wissenschaftlichen Mitarbeiter sechs, in der zweiten Erhebungsphase sieben von 18 Vorlesungen um eine Schulnote schlechter als die PJ-Studierenden.

Didaktische Bewertung nach Einzelmerkmalen

Ein differenzierteres Bild als die Schulnoten liefert die Gegenüberstellung der Bewertungen durch die Auditoren auf Ebene der Einzelmerkmale aus beiden Erhebungen (siehe Tabelle 4 [Tab. 4]). Es ergeben sich sechs signifikant bessere Beurteilungen nach der Intervention in der zweiten Erhebungsphase und alle anderen zeigen bis auf drei einen positiven Trend. Insgesamt weisen die Verbesserungen bei den Merkmalen „Orientierung an Leitsymptomen“, „Anregung zum Mitdenken“, „Entsprechung des Konzepts LSV“, „interaktive Gestaltung“, „anschauliche Darstellung“ und „Bemühung um Lernerfolg“ hohe Effektstärken auf.

Im Vergleich der Bewertungen der Einzelmerkmale durch die Studierenden und Auditoren (siehe Tabelle 5 [Tab. 5]) ergeben sich für die erste Erhebungsphase für fast alle Merkmale durchweg statistisch signifikante Mittelwertunterschiede zwischen den beiden Gruppen, wobei die Auditoren die Vorlesungen insgesamt kritischer bewerten als die Studierenden. In der zweiten Erhebungsphase findet sich nur noch bei einem Merkmal ein signifikanter Unterschied zwischen den Bewertungen von Auditoren und Studierenden.

Übereinstimmung der Auditorenbewertungen

Wie die Berechnungen des Intraklassenkoeffizienten und der Signifikanzen ergaben, liegt die Übereinstimmung der Gruppe der Auditoren zwischen PJ-Studierenden und wissenschaftlichen Mitarbeitern auf Basis der Einzelmerkmale in der Erhebungsphase zwischen iCCmin=-0,030 und iCCmax=0,605 (siehe Tabelle 6 [Tab. 6]). Beim überwiegenden Teil der erfassten Merkmale ist der Zusammenhang positiv signifikant. Im Gegensatz zu den Pilottestungen [32], bei denen v.a. bei den konzeptbezogenen Merkmalen große Differenzen zwischen den beiden Auditorengruppen bestanden, fällt die Übereinstimmung in der ersten Erhebungsphase sehr zufriedenstellend aus. In der zweiten Erhebungsphase liegt die Übereinstimmung der Auditoren zwischen iCCmin=-0,022 und iCCmax=0,771 und ist ebenfalls überwiegend positiv signifikant. Die Übereinstimmung zwischen den Auditorengruppen ist als mittelmäßig hoch zu bewerten, die Korrelationskoeffizienten weisen insgesamt eine recht breite Streuung auf.


Diskussion

Die Ergebnisse der Audits und Terminevaluationen in der ersten Erhebungsphase zeichnen ein insgesamt positiveres Bild der LSV als die im Vorfeld erhobenen studentischen Beurteilungen in der Trimesterabschlussevaluation hatten erwarten lassen. Hierbei könnte es sich um eine tatsächliche Verbesserung handeln. Es ist jedoch zu berücksichtigen, dass retrospektive, zusammenfassende Evaluationen tendenziell schlechter ausfallen als Evaluationen, die direkt im Anschluss an eine Veranstaltung erhoben werden [31], so dass diese Beobachtung auch durch einen methodischen Effekt erklärt werden könnte. Auf Basis der Schulnoten konnte die hypothetische Verbesserung der LSV-Gesamtbewertung in der zweiten Erhebungsphase nach der Intervention nur in mäßigem Ausmaß festgestellt werden. Das geforderte Verbesserungskriterium wurde in der Terminevaluation nur bei 44% der LSV erreicht. Bei den Auditoren fanden sich sogar nur in 28% der Evaluationen verbesserte LSV. Diesem Ergebnis steht jedoch die Bewertung der Auditoren auf Ebene der Einzelmerkmale gegenüber, die ganz überwiegend positivere Beurteilungen, vor allem der didaktischen Eigenschaften der Lehrpersonen in der zweiten Erhebungsphase zeigt. Eine Schwäche liegt hier in der geringen Gesamtfallzahl, die durch die initiale Ziehung der Stichproben zu einem Teil ausgeglichen wird.

Bei dem gewählten Veränderungskriterium der zu vergebenden Schulnote handelt es sich um ein relativ abstraktes Maß. Es lässt sich daher vermuten, dass diese Größe zu wenig differenziert ist, um eventuell bestehende Unterschiede der LSV nach der Intervention abzubilden, da es sich bei dem Konstrukt „Lehrqualität“ um ein komplexes Merkmal handelt [14]. Für den Verlust von Information durch den Einsatz von Schulnoten spricht außerdem die Diskrepanz bei der Gruppe der Auditoren zwischen der summativen Kenngröße der Note und den parallel bewerteten Einzelmerkmalen, die deutliche Verbesserungen zeigen. In der ersten Erhebungsphase bewerten die geschulten Auditoren die LSV in fast allen Merkmalen signifikant kritischer als die teilnehmenden Studierenden, wie in Hypothese 2 vermutet. Die Bewertungen der Auditoren nach Einzelmerkmalen fallen in der zweiten Erhebungsphase im Gegensatz zu den studentischen Erhebungen wesentlich besser aus. Es könnte sich dabei einerseits um eine tatsächliche qualitativ-didaktische Verbesserung der LSV handeln, die von geschulten Auditoren differenzierter wahrgenommen und bewertet wurde. Andererseits muss auch ein möglicher Einfluss des Rosenthal-Effekts berücksichtigt werden [24], wodurch die bloße Erwartung einer Verbesserung der LSV nach der Intervention bei den Auditoren zu einer besseren Bewertung geführt haben könnte. Jedoch wird der Einsatz von geschulten Auditoren als für eine valide und forschungspraktikable Beurteilung von Lehrqualität beschrieben [1], [17]. Auch in anderen Arbeiten finden sich teilweise nur moderate Übereinstimmungen von studentischen und „peer-Bewertungen“ [16]. In der zweiten Erhebungsphase fallen die Unterschiede in der Bewertung weniger deutlich aus, was insbesondere innerhalb der Gruppe der Auditoren für eine homogenere Bewertungsgrundlage nach der erfolgten Schulung sprechen könnte. Die so nachgewiesene hohe Inter-Rater-Reliabilität stützt die Validität der Daten [34].

Weiterhin muss analysiert werden, ob die für das Projekt gewählte Intervention zur Verbesserung der LSV stark genug war. Da die Literatur keine Evidenz dafür liefert, dass studentische Evaluation allein die Lehre an Hochschulen verbessert [23], [28], wurde in dieser Studie eine über bloßes Ergebnisfeedback hinausgehende Intervention gewählt. Das Feedback an die Zielgruppe erfolgte jedoch nur in schriftlicher Form. Andere Untersuchungen zeigen, dass schriftliche Rückmeldungen von Lehrenden nur selten gelesen werden und damit kaum Auswirkungen haben können [9]. Weitere Bemühungen wie z.B. die Durchführung von hochschuldidaktischen Beratungen [23], [33] oder direkte Diskussionen mit den Lehrenden über die Ergebnisse [2] ziehen hingegen wirkungsvollere Verbesserungen nach sich. Außerdem erhöht ein möglichst früher Zeitpunkt des Feedbacks die Wahrscheinlichkeit eines positiven Effekts bei den Lehrenden [26]. In der vorliegenden Untersuchung war der Zeitraum zwischen Erhebung und Rückmeldung mit bis zu vier Monaten vergleichsweise lang. Allerdings wurden die personenbezogenen schriftlichen Rückmeldungen, wie im Methodenteil beschrieben, anschaulich aufbereitet und eingehend erläutert. Bekannt ist nämlich, dass schriftliche Rückmeldungen von Evaluationen ohne Erläuterungen häufig von Lehrenden nicht korrekt interpretiert und somit nicht richtig verstanden werden und daher meist wirkungslos bleiben [2]. Ein weiterer Einflussfaktor für den eher schwachen Effekt der Intervention könnte in der Tatsache begründet liegen, dass es sich bei der LSV um eine „multi-instructor-Veranstaltung“ mit insgesamt ca. 150 Lehrpersonen in sechs Themenblöcken handelt. Ein solches Format birgt bei der Umsetzung von Veränderungen oder Verbesserungen im Vergleich mit Kursen, bei denen lediglich wenige oder gar nur einzelne Personen beteiligt sind, besondere Schwierigkeiten [26]. Weiterhin ist bekannt, dass die in Evaluationsprojekten angebotenen Informationen und Beratungen von Lehrenden weniger genutzt werden, wenn diese nicht daran interessiert oder gewillt sind, ihre didaktischen Fertigkeiten zu verbessern [18].

Ein weiterer Aspekt für den nicht sehr durchgreifenden Effekt der Intervention ist in der systemimmanenten Trägheit von Fakultäten bei der Umsetzung von curricularen Innovationen zu vermuten [27]. Hinzu kommt, dass das Konzept für die LSV bis zur Intervention im Rahmen dieser Studie nicht während der curricularen Planungen schriftlich fixiert und an die Lehrenden übermittelt wurde. Damit wurde der Faktor „Kommunikation innerhalb der Fakultät“, der in Planungsprozessen von wesentlicher Bedeutung ist [3], bei der Einführung des neuen Curriculums nicht ausreichend beachtet. Idealer wäre es, eine Schulungsmaßnahme anzustreben, die alle an der LSV beteiligten Lehrpersonen mit dem Konzept vertraut macht [3]. In die anschließenden Maßnahmen zur Überprüfung der Qualität der LSV sind, wie in dieser Studie erfolgt, Lehrende und Studierende einzubinden, um in der Fakultät eine möglichst hohe Akzeptanz zu erzielen [19]. Um insgesamt die Effektivität von Lehr- und Lehrveranstaltungsevaluationen zu steigern, sind diese in ein allgemeines Verfahren zur Bestimmung und Förderung von Lehr-, Ausbildungs- und Forschungsqualität zu integrieren, da eine alleinige Einschätzung von Lehrqualität für eine Verbesserung nicht ausreichend ist [25].


Zusammenfassung und Ausblick

Die vorliegende Untersuchung konnte zeigen, dass sich in der Evaluation eines neu etablierten Konzepts der LSV sowohl in der Terminevaluation durch Studierende als auch durch geschulte Auditoren nach einer Intervention didaktische Verbesserungen nachweisen ließen, die sich stärker auf der Basis differenzierter Einzelmerkmale zu lehrpersonen- und konzeptbezogenen Merkmalen als durch Schulnoten abbilden ließen. Die Studierenden bewerteten die LSV insgesamt positiver als die Auditoren, wobei eine gute Inter-Rater-Reliabilität bestand. Eine dreistündige Vorbereitung der Auditoren reicht offenbar jedoch nicht aus, um die Personen adäquat auf ihre Rolle als analysierende Feedbackgeber vorzubereiten. Außerdem ist zu berücksichtigen, dass die Generalisierbarkeit der Ergebnisse aufgrund der methodisch bedingten Stichprobenwahl mit nur 18 Vorlesungen in der zweiten Erhebungsphase eingeschränkt ist. Die Notwendigkeit der besseren inhaltlichen und strukturellen Einbettung der LSV in das curriculare Gesamtkonzept auch im Sinne einer Begleitung durch eine regelmäßige Qualitätskontrolle wurde in dieser Studie dennoch deutlich. Wie lange Wirkungen, die aufgrund des Feedbacks nach einer Evaluation eintreten, bei der Zielgruppe bestehen bleiben, sollten zukünftige Studien untersuchen. Eine rein schriftliche Information zum Design von Vorlesungen nach modernen didaktischen Kriterien scheint als Intervention für viele Dozierende kein ausreichender Stimulus zur Verbesserung oder Überarbeitung ihrer Vorlesungen zu sein. Weiterhin ist auch zu prüfen, welche Effekte bei der indirekt betroffenen Gruppe der Studierenden eintreten, z.B. Auswirkungen auf ihre Motivation und ihren Lernerfolg.


Danksagung

Wir danken der Medizinischen Fakultät der Universität Hamburg für die Förderung dieses Projekts (L-107/2006) aus dem Förderfonds Lehre.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenskonflikte in Zusammenhang mit diesem Artikel haben.


Literatur

1.
Albanese MA, Schuldt SS, Case D, Brown D. The validity of lecturer ratings by students and trained observers. Acad Med. 1991;66(5):26-28. DOI: 10.1097/00001888-199101000-00008 Externer Link
2.
Baggott J. Reaction of lecturers to analysis results of student ratings of their lecture skills. J Med Educ. 1987;62:491-496.
3.
Bland CJ, Starnaman S, Wersal L, Moorhead-Rosenberg L, Zonia S, Henry R. Curricular change in medical schools: how to succeed. Acad Med. 2000;75(6):575-594. DOI: 10.1097/00001888-200006000-00006 Externer Link
4.
Bortz J, Döring N. Forschungsmethoden und Evaluation. Berlin: Springer; 2006.
5.
Brown G, Manogue M. AMEE Medical Education Guide No. 22: Refreshing lecturing: a guide for lecturers. Med Teach. 2001;23(3):231-244. DOI: 10.1080/01421590120043000 Externer Link
6.
Butler JA. Use of teaching methods within the lecture format. Med Teach. 1992;14(1):11-23. DOI: 10.3109/01421599209044010 Externer Link
7.
Cantillon P. Teaching large groups. BMJ. 2003;326:437-440.
8.
Clauß G, Ebner H. Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen. Thun/Frankfurt a. M.: Harri Deutsch; 1977.
9.
Cohen PA. Effectiveness of student-rating feedback for improving college instruction: a meta-analysis of findings. Res High Educ. 1980;13(4):321-341. DOI: 10.1007/BF00976252 Externer Link
10.
Copeland H, Longworth D, Hewson M, Stoller J. Successful lecturing. A prospective study to validate attributes of the effective medical lecture. J Gen Intern Med. 2000;15(6):366–371. DOI: 10.1046/j.1525-1497.2000.06439.x Externer Link
11.
Craig M. Facilitated student discussions for evaluating teaching. SIGCSE Bulletin. 2007;39(1):190-194. DOI: 10.1145/1227504.1227376 Externer Link
12.
Diehl JM. Normierung zweier Fragebögen zur studentischen Beurteilung von Vorlesungen und Seminaren. Psychol Erz Unterr. 2003;50:27-42.
13.
Fyrenius A, Bergdahl B, Silén C. Lectures in problem-based learning - why, when and how? An example of interactive lecturing that stimulates meaningful learning. Med Teach. 2005;27(1):61-65. DOI: 10.1080/01421590400016365 Externer Link
14.
Gordon PA. Student evaluation of college instructors: an overview. Valdosta: Valdosta State University; 1997. Zugänglich unter/available under: http://teach.valdosta.edu/WHuitt/files/tcheval.pdf Externer Link
15.
Grass G, Stosch C, Griebenow R. Renaissance der Vorlesung. Dtsch Ärztebl. 2005;102(23):A1642.
16.
Greenwood GE, Ramagli HJ. Alternatives to student ratings of college teaching. J High Educ. 1980;51(6):673-684. DOI: 10.2307/1981172 Externer Link
17.
Imseis HM, Galvin SL. Faculty and resident preference for two different forms of lecture evaluation. Am J Obstet Gynecol. 2004;191(5):1815-1821. DOI: 10.1016/j.ajog.2004.07.068 Externer Link
18.
Irby D, DeMers J, Scher M, Matthews D.A model for the improvement of medical faculty lecturing. J Med Educ. 1976;51(5):403-409.
19.
Leppek R, Jußen M, Berthold D, Sulzer J, Klose KJ. Windmühlenprinzip versus Uhrwerkprinzip - Tradition und Interaktion in der akademischen Vorlesung. Z Ärztl Fortbild. 1996;90:406-413.
20.
Moßig I. Stichproben, Stichprobenauswahlverfahren und Berechnung des minimal erforderlichen Stichprobenumfangs. Gießen: Universität Gießen;1996.
21.
Reed M. Electronic module evaluation: combining quality with quantity. Kongressbeitrag University of Leeds Inaugural Learning and Teaching Conference. Leeds: University of Leeds; 2004. Zugänglich unter/available under: http://homepages.see.leeds.ac.uk/~lecmsr/Reed%202004.doc Externer Link
22.
Rindermann H. Methodik und Anwendung der Lehrveranstaltungsevaluation für die Qualitätsentwicklung an Hochschulen. Sozialwis Berufspraxis. 2003;26(4):401-413.
23.
Rindermann H. Quality of instruction improved by evaluation and consultation of instructors. Int J for Acad Develop. 2007;12(2):73-85. DOI: 10.1080/13601440701604849 Externer Link
24.
Rost DH. Handwörterbuch der Pädagogischen Psychologie. Weinheim: Beltz; 2001.
25.
Schmidt B. Warum oft wirksam? Und warum manchmal wirkungslos? – Subjektive Erklärungen zur Wirkung von Lehrveranstaltungsevaluation aus der Sicht von Nutzern und Anbietern. Z Eval. 2008;7(1):7-33.
26.
Stillman PL, Gillers MA, Heins M, Nicholson G, Sabers D. Effect of immediate student evaluations on a multi-instructor course. J Med Educ. 1983;58:172-178.
27.
Sukkar MY. Curriculum development: a strategy for change. Med Educ. 1986;20:301-306. DOI: 10.1111/j.1365-2923.1986.tb01369.x Externer Link
28.
Turhan K, Yaris F, Nural E. Does instructor evaluation by students using a web-based questionnaire impact instructor performance? Adv Health Sci Educ. 2005;10(1):5-13. DOI: 10.1007/s10459-004-0943-7 Externer Link
29.
Universität Hamburg. Hamburger Lernzielkatalog. Hamburg: Universität Hamburg; 2009. Zugänglich unter/available under: http://www.uke.de/studierende/downloads/zg-studierende/Lernzielkatalog_091104_mat.pdf Externer Link
30.
van den Bussche H, Anders S, Ehrhardt M, Göttsche T, Hüneke B, Kohlschütter A, Kothe R, Kuhnigk O, Neuber K, Rijntjes M, Quellmann C, Harendza S. Lohnt sich eine Reform der klinischen Ausbildung? - Die Qualität des Hamburger Curriculums unter der alten und der neuen Approbationsordnung im Vergleich. Z Ärztl Fortbild Qualitätssich. 2005;99:419-423.
31.
van den Bussche H, Weidtmann K, Kohler N, Frost M, Kaduskiewicz H. Evaluation der ärztlichen Ausbildung: Methodische Probleme der Durchführung und der Interpretation von Ergebnissen. GMS Z Med Ausbild. 2006;23(2):Doc37. Zugänglich unter/available under: http://www.egms.de/de/journals/zma/2006-23/zma000256.shtml Externer Link
32.
Weidtmann K. Analyse des Status quo der Leitsymptom-Vorlesung und Planung einer evaluationsbasierten Intervention an der Medizinischen Fakultät Hamburg. Unveröffentlichte Projektarbeit im Studiengang Master of Medical Education. Heidelberg: Medizinische Fakultät Heidelberg; 2007.
33.
Wilson RC. Improving faculty teaching: Effective use of student evaluations and consultants. J High Educ. 1986;57(2):196-211. DOI: 10.2307/1981481 Externer Link
34.
Wirtz M. Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen. Rehabilitation. 2004;43:384-389. DOI: 10.1055/s-2003-814935 Externer Link