GMS | GMS Journal for Medical Education | Der Einfluss von Anonymität in der Lehrevaluation durch Studierende

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Artikel

Artikel empfehlen

Der Einfluss von Anonymität in der Lehrevaluation durch Studierende

Forschungsarbeit Humanmedizin

Suche in Medline nach

Theresa Scherer - Berner Fachhochschule, Studiengang Pflege, Bern, Schweiz
Jan Straub - Berner Fachhochschule, Studiengang Pflege, Bern, Schweiz
Daniel Schnyder - Berner Fachhochschule, Studiengang Pflege, Bern, Schweiz
Noemi Schaffner - Berner Fachhochschule, Studiengang Pflege, Bern, Schweiz

GMS Z Med Ausbild 2013;30(3):Doc32

doi: 10.3205/zma000875, urn:nbn:de:0183-zma0008755

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2013-30/zma000875.shtml

Eingereicht:	12. November 2012
Überarbeitet:	31. Januar 2013
Angenommen:	7. April 2013
Veröffentlicht:	15. August 2013

© 2013 Scherer et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.

Gliederung

Zusammenfassung

Zielsetzung und Fragestellung: Unterscheiden sich die Ergebnisse anonymisierter und personalisierter Evaluationen?

Methodik: Während zweier Jahre wurden bei jeder Modulevaluation alle Studierenden randomisiert den Halbgruppen „anonym“ und „personalisiert“ zugeteilt. Die Qualität des Moduls in seinen relevanten Aspekten wurde mit einem standardisierten Fragebogen erhoben. Zusätzlich konnten optionale Textantworten formuliert werden. Drei unabhängige Personen bewerteten die Aussagequalität der Antworten gemäss einem Leitfaden. Dieser beinhaltete die fünf Dimensionen positiv-negativ, differenziert-absolut, Nennung einer Person-allgemein, Befehl enthaltend-neutral und optisch akzentuiert-blank.

Der Datensatz bestand aus 615 Fragebogen, davon waren 306 in anonymer Form. Mit einer multivariaten Varianzanalyse wurde überprüft, ob sich zwischen anonym und personalisiert erhobenen Daten ein Unterschied sowohl bei den durch Skalen bewerteten Aspekten als auch bei der Qualität der optionalen Textantworten zeigte. Zusätzlich wurde untersucht, ob sich die Häufigkeit der optionalen Textantworten unterschied.

Ergebnisse: In der Aussagequalität liess sich kein signifikanter Unterschied zwischen anonym und personalisiert erhobenen Daten nachweisen. Hingegen haben Studierende aus der personalisierten Gruppe tendenziell häufiger optionale Textantworten geliefert.

Schlussfolgerung: Personalisierte Evaluationen generieren dann keine verfälschten Resultate im Sinne der sozialen Erwünschtheit, wenn der Evaluationszirkel geschlossen und transparent ist: Die Verantwortlichen melden den Studierenden die Evaluationsergebnisse konsequent zurück und Änderungs-, Optimierungswünsche und Umsetzungsmöglichkeiten werden mit ihnen diskutiert. Die Studierenden erfahren so, dass ihre Rückmeldungen ernst genommen werden. So können sie sich echte Kritik erlauben.

Schlüsselwörter: Ausbildung, Curriculumsentwicklung, Programmevaluation, Anonymität der Befragten

Gliederung

Einleitung

Ausgangslage

Der Bachelorstudiengang der Berner Fachhochschule (BFH) in Pflege wurde im Jahr 2006 gemäss den Vorgaben der Bologna-Reform neu entwickelt. Der Lehrgang ist als kompetenzbasiertes Generalistenstudium angelegt, das wissenschaftliche Fundierung mit konsequenter Praxisorientierung verbindet. Die Struktur ist modular, das pädagogisch-didaktische Konzept ist das Problembasierte Lernen (PBL: Problem-based Learning). Das Kollegium besteht aus zwanzig Dozierenden, die in der Regel eine Grundausbildung in Pflege und einen akademischen Abschluss in Pflegewissenschaft, in Erziehungswissenschaft oder Psychologie mitbringen. Pro Studienjahr werden im Schnitt 100 Pflegende ausgebildet.

Der Evaluationsprozess des Studiengangs wurde auf der Basis der Evaluationsliteratur, die sich für PBL-Curricula bewährt hat, parallel zum Curriculum entwickelt [1], [2]. Das Ziel der Lehrevaluation (Modulevaluationen, Dozierendenevaluationen, etc.) war die kontinuierliche Optimierung des Studiengangs. Daraus resultierte ein entsprechendes Evaluationskonzept, das sich folgendermassen charakterisieren lässt:

1.: Kontinuierliche Evaluation aller Module durch Studierende und Dozierende für strukturell-organisatorische Anpassungen innerhalb der einzelnen Module.
2.: Kontinuierliche Anpassung des Curriculums durch die Surveygruppe. Dies ist die Evaluationsgruppe, bestehend aus der Studiengangsleiterin, dem Leiter Ressort Ausbildungsprogramm und dem wissenschaftlichem Mitarbeiter. Für strukturell-inhaltliche Anpassungen innerhalb des gesamten Curriculums
3.: Kontinuierliche Qualitätsentwicklung durch den Qualitätszirkel. Dieser besteht aus dem gesamten Kollegium. Der Qualitätszirkel sorgt für Anpassungen systemisch-haltungsmässiger Art, z. B. betreffend die pädagogische Grundhaltung, für die Realisation des zukünftigen Berufsbildes.

Die Modulevaluation durch die Studierenden geschah mit einem standardisierten Fragebogen am Ende jedes Moduls. Die Fragen zielten darauf ab, die Qualität der Module zu überprüfen. Die Studierenden füllten den Fragebogen jeweils im Rahmen einer Lehrveranstaltung am Ende des Moduls aus. Dadurch wurde mit über 95 Prozent eine sehr hohe Rücklaufquote erreicht. Alle Evaluationen fanden anonymisiert statt.

Die erhobenen Daten wurden statistisch ausgewertet und in einer Zusammenfassung dargestellt. Diese Zusammenstellung wurde den Studierenden im darauffolgenden Modul durch die Studiengangsleitung präsentiert; die Ergebnisse wurden diskutiert; zu Änderungswünschen oder Anregungen der Studierenden erfolgte eine Rückmeldung darüber, ob und falls ja, wie die Vorschläge umgesetzt würden.

Dieses Vorgehen bewährte sich in den vergangenen Jahren. Hingegen löste die Frage, ob die Studierendenbefragung weiterhin anonym durchgeführt werden sollte immer wieder kontroverse Diskussionen im Kollegium aus. Anlass dazu waren einzelne numerische Bewertungen, die auffallend schlecht waren, z. B. durchwegs Note 1¹ oder Kommentare, die vernichtend und verletzend formuliert waren, z. B. „Frau Müller² ist vollkommen unfähig! Schicken Sie sie in eine Weiterbildung!“ Zudem stimmten sehr negativ formulierte Textantworten der Studierenden mit den dazugehörigen numerischen Bewertungen oft nicht überein. In solchen Fällen konnte das Kollegium nicht nachvollziehen, wie die Ergebnisse interpretiert werden sollten. Da die Studierenden die Module ohne Namensangabe evaluierten, konnten die Zuständigen nicht nachfragen, was zu grossen Irritationen führte. Ein Teil des Kollegiums vermutete, dass ein anonymes Evaluieren diese sehr negativen Studierendenrückmeldungen fördert. Die zu diesem Zeitpunkt vorhandene Datenmenge war allerdings sehr gering, weshalb dazu keine fundierten Rückschlüsse gezogen werden konnten.

Ein Argument der Befürworter des anonymisierten Vorgehens war die Vermutung, Studierende könnten bei negativer Kritik belastende Konsequenzen von Seiten der Dozierenden befürchten. Auch in der Forschungsliteratur wird darauf hingewiesen, dass insbesondere bei sensiblen oder bedrohlichen Antworten, die negative Auswirkungen haben könnten, die Gefahr besteht, dass der Fragebogen nicht ehrlich, sondern im Sinne von sozialer Erwünschtheit ausgefüllt wird [3]. Zudem wiesen verschiedene Studien nach, dass Befragte dazu tendieren, gefälligere Antworten zu geben, wenn sie wissen oder vermuten, dass ihre Antworten zusammen mit ihrem Namen von Dozierenden eingesehen werden können [4], [5]. Gemäss einer anderen Untersuchung von Fries und McNinch [6] notieren Studierende ihren Namen nicht, wenn sie etwas Negatives zu sagen haben, selbst dann nicht, wenn sie zur Namensnennung aufgefordert worden sind. Aus diesen Gründen empfiehlt die Fachliteratur, Fragebogen und Beurteilungsskalen anonym ausfüllen zu lassen, um die Genauigkeit und die Verlässlichkeit der Daten zu gewährleisten [3].

Aber ebenso viele Untersuchungen konnten keine Unterschiede zwischen anonym und personalisiert erhobenen Daten nachweisen [7], [8]. Zudem nimmt das Kollegium gemäss dem pädagogischen Grundkonzept die Haltung ein, dass die Studierenden als erwachsene Partnerinnen und Partner betrachtet werden sollen und dass ein sachlicher, offener Austausch bezüglich der Leistungsqualität möglich sein muss. Die Studierenden sollten im Laufe ihres Studiums dazu hingeführt werden, kritische, aber respektvolle und verantwortungsvolle Rückmeldungen geben zu können.

Fragestellung

Bisherige Forschungsergebnisse zu anonymer bzw. personalisierter Evaluation sind widersprüchlich und die Fachliteratur ist teilweise älter als zehn Jahre. Das heisst, dass die Frage in den letzten Jahren kaum Beachtung gefunden hat. Die gängige Praxis, Erhebungen anonym durchzuführen, insbesondere bei psychometrischen Verfahren, wurde daher unbesehen auf Programmevaluationen übertragen. Um den künftigen Evaluationsprozess auf Evidenz abzustützen und um die aktuelle Forschungslücke über anonyme und personalisierte Evaluation zu schliessen, entschieden die Verantwortlichen, eine Untersuchung durchzuführen. Diese sollte folgende Fragestellung bearbeiten: Unterscheiden sich die Ergebnisse anonymisierter und personalisierter Evaluationen?

Die Beantwortung dieser Hauptfragestellung erfolgte in drei Teilfragestellungen, die eine differenzierte Analyse hinsichtlich des Untersuchungsziels erlauben:

1.: Werden die Module bei der quantitativen Bewertung bei anonym erhobenen Evaluationen im Vergleich zu personalisiert erhobenen Evaluationen besser bewertet?
2.: Werden bei anonymen oder bei personalisiert erhobenen Evaluationen häufiger optionale Textantworten gegeben?
3.: Unterscheiden sich die Textantworten bei anonymer bzw. personalisierter Evaluation in ihrer Qualität (siehe dazu Kapitel 2.3)?

Gliederung

Methoden

Fragebogen

Die für das Curriculum eigens entwickelten Fragebogen zur Modulevaluation beinhalten sechs Items zum Aspekt allgemeiner Eindruck des Moduls (Ziele, Relevanz, Vertiefung, Lernstoff, Organisation, Qualität), vier Items zum Aspekt Vorlesungen (Lernfragen, Dozierende, Strukturierung, Qualität, siehe Abbildung 1 [Abb. 1]) und vier Items zu den Prüfungen (Niveau, Umfang, Inhalt, Qualität). Alle diese Items bewerten die Studierenden auf einer Skala von 1 (trifft keinesfalls zu) bis 6 (trifft in hohem Mass zu). Diese Skalierung wurde gewählt, weil sie dem Schweizer Notensystem entspricht und so für die Studierenden bei der Bewertung wenig kognitiven Aufwand bedeutete und weil damit eine Tendenz Richtung genügend/ungenügend erkennbar wurde. Je nach Aufbau der einzelnen Module wurden zudem verschiedene Items, z. B. zu den Tutoraten, Skillstrainings, Übungen oder Seminaren erfragt, siehe Abbildung 1 [Abb. 1] [1], [2], [9], [http://www.qualitaet.unibe.ch/unibe/qualitaet/content/e4198/e4436/e4456/MusterfragebogenTheologieVorlesung_ger.pdf].

Für die nachfolgenden Analysen zur Untersuchung der Fragestellung wurde jeweils zu jedem Aspekt über die Mittelwertsbildung der dazugehörenden Items eine ebenfalls sechsstufige Skala gebildet.

Neben der Bewertung des Moduls mit der vorgegebenen Skala hatten die Studierenden die Möglichkeit, im Fragebogen zu jedem Aspekt Kommentare und/oder Anregungen abzugeben. Das bedeutet, dass die Studierenden im Fragebogen mehrere Textantworten geben konnten.

Stichprobe und Datenbasis

Für die Untersuchung der Fragestellung wurde das Evaluationssetting verändert, d. h. die Hälfte der Studierenden füllte die Fragebögen weiterhin anonym aus, während die andere Hälfte die Fragebögen ausfüllte, die bereits ihren Namen aufgedruckt trugen. Die Datensammlung für diese Untersuchung dauerte zwei Jahre. Die Stichprobe bestand aus Studierenden von vier Kohorten. Bei jeder Modulevaluation wurden die Studierenden jeweils neu durch Randomisierung entweder der Gruppe „anonym“ oder der Gruppe „personalisiert“ zugeteilt.

Während des Erhebungszeitraums wurden insgesamt 27 Module evaluiert. Von der Untersuchung ausgeschlossen waren alle Praxis- und Kommunikationsmodule sowie die Module des Clinical Assessments, da diese durch andere Fragebogen evaluiert wurden. Die Studienverantwortlichen wählten von den 27 Modulen für die Untersuchung fünf Module aus, die den vielfältigen Bachelorstudiengang Pflege angemessen abbilden: „Pflege studieren (Einführungsmodul)“, „Notfallsituationen handhaben“, „Forschung verstehen“, „Statistisches Basiswissen erwerben“ und „Qualität der Pflege sichern“. Insgesamt flossen damit 615 ausgefüllte Fragebogen, davon 306 in anonymer Form, in die Untersuchung ein.

Die Analysen der Antworten wurden pro Modul einzeln und unabhängig voneinander durchgeführt, da die Gruppen bei jedem Modul neu randomisiert wurden, und es somit wahrscheinlich war, dass der/die gleiche Studierende ein Modul in anonymer und ein anderes Modul in personalisierter Form bewertet hatte.

Datenaufbereitung

Für die ersten beiden Teilfragestellungen wurden die Daten in das Statistikprogramm SPSS eingegeben und die in Kapitel 3 beschriebenen Analysen durchgeführt.

Für die dritte Fragestellung bedurfte es einer separaten Aufbereitung der Daten. Dafür wurden alle Kommentare anhand eines durch die Autoren entwickelten Ratinginstruments bewertet. Das Ziel in der Entwicklung des Instruments war es, Aussagen danach zu kodieren, ob sie vernichtend oder verletzend sind. Dazu wurde zunächst überlegt, was den vernichtenden oder verletzenden Kommentaren gemeinsam ist. Ausgehend davon wurde definiert, dass eine Aussage dann verletzend oder vernichtend ist, wenn sie alle folgenden fünf Bedingungen erfüllt: sie ist

1.: negativ,
2.: absolut,
3.: bezieht sich auf eine Person,
4.: enthält einen Befehl und
5.: ist optisch akzentuiert.

Daraus wurden die folgenden fünf Dimensionen entwickelt:

1.: In der Dimension Wertung wurden die Aussagen dahingehend kodiert, ob sie positiv, negativ oder beides waren, z. B. „Das Modul war schlecht organisiert, aber die Themen waren alle sehr interessant“.
2.: In der Dimension Differenziertheit wurde bewertet, ob die Aussagen differenziert oder absolut waren. Eine Aussage galt z. B. dann als differenziert, wenn sie Worte wie teilweise, manchmal, aber etc. enthielten. Aussagen wie: „Thema Normalverteilung ist unwichtig“ wurden als absolut kodiert.
3.: Die Dimension Individuum zeigte, ob sich die Aussage auf eine Person bzw. eine/n Dozierende/n bezog oder nicht, ob also deren/dessen Name erwähnt wurde, z. B. „Frau Müller ist unfähig!“.
4.: In der Dimension Befehl wurde beurteilt, ob die Rückmeldungen eine Forderung enthielten, z. B. „Erklären Sie den Lehrbeauftragten endlich, wie der Beamer funktioniert“.
5.: In der Dimension Optische Akzentuierung wurden Aussagen kodiert, die durch eine Interpunktion wie ein Ausrufezeichen oder eine Unterstreichung hervorgehoben wurden, z. B. „Super!!!“, „HALLO PLANUNG!“.

Alle Kommentare und Anregungen wurden von drei Personen unabhängig voneinander und mit dem vorgestellten Ratinginstrument in kategorialen Variablen kodiert, analysiert und beurteilt. Beim Kodierungsprozess war für die Rater nicht ersichtlich, ob die Aussagen aus der anonymen oder personalisierten Gruppe stammten. Um die Übereinstimmung zwischen den Ratern zu prüfen, wurde der Korrelationskoeffizient nach Pearson gerechnet. Das Mass der Übereinstimmung bei den einzelnen Modulen betrug zwischen r=.74 und r=.98.

Gliederung

Ergebnisse

Teilfragestellung 1: Unterschiede bei der quantitativen Bewertung

Zur Untersuchung, ob anonym erhobene Evaluationen negativer ausfallen als personalisiert erhobene, wurde für jedes einzelne Modul eine multivariate Varianzanalyse (MANOVA) durchgeführt. Abhängige Variablen (AVs) waren die gebildeten Skalen zu den beschriebenen Aspekten der Modulevaluation, die unabhängige Variable (UV) war die Gruppierungsvariable „anonym“ und „personalisiert“.

Bei keinem Modul konnte ein signifikanter Unterschied zwischen anonym und personalisiert erhobenen Daten nachgewiesen werden (siehe Tabelle 1 [Tab. 1]).

Teilfragestellung 2: Häufigkeit der Textantworten

Nach einer einfachen Häufigkeitszählung der optionalen Textantworten wurde pro Modul ein Mann-Whitney-Test für unabhängige Stichproben durchgeführt zur Prüfung, ob die anonym evaluierenden Studierenden häufiger Textantworten geben. Der Mann-Whitney-Test wurde gewählt, da die Daten die statistischen Voraussetzungen für einen T-Test nicht erfüllten.

Wie in Tabelle 2 [Tab. 2] ersichtlich ist, geben die Studierenden aus der personalisierten Gruppe tendenziell häufiger Anregungen oder Kommentare ab. Die Häufigkeit unterscheidet sich jedoch nicht signifikant zwischen den Gruppen. Als Ausnahme gelten die Textantworten im Modul „Forschung verstehen“, bei dem die personalisierte Gruppe im Durchschnitt signifikant häufiger eine Anregung vermittelt oder einen Kommentar abgegeben hat.

Teilfragestellung 3: Qualität der Textantworten

Insgesamt haben die Studierenden über alle fünf für die Untersuchung relevanten Module n=2152 Aussagen formuliert, davon waren total n=6 verletzend oder vernichtend, erfüllten also alle fünf genannten Bedingungen (siehe Kapitel 2.3 Datenaufbereitung). Aufgrund dieser geringen Anzahl von Aussagen, die die Kriterien einer verletzenden bzw. vernichtenden Aussage erfüllten, konnte keine statistische Analyse durchgeführt werden, um zu untersuchen, ob verletzende bzw. vernichtende Aussagen häufiger von anonymen Studierenden stammen.

Für die statistische Analyse wurde in einem ersten Schritt pro Dimension ein Summenwert über alle gegebenen Textantworten im Fragebogen gebildet. Das heisst, wenn ein Studierender in einer Evaluation drei Textantworten gab, die alle nicht persönlich waren, erhielt er auf der Dimension Individuum einen Summenwert=3. Je niedriger also der Summenwert war, desto häufiger haben die Studierenden negative, absolute, persönliche, einen Befehl oder optische Akzentuierung enthaltende Rückmeldungen formuliert.

In einem zweiten Schritt wurden unter Anwendung von MANOVAs (UV=Gruppierungsvariable anonym vs. personalisiert, AVs=Summenwerte aller Dimensionen) mögliche Gruppenunterschiede in der Qualität der Textantworten geprüft (siehe Tabelle 3 [Tab. 3]).

Bei keinem Modul konnten zwischen den personalisierten und anonymen Textantworten signifikante qualitative Unterschiede in einer der fünf Dimensionen nachgewiesen werden.

Gliederung

Diskussion

Ziel dieser Studie war es, herauszufinden, ob ein Unterschied zwischen anonymer und personalisierter Programmevaluation durch Studierende besteht. Als Ergebnis stellte sich heraus, dass es hinsichtlich der quantitativen Bewertungen keine Unterschiede zwischen den beiden untersuchten Gruppen bestehen. Wegen der geringen Datenmenge konnte nicht untersucht werden, ob es einen Unterschied hinsichtlich verletzender bzw. vernichtender Aussagen gibt, allerdings lässt sich bei der Untersuchung der Ausprägung der fünf qualitativen Dimensionen kein signifikanter Unterschied zwischen anonymer und personalisierter Evaluation nachweisen. Bei der Häufigkeit der Textantworten ergab sich einzig bei einem Modul ein signifikanter Unterschied, bei allen anderen Modulen konnte kein Unterscheid zwischen der anonymen und personalisierten Gruppe nachgewiesen werden. Diese Ergebnisse öffnen einen weiten Interpretationsspielraum. Für das einzige signifikante Ergebnis könnte die Tatsache verantwortlich sein, dass Studierende, die sich die Mühe nehmen, einen reflektierten persönlichen Kommentar zu formulieren, als Personen wahrgenommen werden möchten. Sie würden gerne einen weiterführenden Austausch beginnen.

Der unter 1.1 Ausgangslage vorgestellte konsequente Feedbackzyklus und die hohe Transparenz im Umgang mit den Ergebnissen erzeugen bei den Studierenden eine Sicherheit, dass Rückmeldungen ernst genommen und sorgfältig geprüft werden. Die Studierenden missbrauchen deshalb Fragebogen nicht, um anderweitig begründete Frustrationen zu kompensieren.

Neben der standardisierten Modulevaluation bestehen andere Möglichkeiten für Rückmeldungen, insbesondere ein Mentoratskonzept, das einen individuellen Austausch zwischen Studierenden und Dozierenden ermöglicht. Allfällige Unzufriedenheiten bzw. Probleme können somit gezielt und auf unterschiedlichen Wegen thematisiert werden. Eine weitere Begründung für die vorliegenden Ergebnisse dürfte sein, dass die Dozierenden signalisierten, dass Rückmeldungen und Vorschläge zur Entwicklung des Studienprogramms willkommen seien.

Dieses Evaluationskonzept hat Auswirkungen sowohl auf die Dozierenden als auch auf die Studierenden. Beide Seiten sehen sich bis zu einem gewissen Grad weiterhin als Pioniere des neuen Studiums und möchten einen Beitrag zur Curriculumsgestaltung leisten. Es kann zudem davon ausgegangen werden, dass in den Lehrplänen der Zubringerschulen (Gymnasien, Berufs- und Fachmittelschulen) Kommunikations- und Feedbackregeln fest integriert sind. Heute studiert eine Generation, die an Austausch und Diskussion gewöhnt ist.

Vernichtende und verletzende Äusserungen müssen aufgrund der Ergebnisse dieser Untersuchung als Einzelfälle betrachtet werden. In den Anfängen der Anwendung des Evaluationskonzepts (1.1 Ausgangslage) war den Dozierenden diese Tatsache noch nicht bewusst und die damalige Datenmenge erlaubte keine generalisierbaren Rückschlüsse. Ausreisser wurden nicht als solche erkannt und deswegen überbewertet. Es wurde vermutet, dass sie wegen der anonymen Durchführung zustande gekommen seien.

Die in der Literatur als „Negativity Bias“ bezeichnete Theorie bestätigt, dass in den meisten Situationen Negatives stärker, dominanter und einschneidender wahrgenommen wird als Positives [10]. Royman und Rozin [11] untermauern diese These plakativ mit dem Vergleich, dass die kurze Berührung mit einer Kakerlake eine delikate Mahlzeit ungeniessbar mache. Gemäss dem Prinzip der „Negativity Dominance“ [11] sollen das Wahrnehmen und Beurteilen von Geschehnissen, die sowohl positive als auch negative Aspekte aufweisen, negativer sein als die arithmetische Summe dieser subjektiven Werte.

Für die vereinzelten negativen Aussagen mögen zahlreiche andere Gründe verantwortlich sein: fachliche Überforderung, private Probleme, Desinteresse an einem Thema oder ein „Negativity Bias“ auf Seiten der Studierenden – eine zu schwierige Prüfungsfrage macht das ganze Modul schlecht.

Als Limitation der vorliegenden Studie könnte die Eigenkonstruktion des fünfdimensionalen Instruments zur Erfassung der Aussagequalität der optionalen Textantworten genannt werden, da diese Kategorisierung erstens subjektiv ist und zweitens nicht erschöpfend sein kann. Für die Validität des Instruments spricht allerdings die hohe Beurteilungsübereinstimmung zwischen den unabhängigen Ratern. Zu erwähnen bleibt, dass es gerade die Anwendung dieses Ratinginstruments bzw. die Prüfung der optionalen Textantworten war, die Einblick in die kritische Auseinandersetzung der Studierenden mit dem Studienprogramm verschafft hat.

Eine Stärke der Studie ist die grosse Datenmenge, die dank der lückenlosen Durchführung der Modulevaluationen mit einer Rücklaufquote von nahezu 100 Prozent vorliegt. Dies wiederum war nur möglich durch das seriös entwickelte Konzept. Die Evaluationsfragen haben sich über die Jahre hinweg als relevant erwiesen. All diese sorgfältigen Vorarbeiten sowie das eingespielte Setting haben eine komplikationslose Durchführung des Forschungsprojekts ermöglicht.

Gliederung

Schlussfolgerung

Es lohnt sich, in die Entwicklung eines Evaluationskonzeptes zu investieren, das als zentralen Aspekt einen geschlossenen und transparenten Feedbackzyklus vorsieht. Dieser eröffnet den Studierenden Möglichkeiten der Beteiligung und zeigt ihnen, wie die Daten der Evaluationen in die kontinuierliche Entwicklung des Lehrangebots einfliessen. Nicht die Anzahl der durchgeführten Evaluationen, wobei ein Minimum sicherlich gewährleistet sein sollte, sondern die konsequente Rückmeldung der Ergebnisse an die Studierenden und die Diskussion über allfällige Massnahmen sind dabei entscheidend. Die Studie zeigt, dass es nicht darauf ankommt, ob anonym oder unter Angabe des Namens evaluiert wird, solange diese konzeptuellen Evaluationsbedingungen erfüllt sind. In diesem Sinne können diese Studienergebnisse auf andere Institutionen übertragen werden.

Bei extrem negativen Antworten muss immer die Frage der Verhältnismässigkeit gestellt werden, da Negatives offensichtlich eine grössere Wirkung hat als Positives. Dies ist eine weitere, möglicherweise erleichternde Schlussfolgerung.

Gliederung

Anmerkung

¹ Schweizer Notensystem: 6 = sehr gut, 5 = gut, 4 = genügend, 3 = ungenügend, 2 = schlecht, 1 = sehr schlecht

² Name geändert

Gliederung

Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.

Gliederung

Literatur

1.: Kern DE, Thomas PA, Hughes MT. Curriculum Development for Medical Education - A Six-Step Approach. Baltimore: The Johns Hopkins University Press; 1998.
2.: Kromrey H. Evaluation - ein vielschichtiges Konzept: Begriff und Methodik von Evaluierung und Evaluationsforschung. Sozialwiss Berufspraxis. 2001;24(2):105-131.
3.: Borg WR, Gall MD. Educational research: An introduction. New York: Longman; 1983.
4.: Braskamp LA, Ory JC. Assessing faculty work: Enhancing individual and institutional performance. San Francisco: Jossey-Bass; 1994.
5.: Seldin P. How administrators can improve teaching: Moving from talk to action in higher education. San Francisco: Jossey-Bass; 1990.
6.: Fries CJ, McNinch RJ. Signed versus unsigned student evaluations of teaching: A comparison. Teach Sociol. 2003;31(3):333-344. DOI: 10.2307/3211331
7.: Opren C. The susceptibility of studen evaluation of lecturers to situational variables. High Educ. 1980;9(3):293-306. DOI: 10.1007/BF00138519
8.: Goh JW, Lee OK, Salleh H. Self-rating and respondent anonymity. Educ Res. 2010;52(3):229-245. DOI: 10.1080/00131881.2010.504060
9.: Baartmans P. Qualität nach Mass: Entwicklung und Implementierung von Qualitätsverbesserungen im Gesundheitswesen. 2 ed. Bern: Huber Verlag; 2006.
10.: Baumeister RF, Bratslavksy E, Finkenauer C, Vohs KD. Bad is Stronger Than Good. Rev Gen Psychol. 2001;5(4):323-370. DOI: 10.1037/1089-2680.5.4.323
11.: Rozin P, Royzman EB. Negativity Bias, Negativity Dominance, and Contagion. Personality and Social Psychology Review. 2001;5(4):296-320. DOI: 10.1207/S15327957PSPR0504_2

gms | German Medical Science

GMS Journal for Medical Education

Artikel

Der Einfluss von Anonymität in der Lehrevaluation durch Studierende

Suche in Medline nach

Autoren

Gliederung

Ausgangslage

Fragestellung

Fragebogen

Stichprobe und Datenbasis

Datenaufbereitung

Teilfragestellung 1: Unterschiede bei der quantitativen Bewertung

Teilfragestellung 2: Häufigkeit der Textantworten

Teilfragestellung 3: Qualität der Textantworten