gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Cluster-randomisierte Studien in der Lehrforschung: Grundlagen und methodische Aspekte

Artikel Ausbildungsforschung

  • corresponding author Jens Dreyhaupt - Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, Ulm, Deutschland
  • Benjamin Mayer - Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, Ulm, Deutschland
  • Oliver Keis - Universität Ulm, Studiendekanat Medizin, Ulm, Deutschland
  • Wolfgang Öchsner - Universität Ulm, Studiendekanat Medizin, Ulm, Deutschland; Universitätsklinik Ulm, Abteilung Kardioanästhesie, Ulm, Deutschland
  • Rainer Muche - Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, Ulm, Deutschland

GMS J Med Educ 2017;34(2):Doc26

doi: 10.3205/zma001103, urn:nbn:de:0183-zma0011038

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2017-34/zma001103.shtml

Eingereicht: 16. August 2016
Überarbeitet: 17. November 2016
Angenommen: 29. Dezember 2016
Veröffentlicht: 15. Mai 2017

© 2017 Dreyhaupt et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

In der Lehrforschung werden immer häufiger Studien zur Evaluation neuer Lehrmethoden und Ansätze durchgeführt, wobei diese Studien bei einer strengeren Anwendung und Einhaltung von anerkannten Standards und Methoden wissenschaftlicher Untersuchungen noch effizienter durchgeführt werden und überzeugendere Ergebnisse liefern könnten. Insbesondere bei prospektiven zweiarmigen (Interventions)-Studien, in denen zwei verschiedene Lehrmethoden verglichen werden sollen, könnte eine entsprechende Vorgehensweise zu einer substanziellen Qualitätssteigerung führen. Ein wesentlicher Standard ist dabei die Randomisierung, mit der systematische Verzerrungen der Studienergebnisse durch Strukturungleichheiten in den zu vergleichenden Studienarmen weitestgehend ausgeschlossen werden können. Dieser Standard sollte möglichst auch bei Studien in der Lehrforschung erreicht werden, wo er sich allerdings aktuell noch nicht allgemein durchgesetzt hat. Es gibt hierbei einige Schwierigkeiten und Vorbehalte, vor allem organisatorische und methodische Aspekte. Insbesondere muss beachtet werden, dass bei Studien in der Lehrforschung bedingt durch die Lehrsituation meist keine individuelle Randomisierung sondern eine Randomisierung ganzer Gruppen (sogenannte Cluster-Randomisierung) vorgenommen werden muss. Im Vergleich zu individuell randomisierten Studien sind bei cluster-randomisierten Studien meist (deutlich) höhere Fallzahlen sowie eine komplexere Methodik der Fallzahlplanung notwendig. Weiterhin erfordern cluster-randomisierte Studien umfassendere Methoden zur statistischen Auswertung. Dies hat zur Konsequenz, dass die praktische Anwendung cluster-randomisierter Studien in allen ihren Phasen der Unterstützung durch einen kompetenten Experten mit entsprechenden Spezialkenntnissen bedarf.

Eine verstärkte Anwendung der Randomisierung in Studien zur Beurteilung neuer Methoden in der Lehre ist notwendig, um wissenschaftlich überzeugende Ergebnisse zu erzielen. Um dazu beizutragen, werden in diesem Beitrag allgemeine Grundlagen der Cluster-Randomisierung beschrieben, deren Umsetzung und praktische Aspekte der Durchführung im Kontext von prospektiven zweiarmigen vergleichenden Studien in der Lehrforschung erläutert.

Schlüsselwörter: Cluster-Randomisierung, Strukturgleichheit, Lehrforschung, Studie, Fallzahlplanung, Auswertung


1. Einleitung

In der Lehrforschung, insbesondere im medizinischen Umfeld, werden immer häufiger Studien zur Evaluation neuer Lehrmethoden und Ansätze durchgeführt [1], [2], [3], [4], wobei gerade in Deutschland in den letzten Jahren ein Ansteigen beobachtet wurde [5]. Eine Einhaltung anerkannter Standards und Methoden wissenschaftlicher Untersuchungen sollte zweifelsohne auch bei diesen Studien erfolgen. In der Arzneimittelentwicklung sind die Methoden klinischer Studien weit entwickelt [6], [http://www.ich.org/products/guidelines/efficacy/article/efficacy-guidelines.html]. Das Vorgehen ist weltweit standardisiert, um zu aussagekräftigen Studienergebnissen zu führen. Diese Standards sollten daher möglichst auch bei Studien in der Lehrforschung etabliert werden und zur Anwendung kommen. Neben Beobachtungsstudien betrifft dies vor allem prospektive zweiarmige (Interventions)-Studien, in denen zwei verschiedene Lehrmethoden verglichen werden sollen.

In der klinischen Forschung ist für den Wirksamkeitsnachweis oder den Überlegenheitsnachweis einer Therapie ein Kontrollarm notwendig, mit welchen der Testarm im statistischen Sinne vergleichbar ist (Strukturgleichheit). Eine Randomisierung bewirkt, dass sich alle Störgrößen – bekannte und unbekannte – gleichmäßig auf Kontroll- und Testarm verteilen und sich bei Behandlungsbeginn höchstens zufällige Unterschiede ergeben [7]. Im Kontext klinischer Studien bedeutet Randomisierung nicht, dass der Patient ohne ersichtliches Kriterium einfach zugeteilt wird, sondern dass formal ein Zufallsexperiment durchgeführt wird, welches unabhängig vom beteiligten Kliniker ist. Bei Verwendung jedes anderen Zuteilungsverfahrens der Probanden oder Patienten auf Kontroll- und Testarm muss mit systematischen Verzerrungen der Ergebnisse gerechnet werden. Auch für Studien in der Lehrforschung ist die Randomisierung als Methode anerkannt [8].

Bei Studien in der Lehrforschung gibt es darüber hinaus einige Besonderheiten und spezielle Anforderungen beim Einsatz der Randomisierung. So ist es oft nicht sinnvoll oder möglich, einzelne Studierende individuell zu randomisieren, da beispielsweise durch individuelle Semesterpläne die Studierenden nicht zu jedem Termin verfügbar sind. Weiterhin ist hier meist die natürliche Studiensituation der Lehre in Gruppen vorgegeben, wie beispielsweise gemeinsame Vorlesungen oder Seminare, die von einem Dozierenden betreut werden. Aufgrund dieser Besonderheiten ist es sinnvoll und notwendig, bei Studien in der Lehrforschung eine Randomisierung ganzer Gruppen vorzunehmen (Cluster-Randomisierung) anstelle individueller Randomisierung einzelner Studierender.

Um wissenschaftlich überzeugende Ergebnisse im Sinne einer “evidence based didactics” zu erhalten, ist es wichtig, auch in der Lehrforschung verstärkt randomisierte Studien zur Evaluation neuer Lehrmethoden und Ansätze durchzuführen. Um zu einer stärkeren Nutzung der Randomisierung beizutragen, werden in dieser Arbeit Grundlagen der Cluster-Randomisierung beschrieben und praktische Aspekte erläutert, um ihren Einsatz in der Lehrforschung im Kontext von prospektiven zweiarmigen vergleichenden Studien zu erleichtern.

Im ersten Abschnitt wird die Rationale der Randomisierung dargestellt. Anschließend wird auf die besonderen Bedingungen bei wissenschaftlichen Studien in der Lehrforschung eingegangen. Im dritten Abschnitt wird das Prinzip der Cluster-Randomisierung dargestellt, danach wird auf Fallzahlplanung und Auswertungsansätze cluster-randomisierter Studien eingegangen, die sich von individuell randomisierten Studien unterscheiden. Zuletzt wird eine exemplarische Studienplanung mit Cluster-Randomisierung in der Lehrforschung als Anwendungsbeispiel vorgestellt.


2. Der Hintergrund der Randomisierung: Strukturgleichheit

Um aufzeigen zu können, warum eine Randomisierung notwendig ist, sollen zunächst einige Begrifflichkeiten im Kontext von Studien in der Lehrforschung erläutert werden.

Notwendigkeit eines Kontrollarms: Wird im Rahmen einer Studie in der Lehrforschung bei nur einem Studienarm eine neue Methode angewendet (Testarm), kann nicht ausgeschlossen werden, dass ein beobachteter Effekt auch ohne die neue Methode entstanden sein könnte. Es können also nicht alle beobachteten Erfolge im Testarm der neuen Methode zugerechnet werden. Die Wirksamkeit einer neuen Methode ist erst dann evident, wenn der spezifische Erfolg dieser Methode größer ist als ohne diese [9]. Deshalb ist für einen solchen Wirksamkeitsnachweis ein Kontrollarm unabdingbar, in welcher die bisherige Methode angewendet wird.

Statistische Vergleichbarkeit: Damit beobachtete Unterschiede hinsichtlich des Erfolgs im Vergleich zwischen Kontroll- und Testarm tatsächlich nur auf die neue Methode zurückgeführt werden können, muss statistische Vergleichbarkeit vorliegen:

1.
hinsichtlich der Struktur von Kontroll- und Testarm (Strukturgleichheit),
2.
im Umgang mit den Studierenden mit Ausnahme der spezifischen zu evaluierenden neuen Methode (Behandlungsgleichheit) und
3.
auch hinsichtlich der Beobachtung (Beobachtungsgleichheit).

Dabei bedeutet statistisch gleich, dass sich Kontroll- und Testarm möglichst wenig, jedoch höchstens zufällig unterscheiden.

Strukturgleichheit: Strukturgleichheit ist gegeben, wenn Test- und Kontrollarm in ihrer Zusammensetzung hinsichtlich möglicher sogenannter “Störgrößen” statistisch gleich sind [10]. Beispiele für solche Störgrößen sind in der Lehrforschung Alter und Geschlecht, die oft einen Einfluss auf das Ergebnis haben. In der Lehrforschung sind darüber hinaus Persönlichkeitsfaktoren zu nennen, wie beispielsweise Vorbildung und spezielle Fähigkeiten sowie Interessen und Aktivitäten. Ein Instrument zum Erreichen der Strukturgleichheit stellt die Randomisierung dar. Sie bewirkt, dass man durch die Zufallszuteilung der Studierenden zu Kontroll- und Testarm eine ähnliche Verteilung bekannter und unbekannter Störgrößen auf beide Arme erreichen bzw. annehmen kann. Darüber hinaus kann ein Gleichgewicht zwischen Kontroll- und Testarm hinsichtlich (weniger) wesentlicher bekannter Störgrößen durch Schichtung erzeugt werden (siehe Abschnitt 4.2), was allerdings im Rahmen der Lehrforschung nur sehr eingeschränkt praktikabel ist.

Behandlungs- und Beobachtungsgleichheit: Behandlungsgleichheit liegt vor, wenn alle Studierenden aller Gruppen bis auf die zu beurteilende neue Methode die gleiche Behandlung erhalten und erfahren. Diese Behandlungen (z. B. gleiche Uhrzeiten für Seminare, gleiche Bedingungen für das Schreiben von Klausuren) sollten – auch bei Studien in der Lehrforschung – in einem Studienprotokoll möglichst detailliert festgelegt werden, damit bei der Interpretation der Ergebnisse klar ist, “was” miteinander verglichen wird und unter welchen Bedingungen der beobachtete Effekt entstanden ist. Kontroll- und Testarm gelten als “beobachtungsgleich”, wenn gleiche Sachverhalte stets nach gleichen Regeln beobachtet und beurteilt werden (standardisierte Bedingungen), z. B. gleiche Bewerter für Klausuren. Ein Instrument zum Erreichen von Behandlungs- und Beobachtungsgleichheit stellt in der klinischen Forschung die Maskierung (Verblindung) von Therapien dar, was allerdings bei Studien in der Lehrforschung meist nicht möglich ist. Denkbar wäre hier lediglich eine verblindete Bewertung, z. B. die Bewertung von Ergebnissen im Problem-basierten Lernen (PBL) durch unabhängige und nicht an der Studie beteiligte Personen.

Hat eine Studie in der Lehrforschung die oben genannten Eigenschaften und ist der Erfolg im Testarm um so viel größer als im Kontrollarm, dass dieser Unterschied nicht mehr mit dem Zufall vereinbar ist, wurde gezeigt, dass nur die neue Methode den Erfolg bewirkt haben kann. Unterscheiden sich Kontroll- und Testarm jedoch in weiterer Hinsicht (ist also Struktur-, Behandlungs- oder Beobachtungsgleichheit nicht erfüllt), treten Interpretationsprobleme auf, da ein beobachteter Effekt nicht mehr ausschließlich der neuen Methode zugeschrieben werden kann (vermengte Effekte). Der spezifische Effekt der neuen Lehrmethode kann in so einer Situation nicht berechnet werden, und in der Regel können die Studienergebnisse auch nicht entsprechend der Fragestellung interpretiert werden. Die Randomisierung ist daher als Verfahren zur Erreichung der Strukturgleichheit ein wichtiges Instrument bei der Wirksamkeitsuntersuchung neuer Methoden in der Lehrforschung.


3. Bedingungen und Anforderungen an Studien in der Lehrforschung

Studien in der Lehrforschung finden in einem besonderen Kontext statt. Es gibt meist eine natürliche Clusterstruktur, da die Lehre in der Regel in Gruppen von Studierenden durchgeführt wird. Beispiele sind Seminargruppen, PBL-Gruppen oder Gruppen von Studierenden, die eine gemeinsame Vorlesung besuchen. Die Gruppengröße ist sehr unterschiedlich und reicht von 5-8 (PBL-Gruppen) bis über 100 Studierende in einer gemeinsamen Vorlesung. Die Gruppengröße in Seminaren ist unterschiedlich, wobei in der Medizin von bis zu 20 Studierenden pro Seminargruppe ausgegangen wird [http://www.gesetze-im-internet.de/_appro_2002/index.html]. Alle Studierenden innerhalb einer Gruppe sind denselben Bedingungen ausgesetzt, wie beispielsweise derselben Lehrperson oder denselben Räumlichkeiten und Zeiten. Dies hat zur Konsequenz, dass bei Studien die Intervention (z. B. Anwendung einer neuen Lehrmethode durch den Dozierenden) auf Ebene der gesamten Gruppe erfolgt. Somit ist das Ergebnis von Studierenden einer Gruppe in der Regel ähnlicher als das Ergebnis von Studierenden verschiedener Gruppen. Darüber hinaus ist bei Studien in der Lehrforschung neben den individuellen Semesterplänen der Studierenden die zeitliche Verfügbarkeit geeigneter Ressourcen (wie Dozierende, Seminarräume, Labore, Hörsäle, Computerpools) als weitere Rahmenbedingung zu beachten. Durch eine limitierte Anzahl der Studierenden ergibt sich -bei vorgegebener Gruppengröße- auch eine limitierte Anzahl möglicher Gruppen für Studien in der Lehrforschung. Die genannten Aspekte führen dazu, dass bei Studien in der Lehrforschung kaum individuelle Randomisierung erfolgen kann, sondern eine Cluster-Randomisierung sinnvoll und möglich ist. Dies bedeutet, dass Gruppen von Studierenden bzw. dass Dozierende (welche Gruppen von Studierenden betreuen) in Test- und Kontrollarm randomisiert werden, wobei die hier genannten Besonderheiten Berücksichtigung finden müssen.

In Studien der Lehrforschung sind verschiedene Zielgrößen denkbar:

  • Evaluationsergebnisse (z. B. Zufriedenheit der Studierenden, Selbsteinschätzung der erreichten Kompetenz)
  • Ergebnisse von Leistungsnachweisen/Prüfungsergebnissen (erreichter Kompetenzgrad)
  • Überprüfung des erforderlichen Lernaufwands (z. B. Tracking von Lernzeiten)
  • Begleiteffekte der Beschäftigung mit dem Lernstoff (z. B. Motivationskurven, Begeisterung für das Fach, Interessensweckung, Karriereplanung)

Im Folgenden werden metrische Zielgrößen betrachtet (z. B. Punktezahlen in Klausuren), die als annähernd normalverteilt angenommen werden. Binäre Zielgrößen (z. B. bestanden (ja/nein)) werden in diesem Artikel nicht behandelt, da sie in der Regel eine deutlich höhere Fallzahl benötigen und damit im Rahmen von Studien in der Lehrforschung kaum anwendbar sind.


4. Cluster-Randomisierung und ihre Anwendung in der Lehrforschung

In den folgenden Abschnitten wird das Prinzip der Cluster-Randomisierung erläutert und auf den Bereich der Lehrforschung angewendet. Weiterhin werden Informationen zu Studiendurchführung, Fallzahlplanung und Auswertung gegeben.

4.1. Definition und Motivation

In einer cluster-randomisierten Studie (engl. cluster randomised trial, Synonyme: „group randomised trial“, „community randomisation trial“, „community intervention trial“) werden komplette soziale Gruppen oder Cluster von Individuen, anstelle von einzelnen Individuen, randomisiert, siehe Abbildung 1 [Abb. 1].

Studien dieses Typs findet man bisher insbesondere bei der Untersuchung nicht-therapeutischer Interventionen, wie z. B. der Bewertung von Schulungsprogrammen, Präventionsprogrammen oder Maßnahmen zur Gesundheitsförderung. Aus den im letzten Abschnitt genannten Gründen erscheint die Verwendung cluster-randomisierter Studien auch im Bereich der Lehrforschung sinnvoll. Unter publizierten cluster-randomisierten Studien finden sich sowohl Studien mit kleinen als auch Studien mit großen Clustern: Häufig werden Cluster über Haushalte, Familien, Nachbarschaften, Gemeinden, Schulklassen, Arbeitgeber, Krankenhäuser oder Praxen niedergelassener Ärzte definiert. Somit kann die Anzahl von Individuen pro Cluster zwischen 2 und mehreren Tausend liegen. Auch in der Lehrforschung sind verschiedene Clustergrößen denkbar (siehe Abschnitt 3).

Hauptmotivation für die Durchführung einer cluster-randomisierten Studie ist das Bestreben, einen Kontaminationsbias zu vermeiden oder zu verringern. Ein solcher Bias (Verzerrung oder systematischer Fehler) könnte bei Randomisierung von Individuen durch Interaktion zwischen den Individuen aus verschiedenen Studienarmen hervorgerufen werden. Beispielsweise könnten bei individueller Randomisierung Studierende des Kontrollarms leicht durch Studierende des Testarms animiert werden, die speziellen Methoden des Testarms durchzuführen, deren Wirksamkeit geprüft werden soll. Allerdings ist auch bei einer Cluster-Randomisierung diese Möglichkeit nicht ausgeschlossen, sondern nur vermindert. Bei Studien in der Lehrforschung spielt im Zusammenhang mit Kontaminationsbias insbesondere die stark verbreitete Verwendung sozialer Medien wie Facebook eine Rolle. Ein weiterer wesentlicher Grund für die Anwendung der Cluster-Randomisierung in der Lehrforschung ist das Vorliegen natürlicher Cluster, da das Lernen in der Regel in Gruppen erfolgt (siehe Abschnitt 3). Tabelle 1 [Tab. 1] zeigt wichtige Vor- und Nachteile der Cluster-Randomisierung im Kontext der Lehrforschung.

4.2. Designs

Bei cluster-randomisierten Studien kann zwischen vollständig randomisiertem Design, stratifiziert randomisiertem Design und gematchtem Design unterschieden werden. Bei vollständig randomisiertem Design werden die Cluster zufällig den Gruppen zugeteilt und es wird dabei weder stratifiziert noch gematcht. Ein Beispiel ist eine Studie in der Lehrforschung, bei welcher Seminargruppen entweder in den Testarm oder den Kontrollarm randomisiert werden. Beim stratifiziert randomisierten Design wird geschichtet nach (wenigen) wichtigen bekannten Störgrößen randomisiert, so dass die Verteilung der Störgrößen in Test- und Kontrollarm ähnlich ist. Stratifiziert wird nach Faktoren, die stark mit der Zielgröße assoziiert sind, wie beispielsweise Clustergröße, Geschlecht oder Tag. Ein Beispiel ist eine Studie in der Lehrforschung, bei welcher angenommen wird, dass der Tag, an dem ein Seminar stattfindet, Einfluss auf die Zielgröße hat (d. h. eine Störgröße ist). Hier kann zunächst nach Tag stratifiziert werden (z. B. Montag/Mittwoch/Freitag) und innerhalb jedes Tages werden dann Seminargruppen entweder in den Testarm oder den Kontrollarm randomisiert. Auf diese Art und Weise wird erreicht, dass die Störgröße Tag annähernd gleichmäßig auf beide Arme verteilt wird. Im gematchten Design werden Paare von Clustern gebildet, die so ähnlich wie möglich sind, in Bezug auf wichtige Faktoren, die die Zielgröße beeinflussen. Ein Cluster des Paares wird jeweils in den Testarm und das andere Cluster in den Kontrollarm randomisiert. Dadurch ist eine gute Möglichkeit gegeben, Störgrößen (z. B. Charakteristika aus der Baselineerhebung wie Geschlecht, Fachsemester, Vornote) zwischen beiden Armen zu balancieren, so dass eine Vergleichbarkeit der Arme erreicht wird. Für das Matching sollten nicht zu viele Kriterien herangezogen werden, da dann evtl. kein Cluster mehr gefunden werden kann, welches mit einem anderen ein Paar bilden kann.

Unter den in Abschnitt 3 genannten Bedingungen und Anforderungen (Vorgaben für Clustergröße, limitierte Anzahl Studierender und damit limitierte Clusteranzahl, Verfügbarkeit von Ressourcen, individuelle Semesterpläne) ist bei Studien in der Lehrforschung oft von einer vergleichsweise kleinen Clusteranzahl mit einer mehr oder weniger fest vorgegebenen Clustergröße auszugehen. Stratifizierte und gematchte Designs dürften in einem solchen Kontext nur unter besonderen Bedingungen realisierbar sein. Ein Beispiel ist eine multizentrische Studie, die an verschiedenen Einrichtungen durchgeführt wird. Aus diesem Grund wird das vollständig randomisierte Design in der Lehrforschung überwiegen.

4.3. Praktische Durchführung

Studien in der Lehrforschung sind in der Regel bei der Ethikkommission anzuzeigen. Es ist oft allerdings kein schriftliches Einverständnis der beteiligten Studierenden erforderlich, lediglich eine Aufklärung [11].

Ein- und Ausschlusskriterien müssen sowohl auf Individualebene (Studierende) als auch auf Cluster-Ebene (Lehrende) definiert werden. Problematisch ist, dass bei Studien in der Lehrforschung meist keine Verblindung möglich sein wird. Damit besteht die Gefahr eines Bias in der Zielgröße. Dieser Gefahr sollte durch Maßnahmen zur Erreichung der Behandlungs- und Beobachtungsgleichheit entgegengewirkt werden. Beispiele sind eine starke Standardisierung des generellen Vorgehens, ggf. eine verblindete Beurteilung des Erfolgs, z. B. durch einen dritten, nicht in die Studie involvierten Bewerter, der keine Kenntnis über die Zugehörigkeit des jeweiligen Studierenden zu Test- und Kontrollarm hat.

4.4. Fallzahlplanung
4.4.1. Warum eine eigene Fallzahlplanung?

Durch die Cluster-Randomisierung wird eine spezielle Datenstruktur erzeugt, wobei Beobachtungen innerhalb der Cluster meist ähnlicher sind als Beobachtungen aus verschiedenen Clustern (Vorliegen von statistischer Abhängigkeit). Dies bedeutet im Kontext von Studien in der Lehrforschung, dass die Ergebnisse (z. B. Leistungen in der Klausur) von Studierenden innerhalb der gleichen Seminargruppe ähnlicher sind als Ergebnisse von Studierenden verschiedener Seminargruppen. Dadurch kommt es zu einem Effizienz- und Powerverlust, was sich auf die Fallzahlplanung auswirkt: Die effektive Fallzahl einer cluster-randomisierten Studie (d. h. die Anzahl der wirklich statistisch unabhängigen individuellen Beobachtungen) ist niedriger als die tatsächliche Fallzahl (d. h. die Anzahl rekrutierter Studierender). Daher sind Standardverfahren, die von der statistischen Unabhängigkeit aller Beobachtungen ausgehen, für Fallzahlplanung und Auswertung solcher Daten ungeeignet. Die Anwendung von Standardverfahren für die Fallzahlplanung würde zu Studien mit zu geringer Power führen, in denen die Chance einen tatsächlich vorhandenen Unterschied zwischen den Studienarmen nachzuweisen, (deutlich) geringer ist, als in der Planung angenommen. In der Lehrforschung kann dies beispielsweise dazu führen, dass eine neue Lehrmethode, die in der Wirklichkeit besser ist, mit der Studie nicht erkannt wird.

4.4.2. Ähnlichkeitsbestimmung – der Intracluster-Korrelationskoeffizient ICC

Um die Ähnlichkeit der Beobachtungen innerhalb der Cluster im Vergleich zu Beobachtungen aus verschiedenen Clustern zu quantifizieren wird als Maßzahl der Intracluster-Korrelationskoeffizient (synonym: Intraclass-Korrelationskoeffizient; abgekürzt ICC, ρ), verwendet. Der ICC kann auf verschiedene Art definiert werden [12]. Für metrische Zielgrößen wird der ICC oft als Quotient von Varianzen definiert [13], [14]:

Formel 1

wobei Formel 2 die Varianz zwischen den Clustern, Formel 3 die Varianz innerhalb desselben Clusters und Formel 4 die Gesamtvarianz bezeichnet. Mit dieser Definition kann der ICC als Anteil der Varianz zwischen den Clustern an der Gesamtvarianz interpretiert werden, wobei davon ausgegangen wird, dass die Varianz Formel 3 in jedem Cluster konstant ist. Der ICC kann mit dieser Definition Werte zwischen 0 und 1 annehmen. Seine Größenordnung ist ein Maß für die Stärke der Ähnlichkeit der Beobachtungen innerhalb der Cluster im Vergleich zur Ähnlichkeit der Beobachtungen zwischen den Clustern. Hat der ICC den Wert 1 sind die Beobachtungen innerhalb jedes Clusters gleich. Im Kontext von Studien in der Lehrforschung würde dies beispielsweise bedeuten, dass in jeder Seminargruppe alle Studierenden dieselbe Klausurnote haben (aber nicht notwendigerweise, dass alle Seminargruppen in der Studie dieselbe Note haben). Der ICC hat den Wert 0, wenn alle Beobachtungen statistisch unabhängig sind. Bei Studien in der Lehrforschung würde dies beispielsweise bedeuten, dass die Klausurnoten von Studierenden innerhalb derselben Seminargruppe nicht abhängig sind, d. h. dass kein Einfluss der Seminargruppe auf die Klausurnoten besteht.

Eine Herausforderung ist oft, eine apriori Schätzung des ICC zu erhalten. Der ICC kann z. B. aus Daten einer Pilotstudie berechnet oder der Literatur entnommen werden. Cluster-randomisierte Studien sollten daher ihre post-hoc ermittelten Intracluster-Korrelationskoeffizienten publizieren, damit diese für ähnliche Studien zur Verfügung stehen [15], [16]. Weiterhin ist der ICC nur eine Schätzung aus einer Stichprobe und somit mit Unsicherheit behaftet (Konfidenzintervall [17]). Dies hat besonders für Studien in der Lehrforschung Bedeutung, da hier oft nur kleine Studien mit wenigen Clustern durchgeführt werden können, bei denen der ICC nicht zuverlässig geschätzt werden kann.

Darüber hinaus können unterschiedliche Berechnungsverfahren Einfluss auf den Wert des ICC haben. Eine Übersicht über für metrische Zielgrößen geeignete Berechnungsverfahren des ICC gibt [18]. Für binäre Zielgrößen sind entsprechende Methoden in [19] und [20] verfügbar.

4.4.3. Der Designeffekt (DE)

Um in einer cluster-randomisierten Studie die gleiche Power wie in einer individuell randomisierten Studie zu erreichen, müssen in der cluster-randomisierten Studie in der Regel mehr Individuen rekrutiert werden. Die für eine cluster-randomisierte Studie notwendige Fallzahl ergibt sich aus der Fallzahl für die individuell randomisierte Studie durch Multiplikation mit dem Designeffekt (DE), der aus dem ICC ρ und der festen Clustergröße m berechnet wird:

DE = 1+ρ·(m-1)

Das Ergebnis ist eine Gesamtfallzahl und eine sich daraus ergebende Anzahl von Clustern (mit fester Clustergröße) für eine vorgegebene Power. Für Studien in der Lehrforschung bedeutet dies, dass zunächst eine Gesamtanzahl Studierender berechnet wird und daraus anschließend eine Anzahl an Seminargruppen (mit fester Gruppengröße m).

Bei ungleicher Clustergröße kann m ersetzt werden durch das arithmetische Mittel oder durch die maximale Clustergröße. Die Verwendung des arithmetischen Mittels der Clustergröße ist sinnvoll, wenn nur wenig Variabilität in der Clustergröße besteht [12], die Verwendung der maximalen Clustergröße ein konservativer Ansatz. Bei einem Intracluster-Korrelationskoeffizienten von ρ=0 (statistische Unabhängigkeit aller Beobachtungen, siehe oben) ist der Designeffekt DE=1, was bedeutet, dass die cluster-randomisierte Studie dieselbe Fallzahl wie die entsprechende individuell randomisierte Studie hat. Die Bildung von Clustern hat in dem Fall keinen Einfluss auf die Fallzahl. In der Praxis liegt die Größenordnung der meisten ICC zwischen 0.00 und 0.20, wobei eine sehr große Spannweite besteht [21].

4.4.4. Vorgehensweisen bei der Fallzahlplanung

Allgemein können bei der Studienplanung zwei Herangehensweisen betrachtet werden. Zum einen kann im Rahmen eines explorativen Ansatzes für die gegebene maximale Fallzahl bei gegebener Power und Clustergröße ein Mindesteffekt oder bei gegebenem Mindesteffekt und Clustergröße eine Power berechnet werden [22]. Dies ist insbesondere dann sinnvoll, wenn nur eine stark limitierte Anzahl von Beobachtungen zur Verfügung steht. Abbildung 2 [Abb. 2] zeigt das Schema der Berechnung von Power bzw. Mindesteffekt in Studien in der Lehrforschung bei gegebener Fallzahl.

Zum anderen kann ein konfirmatorischer Ansatz gewählt werden: Für eine vorgegebene Power und einen vorgegebenen Mindesteffekt wird eine Fallzahl (d. h. Anzahl Studierender und eine sich daraus ergebende Clusteranzahl) berechnet. Abbildung 3 [Abb. 3] zeigt das Schema der Fallzahlberechnung in Studien in der Lehrforschung bei vorgegebener Power und Mindesteffekt.

Wegen der speziellen Bedingungen in der Lehrforschung (limitierte Anzahl Studierender und damit Cluster sowie eine vorgegebene Clustergröße, vergleiche oben und Abschnitt 3) ist die Durchführung konfirmatorischer Studien allerdings limitiert.

Sollen in die Planung einer cluster-randomisierten Studie noch zusätzlich Kovariaten einbezogen werden, ist eine Erweiterung der Definition des ICC nach [14] möglich. Eine weitere Möglichkeit, insbesondere für komplexe Studiendesigns (beispielsweise Berücksichtigung mehrerer Kovariaten im longitudinalen Design, weitere Hierarchieebenen), bietet auch die Simulation (z. B. [23], [24], [25], [26]).

4.5. Auswertung

Um die statistischen Abhängigkeiten innerhalb der Cluster zu berücksichtigen (bei Studien in der Lehrforschung: z. B. Abhängigkeit von Klausurergebnissen von Studierenden in derselben Seminargruppe), muss bei der Auswertung eine Cluster-Adjustierung durchgeführt werden [12]. Eine sogenannte „naive Analyse“ (Cluster-Adjustierung bleibt unberücksichtigt; Anwendung von Standardverfahren wie beispielsweise Zweistichproben-t-Test) kann zur Schätzung von zu kleinen Konfidenzintervallen und p-Werten führen [27], [28]. Für Studien in der Lehrforschung hätte dies zur Konsequenz, dass falsch signifikante Studien berichtet und damit neue Lehrmethoden als vermeintlich besser dargestellt würden.

Die im Rahmen der Studienplanung angewendeten Methoden sollten auch zur Auswertung genutzt werden [23], [28], wobei die Methoden vom Studiendesign (siehe oben) abhängen. Bei der statistischen Analyse kann zwischen der Analyse auf Cluster-Ebene oder auf Individuen-Ebene unterschieden werden [28], [13]. Wegen der sehr komplexen statistischen Methoden ist insbesondere für die Auswertung die Unterstützung durch einen kompetenten Experten (z. B. Statistiker mit entsprechenden Spezialkenntnissen) empfehlenswert. In Bezug auf die human-/zahnmedizinische Lehre sind an fast allen Medizinischen Fakultäten in Deutschland methodisch versierte Institute (z.B. Biometrie-Abteilungen) angebunden, die hierbei entsprechend ihre Expertise einbringen könnten.

Die Analyse auf Cluster-Ebene ist die einfachste Auswertemethode einer cluster-randomisierten Studie und kann als zweistufiger Prozess angesehen werden: Zunächst wird für jedes Cluster ein Summenmaß berechnet (erste Stufe), welches dann mit einem geeigneten statistischen Test verglichen wird (zweite Stufe), siehe z. B. [16]. In Studien in der Lehrforschung können beispielsweise anstelle der individuellen Ergebnisse der Studierenden die Clusterdurchschnittswerte (z. B. die Durchschnittsnote für jede Seminargruppe) in der Analyse (z. B. gewöhnlicher Zweistichproben-t-Test) verwendet werden. Eine vereinfachte Berücksichtigung von Kovariaten ist über Regressionen möglich [13]. Die Analyse auf Cluster-Ebene ist robust insbesondere bei kleiner Clusteranzahl, hat jedoch den Nachteil, dass die Variabilität innerhalb der Cluster unberücksichtigt bleibt. Eine Alternative besteht in der Anpassung univariater Teststatistiken (z. B. T-Wert beim T-Test) mit dem Designeffekt, wobei die individuellen Ergebnisse als statistisch unabhängig ausgewertet werden dürfen [15], [29].

Die Analyse auf Individuen-Ebene bietet speziell bei stark variierenden Clustergrößen eine Alternative, da die Analyse auf Cluster-Ebene in dieser Situation nicht so effizient ist. Ein einfaches statistisches Verfahren, welches auch eine Analyse auf Individuen-Ebene bietet, ist der adjustierte Zweistichproben-t-Test [28]. Sollen noch zusätzlich Kovariaten berücksichtigt werden, können Regressionsmodelle mit zufälligen Effekten, gemischte Regressionsmodelle oder verallgemeinerte Schätzgleichungen (GEE Modelle) angewendet werden. Diese Methoden erlauben auch die Berücksichtigung von Faktoren als potentielle Einflussgrößen für den Fall, dass -trotz bekannter prognostischer Faktoren- eine Stratifizierung bei der Cluster-Randomisierung nicht realisiert werden konnte. Im Vergleich zu den Verfahren für die Analyse auf Cluster-Ebene ist dies ein Vorteil, da die Effekte von Kovariaten auf gleicher Ebene wie der Effekt des Studienarms untersucht werden können (als Regressionskoeffizient mit Konfidenzintervall und p-Wert). Die Methoden für die Analyse auf Individuen-Ebene haben den Nachteil, dass sie weniger robust sind, wenn die Clusteranzahl klein ist. Eine Empfehlung ist daher die Verwendung von Methoden der Analyse auf Cluster-Ebene bei weniger als 15 bis 20 Cluster pro Studienarm [13]. Bei Studien mit größerer Clusteranzahl können die Methoden der Analyse auf Individuen-Ebene Vorteile bieten, insbesondere bei stark variabler Clustergröße.

4.6. Berichterstattung

Für die Berichterstattung randomisierter klinischer Studien wurde das CONSORT Statement entwickelt, welches von Campbell et al. für cluster-randomisierte Studien erweitert wurde [30]. Das erweiterte CONSORT-Statement nimmt Bezug auf die Besonderheiten einer cluster-randomisierten Studie und die Publikation einer solchen Studie sollte sich daran orientieren. So wird u.a. gefordert

  • die Gründe für die Cluster-Randomisierung zu beschreiben
  • die Einheit der Randomisierung und die der Intervention zu nennen
  • neben der Anzahl der Individuen auch die Anzahl der Cluster und ihre Größe anzugeben
  • die Strukturgleichheit nicht nur auf Individuen-Ebene sondern auch auf Cluster-Ebene zu zeigen
  • den ICC (siehe oben) zu berechnen und zu berichten
  • die Drop-outs auf Individuen- und auf Cluster-Ebene zu analysieren
  • ein Flowchart zur Anzahl der Studienteilnehmer und Cluster im Studienablauf zu zeichnen

5. Anwendungsbeispiel

In diesem Abschnitt werden anhand eines Beispiels Planung, Durchführung und Auswertung einer cluster-randomisierten Studie in der Lehrforschung skizziert. Das Beispiel ist angelehnt an die NANA Studie [31], die zur Illustration von Studien in der klinischen Forschung dient. Die Studie wird als zweiarmige prospektive Beobachtungsstudie durchgeführt. Dabei werden die NAschkatzen (mit Vorliebe für Süßigkeiten) verglichen mit NAgetieren (mit Vorliebe für Knabberei) bezüglich Parametern wie z. B. dem Body Mass Index. Der Name hat aber auch einen Bezug zur Universität Ulm, vor der prominent eine große NANA-Figur steht (siehe Abbildung 4 [Abb. 4]).

Die cluster-randomisierte Studie soll prüfen, ob die Anwendung eines neuen „aktiven Seminarkonzepts“ (anhand der NANA-Studie) in der Biometrieausbildung von Studierenden der Medizin Einfluss auf das Prüfungsergebnis hat. Das „aktive Seminarkonzept“ (Planung, Durchführung und Auswertung einer kleinen empirischen Untersuchung während des Seminars) soll verglichen werden mit dem bisherigen Standardkonzept (Behandlung von Übungsaufgaben in Form eines „klassischen Seminars“). Für die Studie (balanziert, prospektiv, cluster-randomisiert) sollen ganze Seminargruppen entweder in einen Testarm („aktives Seminarkonzept“) oder einen Kontrollarm („klassisches Seminar“) randomisiert werden. Die Studie soll an der Medizinischen Fakultät der Universität Ulm während eines Wintersemesters durchgeführt werden.

Es ist von insgesamt maximal etwa 320 Studierenden auszugehen, die in Seminargruppen von ca. 20 Studierenden von jeweils einem Dozierenden betreut werden. Hieraus ergibt sich eine maximale Anzahl von 16 Clustern (d. h. Seminargruppen) in der Gesamtstudie (d. h. 8 Cluster pro Studienarm), was eher einer kleineren Studie entspricht [32]. Ein mögliches Ergebnis der Cluster-Randomisierung für das Beispiel zeigt Abbildung 5 [Abb. 5].

Die primäre Zielgröße ist die erreichte Punktezahl in der Klausur, gemessen bei den einzelnen Studierenden (d. h. auf der individuellen Ebene). Da neben dem Einfluss des Dozierenden noch die Gruppenzusammensetzung eine Rolle spielt, ist davon auszugehen, dass die Klausurergebnisse von Studierenden innerhalb der Seminargruppen ähnlicher sind als Ergebnisse von Studierenden verschiedener Seminargruppen. Für die Zielgröße wird angenommen, dass sie metrisch und annähernd normalverteilt ist.

Pilotdaten: Als Pilotdaten stehen die Ergebnisse der Kohorte des Wintersemesters 2015/2016 zur Verfügung: Es wurde ein arithmetisches Mittel von 92,5 Punkten (maximale Punktzahl: 120) bei einer Standardabweichung von 9,16 Punkten ermittelt (siehe Tabelle 2 [Tab. 2]).

Die Ergebnisse der Pilotdaten werden für den Kontrollarm verwendet. Für den Testarm wird angenommen, dass sich die Punktezahl im Mittel um 3 Punkte verbessert (d. h. von 92,5 auf 95,5). Der ICC für die Zielgröße Punktezahl wurde mittels eines linearen gemischten Regressionsmodells geschätzt [12]: Im Ergebnis der Modellanpassung wurde für die Varianzen Formel 2 = 1,67 und Formel 3 = 82,36 erhalten, so dass der ICC als ρ=1,67/(1,67+82,63)=0,02 geschätzt wird. Der Designeffekt (DE=1+ρ·(m-1)) ergibt sich damit aus DE=1+0,02·(20-1)=1,38, wobei m die mittlere Clustergröße bezeichnet (hier: Anzahl Studierender pro Seminar; m=20).

Studienplanung: Für die Fallzahlberechnung der Beispielstudie sollen im Folgenden beide der in Abschnitt 4.4 genannten Methoden angewendet werden. Zunächst wird der explorative Ansatz beschrieben.

Explorative Methode: Berechnung von Power bzw. Mindesteffekt bei gegebener Fallzahl

Eine Umsetzung der Schritte 1. bis 4. des Schemas in Abbildung 2 [Abb. 2] ist im Folgenden für die Beispielstudie beschrieben. Ausgehend von der Maximalzahl von 320 Studierenden pro Semester sind höchstens 16 Cluster (Seminargruppen mit je 20 Studierenden) in der zu planenden Studie möglich. Bei einem Designeffekt von 1,38 (Berechnung: siehe oben) entspricht die Fallzahl von maximal 320 Studierenden in der cluster-randomisierten Studie einer effektiven Fallzahl von maximal etwa 320/1,38~232 Studierenden (gerade Anzahl wegen 1:1 Randomisierung) in einer individuell randomisierten Studie (d. h. 116 Studierende pro Studienarm). Um eine Power von 80% bei einem zweiseitigen Fehler 1. Art von 5% zu erreichen, ist bei dieser Fallzahl mit dem Zweistichproben-t-Test ein Mindestunterschied von 3,4 Punkten notwendig (bei einer Standardabweichung von 9,16), was einer Effektstärke von 0,37 nach Cohen entspricht (kleiner Effekt). Wird von einem Unterschied von 3 Punkten ausgegangen (ursprüngliche Planung), wird bei einem zweiseitigen Fehler 1. Art von 5% eine Power von nur 70% erreicht (bei gegebener Standardabweichung von 9,16). Tabelle 3 [Tab. 3] zeigt die Auswirkungen der Größenordnungen des ICC auf Mindesteffekt und Power. Die Berechnungen sind mit dem Zweistichproben-t-Test erfolgt, unter der Annahme gleicher Varianzen in beiden Armen.

Die Planung und Durchführung der Beispielstudie nach dieser explorativen Methode ist pragmatisch und erscheint in vielen Fällen realistischer als die Anwendung der konfirmatorischen Methode, da bei dieser oft unrealisierbar hohe Fallzahlen berechnet werden.

Konfirmatorische Methode: Berechnung der Fallzahl bei vorgegebener Power und Mindesteffekt

Eine Umsetzung der Schritte 1. bis 5. des Schemas in Abbildung 3 [Abb. 3] ist im Folgenden für die Beispielstudie beschrieben. Für die Zielgröße wird angenommen, dass sie metrisch und annähernd normalverteilt ist. Für den Testarm wird angenommen, dass sich die Punktezahl im Mittel um 3 Punkte verändert (d. h. von 92,5 auf 95,5, siehe oben). Die Berechnungen sind mit dem Zweistichproben-t-Test erfolgt, unter der Annahme gleicher Varianzen in beiden Armen (9,16, siehe oben). Für die Fallzahlplanung werden eine Power von 80% und ein Fehler 1. Art von 5% (zweiseitig) angenommen. Aus diesen Angaben ist zunächst die Fallzahl für eine individuell randomisierte Studie zu berechnen (z. B. [12]): Es ergibt sich eine Anzahl von 148 Studierenden pro Studienarm (296 Studierende insgesamt), die in die Studie bei individueller Randomisierung (also ohne Berücksichtigung der Clusterung) eingeschlossen werden müssen. Diese Anzahl muss nun noch um den Designeffekt (DE=1,38, Berechnung siehe oben) korrigiert werden: Pro Studienarm müssten 148·1,38~205 Studierende eingeschlossen werden (Gesamtstudie: 409 Studierende was insgesamt ca. k=21 Seminargruppen bedeuten würde). Die Auswirkungen der Größenordnung des ICC und Größe der Seminargruppen auf die Gesamtfallzahl und Anzahl der Seminargruppen ist für die oben beschriebenen Effekte der Beispielstudie in Tabelle 4 [Tab. 4] enthalten. Die Gesamtfallzahl wurde auf die nächste ganze Zahl gerundet. Die Anzahl der Seminargruppen wurde auf die nächste gerade Zahl gerundet, da in der Beispielstudie eine 1:1 Randomisierung vorgenommen werden soll. Dadurch ist die tatsächliche Gesamtfallzahl höher als die in der Spalte Nges genannte Gesamtfallzahl, womit die Power höhere Werte als 80% erreicht.

Aufgrund der gegebenen Rahmenbedingungen (maximal 320 Studierende, Seminargruppengröße m=20) ist damit die Studie während eines Semesters nicht durchführbar. Eine Durchführung der Studie über mehrere Semester oder als multizentrische Studie erscheint wegen zu starker Unterschiede zwischen verschiedenen Jahrgängen (Studierende und Dozierende, weitere Rahmenbedingungen) oder Universitäten nicht empfehlenswert. Eine konfirmatorische Studie ist in diesem Setting also nicht realistisch. In einer solchen Situation erscheint daher der zuerst genannte explorative Ansatz empfehlenswert, d. h. eine Berechnung von Power bzw. Mindesteffekt bei fester gegebener Fallzahl.

Eine Modifikation des Designs wäre die Anwendung einer stratifizierten Cluster-Randomisierung nach Wochentag (Dienstag, Donnerstag, Freitag).

Auswertung: Aufgrund der eher kleinen Studie mit einer geringen Clusteranzahl und der nahezu konstanten Clustergröße erscheint für die statistische Auswertung eine Analyse auf Cluster-Ebene empfehlenswert (vergleiche Abschnitt 4.5). Dies kann beispielsweise mittels Berechnung von Clusterdurchschnittswerten aus den Ergebnissen der Studie und der Anwendung des Zweistichproben-t-Tests realisiert werden. Weitere Beispiele mit praktischen Darstellungen von Auswertungen cluster-randomisierter Studien sind in [30], [32] und [33] enthalten.


6. Diskussion und Empfehlungen

Neben anderen Studiendesigns (wie beispielsweise Beobachtungsstudien) werden in der Lehrforschung auch häufig prospektive zweiarmige (Interventions)-Studien zum Vergleich verschiedener Lehrmethoden angewendet. Hierbei sollten anerkannte Standards und Methoden wissenschaftlicher Untersuchungen eingehalten werden. Dies sind insbesondere das Vorhandensein eines Kontrollarms und das Erreichen von statistischer Gleichheit (Strukturgleichheit (durch Randomisierung, ggf. Stratifizierung), Behandlungsgleichheit, Beobachtungsgleichheit). Ohne relevante Gründe sollten vergleichende wissenschaftliche Studien nicht mehr ohne Kontrollarm durchgeführt werden. Aber auch quasi-experimentelle Studien mit Kontrollarm, jedoch ohne Randomisierung sollten vermieden werden. Ein wesentlicher Kritikpunkt an den Ergebnissen solcher Studien ist der Mangel an Strukturgleichheit verbunden mit der Gefahr vermengter Effekte. Theoretisch kann man sich dagegen schützen, indem man die Studienteilnehmer den Studienarmen streng zufällig zuweist, entweder durch individuelle Randomisierung oder Cluster-Randomisierung. Wegen der Vorteile der Randomisierung sollte der zusätzliche Aufwand, wenn irgend möglich, in Kauf genommen werden, vor allem, da dieser im Vergleich zum Aufwand der gesamten Studie gering ist: Die Durchführung einer Studie erfordert meist viele Ressourcen, die Randomisierung dagegen vergleichsweise wenig. Der Gewinn an Interpretierbarkeit und Aussagekraft der Studienergebnisse ist aber enorm.

Im Vergleich zu Studien aus anderen Bereichen gibt es in der Lehrforschung jedoch einige besondere Bedingungen und Anforderungen, welche die Planung, Durchführung und Auswertung von Studien beeinflussen. Wegen des Vorliegens natürlicher Cluster kann eine Randomisierung in diesem Bereich meist nur als Cluster-Randomisierung realisiert werden, bei einer limitierten Anzahl Studierender und einer vorgegebenen annähernd konstanten Clustergröße. Weiterhin muss die räumliche und zeitliche Verfügbarkeit verschiedener Ressourcen wie Dozierende, Seminarräume, Labore, Hörsäle, Computerpools beachtet werden. Bei der Fallzahlplanung ist die Clusterstruktur zu berücksichtigen, da die Ergebnisse Studierender innerhalb der Cluster (z. B. innerhalb von Seminargruppen) ähnlicher sind als Ergebnisse Studierender aus verschiedenen Seminargruppen. Je nach Stärke dieser Ähnlichkeit (gemessen über den ICC) kann die zum Erreichen einer bestimmten Power notwendige Fallzahl bei cluster-randomisierten Studien deutlich über der Fallzahl einer entsprechenden individuell randomisierten Studie liegen. Daher werden viele Studien in der Lehrforschung aufgrund ihrer limitierten maximal möglichen Fallzahl (aus Gründen der Machbarkeit) lediglich explorativen Charakter besitzen. Speziell hier ist die Strukturgleichheit wichtig, damit gefundene Unterschiede mit den in der Studie untersuchten Methoden erklärt werden können. Auch bei der statistischen Auswertung cluster-randomisierter Studien ist auf eine adäquate statistische Methodik zu achten, die die aus der Clusterstruktur sich ergebenden Abhängigkeiten angemessen berücksichtigt. Wegen der komplexen statistischen Methoden, die in allen Phasen einer cluster-randomisierten Studie notwendig sind, ist bei der praktischen Durchführung solcher Studien Unterstützung durch einen kompetenten Experten mit entsprechenden Spezialkenntnissen empfehlenswert. Dies können beispielweise wissenschaftliche Mitarbeiter von biometrischen Institutionen sein, welche es an den meisten Universitäten mit einer Medizinischen Fakultät gibt.

Neben den in Tabelle 1 [Tab. 1] genannten Nachteilen besteht in cluster-randomisierten Studien -im Vergleich zu konventionell randomisierten Studien- eine höhere Gefahr, dass die Strukturgleichheit auf Individualebene nicht erreicht wird. Dies kann die interne Validität gefährden, welche auch wegen der meist fehlenden Verblindung bei cluster-randomisierten Studien kritisch zu hinterfragen ist [12]. Hier muss im Rahmen der statistischen Auswertung eine Adjustierung für die ungleich verteilten Merkmale erfolgen, z. B. durch ein geeignetes Regressionsverfahren [12], [13]. Wie bei allen klinischen Studien kann auch bei cluster-randomisierten Studien bei erfüllter interner Validität die externe Validität nur heuristisch begründet werden. Dies ist in der Lehrforschung vermutlich schwieriger als in klinischen Studien, da die Bedingungen an den verschiedenen Lehreinrichtungen zu verschieden sind. Wegen der höheren Fallzahlen und der komplexeren Methodik sollte deshalb gerade bei Studien in der Lehrforschung in der Planungsphase überlegt werden, ob eine Cluster-Randomisierung gerechtfertigt und notwendig ist [34].

Abschließend fassen die folgenden Empfehlungen wesentliche Maßnahmen zur Qualitätssicherung von prospektiven zweiarmigen Studien in der Lehrforschung unter Berücksichtigung von Clustern zusammen.

1.
Lehre wird meist in Gruppen von Studierenden durchgeführt, so dass eine natürliche Cluster-Struktur gegeben ist, was zu einer Cluster-Randomisierung führt.
2.
Die Cluster-Randomisierung muss bei Studiendesign, Fallzahlplanung, Auswertung und Berichterstattung berücksichtigt werden.
3.
In eine cluster-randomisierte Studie sollten nicht zu wenige Cluster eingeschlossen werden: Weniger als 8-10 Cluster sollten nicht eingeschlossen werden [32].
4.
Bei sehr wenigen oder stark unterschiedlichen Clustern kann ein Matching von Clustern sinnvoll sein.
5.
Verblindung ist meist nicht möglich. Die Verwendung möglichst objektiver Zielgrößen und eine verblindete Bewertung, wie beispielsweise die Bewertung von Ergebnissen im PBL durch unabhängige und nicht an der Studie beteiligte Personen, ist daher empfehlenswert und dient der Verbesserung der internen Validität.
6.
Möglichst Aufrechterhaltung der Strukturgleichheit: Schaffung gleicher Bedingungen wie z. B. Uhrzeiten, Seminarräume für die zu vergleichenden Studienarme.

Auf Grund unserer Erfahrungen und der hier genannten Argumente empfehlen wir bei prospektiven zweiarmigen vergleichenden Studien die Nutzung von Kontrollarmen und eine adäquate Randomisierung, um auch in der Lehrforschung gute und überzeugende Ergebnisse zu erreichen.

Insbesondere die Cluster-Randomisierung kann hierbei ein entscheidender Baustein sein, der daher bei Studien im Bereich der Lehrforschung verstärkt genutzt werden sollte.


Danksagung

Wir bedanken uns bei Jacquie Klesing, Board-certified Editor in the Life Sciences (ELS) und Übersetzerin, für ihre Unterstützung mit dem Manuskript.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Buss B, Wagner R, Bauder M, Fenik Y, Riessen R, Lammerding-Köppel M, Gawaz M, Fateh-Moghadam S, Weyrich P, Celebi N. Student tutors for hands-on training in focused emergency echocardiography – a randomized controlled trial. BMC Med Educ. 2012;12:101. DOI: 10.1186/1472-6920-12-101 Externer Link
2.
Herter DA, Wagner R, Holderried F, Fenik Y, Riessen R, Weyrich P, Celebi N. Effect of supervised students' involvement on diagnostic accuracy in hospitalized medical patients--a prospective controlled study. PLoS One. 2012;7(9):e44866. DOI: 10.1371/journal.pone.0044866 Externer Link
3.
Werner A, Holderried F, Schäffeler N, Weyrich P, Riessen R, Zipfel S, Celebi N. Communication training for advanced medical students improves information recall of medical laypersons in simulated informed consent talks - a randomized controlled trial. BMC Med Educ. 2013;1:13-15. DOI: 10.1186/1472-6920-13-15 Externer Link
4.
Herrmann-Werner A, Nikendei C, Keifenheim K, Bosse HM, Lund F, Wagner R, Celebi N, Zipfel S, Weyrich P. Best practice" skills lab training vs. a "see one, do one" approach in undergraduate medical education: an RCT on students' long-term ability to perform procedural clinical skills. PLoS One. 2013;8(9):e76354. DOI: 10.1371/journal.pone.0076354 Externer Link
5.
Ackel-Eisnach K, Raes P, Hönikl L, Bauer D, Wagener S, Möltner A, Jünger J, Fischer MR. Is German Medical Education Research on the rise? An analysis of publications from the years 2004 to 2013. GMS Z Med Ausbild. 2015;32(3):Doc30. DOI: 10.3205/zma000972 Externer Link
6.
Schumacher M, Schulgen G. Methodik Klinischer Studien, Methodische Grundlagen der Planung, Durchführung und Auswertung. 3. Auflage. Heidelberg: Springer Verlag; 2008.
7.
Armitage P. The role of randomization in clinical trials. Stat Med. 1982;1:345-352. DOI: 10.1002/sim.4780010412 Externer Link
8.
Boet S, Sharma S, Goldman J, Reeves S. Review article: medical education research: an overview of methods. Can J Anaesth. 2012;59(2):159-170. DOI: 10.1007/s12630-011-9635-y Externer Link
9.
Fisher LD. Ethics of Randomized Trials. In: Armitage P, Colton T (Hrsg). Encyclopedia of Biostatistics. Chichester: Wiley & Sons Ltd; 1998. P.1394-1398.
10.
Gaus, W, Muche, R. Medizinische Statistik. Stuttgart: Schattauer Verlag; 2013.
11.
Korzilius H. EU-Verordnung über klinische Prüfungen: Kompromiss verabschiedet. Dtsch Ärztebl. 2014;5.
12.
Eldridge SM, Kerry S. A Practical Guide to Cluster Randomised Trials in Health Services Research. Weinheim: Wiley; 2012. DOI: 10.1002/9781119966241 Externer Link
13.
Hayes RJ, Moulton LH. Cluster Randomised Trials. Oxford: Oxford University Press; 2009. DOI: 10.1201/9781584888178 Externer Link
14.
Eldridge SM, Ukoumunne OC, Carlin JB. The intra-cluster correlation coefficient in cluster randomized trials: a review of definitions. Int Stat Rev. 2009;77:378-394. DOI: 10.1111/j.1751-5823.2009.00092.x Externer Link
15.
Chenot JF. Cluster-randomisierte Studien: eine wichtige Methode in der allgemeinmedizinischen Forschung. Z Evid Fortbild Qual Gesundheitswes. 2009;103(7):475-480. DOI: 10.1016/j.zefq.2009.07.004 Externer Link
16.
Kerry SM, Bland JM. The intracluster correlation coefficient in cluster randomisation. BMJ. 1998;316(7142):1455. DOI: 10.1136/bmj.316.7142.1455 Externer Link
17.
Ukoumunne OC. A comparison of confidence interval methods for the intraclass correlation coefficient in cluster randomized trials. Stat Med. 2002;21:3757-3774. DOI: 10.1002/sim.1330 Externer Link
18.
Donner A. A Review of Inference Procedures for the Intraclass Correlation Coefficient in the One-Way Random Effects Model. Int Stat Rev. 1986;54(1):67-82. DOI: 10.2307/1403259 Externer Link
19.
Ridout MS, Demétrio CG, Firth D. Estimating intraclass correlation for binary data. Biometrics. 1999;55(1):137-148. DOI: 10.1111/j.0006-341X.1999.00137.x Externer Link
20.
Wu S, Crespi CM, Wong WK. Comparison of methods for estimating the intraclass correlation coefficient for binary responses in cancer prevention cluster randomized trials. Contemp Clin Trials. 2012;33(5):869-880. DOI: 10.1016/j.cct.2012.05.004 Externer Link
21.
Adams G, Gulliford MC, Ukoumunne OC, Eldridge S, Chinn S, Campbell MJ. Patterns of intra-cluster correlation from primary care research to inform study design and analysis. J Clin Epidemiol. 2004;57(8):785-794. DOI: 10.1016/j.jclinepi.2003.12.013 Externer Link
22.
Hemming K, Girling AJ, Sitch AJ, Marsh J, Lilford RJ. Sample size calculations for cluster randomised controlled trials with a fixed number of clusters. BMC Med Res Methodol. 2011;11:102. DOI: 10.1186/1471-2288-11-102 Externer Link
23.
Dang Q, Mazumdar S, Houck PR. Sample size and power calculations based on generalized linear mixed models with correlated binary outcomes. Comput Methods Programs Biomed. 200;91(2):122-127.
24.
Dreyhaupt J. Instrumente für Power- und Fallzahlberechnungen bei komplexen hierarchischen Studiendesigns in der Versorgungsforschung. Monit Versorgungsforsch. 2015;6:49-54.
25.
Dreyhaupt J. Generelle Fallzahl- und Powerabschätzung über Simulation bei Studien mit komplexen hierarchischen Daten als Unterstützung der Studienplanung in der Versorgungsforschung. Ulm: Universität Ulm; 2015. Zugänglich unter/available from: URL: http://vts.uni-ulm.de/query/longview.meta.asp?document_id=9509 Externer Link
26.
Landau S, Stahl D. Sample size and power calculations for medical studies by simulation when closed form expressions are not available. Stat Methods Med Res. 2013;22(3):324-345. DOI: 10.1177/0962280212439578 Externer Link
27.
Bland JM, Kerry SM. Trials randomised in clusters. BMJ. 1997;315(7108):600. DOI: 10.1136/bmj.315.7108.600 Externer Link
28.
Donner A, Klar N. Design and Analysis of Cluster Randomization trials in Health Research. Weinheim: John Wiley & Sons, Ltd; 2010.
29.
Campbell MK, Mollison J, Steen N, Grimshaw JM, Eccles M. Analysis of cluster randomized trials in primary care: a practical approach. Fam Pract. 2000;17(2):192-196. DOI: 10.1093/fampra/17.2.192 Externer Link
30.
Campbell MK, Piaggio G, Elbourne DR, Altman DG; CONSORT Group (2012). Consort 2010 statement: extension to cluster randomised trials. BMJ. 2012. DOI: 10.1136/bmj.e5661 Externer Link
31.
Mayer B, Danner B. Von Naschkatzen und Nagetieren – Eine interaktive Einführung in die Medizinische Biometrie mit der NANA-Studie. In: Rauch G, Muche R, Vonthein R (Hrsg). Zeig mir Biostatistik! Ideen und Material für einen guten Biometrie-Unterricht. Heidelberg: Springer Verlag; 2014. S.3-14. DOI: 10.1007/978-3-642-54336-4_1 Externer Link
32.
Eldridge SM, Costeloe CE, Kahan BC, Lancaster GA, Kerry SM. How big should the pilot study for my cluster randomised trial be? Stat. Methods Med Res. 2016:1039-1056. DOI: 10.1177/0962280215588242 Externer Link
33.
Campbell MK Analysis of cluster randomized trials in primary care: a practical approach. BMJ. 1998;316:1455.
34.
Kuß O, Jahn P, Renz P, Landenberger M. Cluster-randomisierte Studien in der Pflegewissenschaft. Halle Beitr Gesundheit Pflegewissenschaft. 2009;8(1):302-310.