gms | German Medical Science

GMS Medizinische Informatik, Biometrie und Epidemiologie

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

ISSN 1860-9171

Fishers Signifikanztest: Eine sanfte Einführung

Übersichtsarbeit

Suche in Medline nach

  • corresponding author Andreas Stang - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Deutschland; School of Public Health, Department of Epidemiology, Boston University, Boston, Vereinigte Staaten
  • Bernd Kowall - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Deutschland

GMS Med Inform Biom Epidemiol 2020;16(1):Doc03

doi: 10.3205/mibe000206, urn:nbn:de:0183-mibe0002065

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/mibe/2020-16/mibe000206.shtml

Veröffentlicht: 11. Mai 2020

© 2020 Stang et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Der p-Wert wird häufig missverstanden und beispielsweise als Wahrscheinlichkeit für die Richtigkeit der Nullhypothese fehlinterpretiert. Ziel des vorliegenden Beitrags ist es, zunächst die Definition des p-Werts zu erläutern. Die Ermittlung des p-Werts erfordert die Kenntnis einer Wahrscheinlichkeitsfunktion. Wie ein geeignetes statistisches Modell ausgewählt wird und anhand dieses Modells, der Nullhypothese und der empirischen Daten der p-Wert bestimmt wird, wird an der t-Verteilung erklärt. Bei der Interpretation des so erhaltenen p-Werts stehen sich zwei nicht vereinbare statistische Denkschulen gegenüber: Der orthodoxe Neyman-Pearson Hypothesentest, der auf eine Entscheidung zwischen der Nullhypothese und einer komplementären Alternativhypothese hinausläuft, und Fishers Signifikanztest, bei dem keine Alternativhypothese formuliert wird und in der die Evidenz gegen die Nullhypothese umso größer ist, je kleiner der p-Wert ist. Der Beitrag endet mit einigen kritischen Bemerkungen zum Umgang mit p-Werten.


Einleitung

Der p-Wert wird oft missverstanden und z.B. als Wahrscheinlichkeit für die Richtigkeit der Nullhypothese missinterpretiert. P-Werte spielen in zwei Denkschulen eine wichtige Rolle: Dem Signifikanztest nach Fisher und dem Hypothesentest nach Neyman und Pearson [1], [2]. Während der Signifikanztest zu einer quantitativen Interpretation des p-Wertes führt, in der er als ein kontinuierliches Maß für die Evidenz gegen die Nullhypothese interpretiert wird, dient der p-Wert im Nullhypothesentest lediglich einer Entscheidung anhand vordefinierter Regeln.

Im Jahr 2016 veröffentlichte die American Statistical Association (ASA) eine Erklärung über die Handhabung von p-Werten. Darin wurde unter anderem erklärt: „Die weit verbreitete Verwendung von statistischer Signifikanz‘ (im Allgemeinen als p≤0,05 interpretiert) als Lizenz für die Behauptung eines wissenschaftlichen Befundes (oder einer impliziten Wahrheit) führt zu einer erheblichen Verzerrung des wissenschaftlichen Prozesses“ [3]. Im Jahr 2019 veröffentlichten Amrhein et al. in der Fachzeitschrift Nature einen Artikel mit dem Titel „Retire statistical significance“, in dem sie auf die vielen Fallstricke bei der Dichotomisierung von p-Werten in „signifikant“ (üblicherweise p≤0,05) und „nicht-signifikant“ (üblicherweise p>0,05) aufmerksam machen und generell von dieser Dichotomisierung von p-Werten, d.h. der Einteilung in zwei Bereiche, abraten [4].

Ein Dilemma bei der Anwendung des Signifikanz- oder Hypothesentests bleibt das mangelnde Verständnis dafür, was diese Methoden überhaupt beantworten können. Das Ziel dieser Arbeit ist es, wesentliche Hintergrundinformationen und die Schritte des Signifikanztests anhand einer fiktiven Studie zu veranschaulichen, in der zwei Gruppen miteinander verglichen werden. Die meisten Biostatistik-Lehrbücher liefern diese Hintergrundinformationen und die Schritte des Signifikanztests nicht konsistent. Der Artikel richtet sich an Personen, die nur vage beschreiben können, was das Verfahren bewirkt.


Statistische Grundbegriffe − Standardabweichung, Stichprobenfehler und Standardfehler

Grundlegendes Verständnis – Zufallsstichproben aus einer Zielpopulation (Bevölkerungsmodell)

Die Zielpopulation einer wissenschaftlichen Frage stellt die Gesamtheit aller Beobachtungseinheiten dar. Wenn die Zielpopulation die Wohnbevölkerung der BRD ist, beträgt die Gesamtbevölkerung im Jahr 2016 82,5 Millionen. Interessante Variablen dieser Grundgesamtheit könnten Mittelwerte und Streuungen von Merkmalen sein (z.B. die mittlere Schlaflatenz, d.h. die durchschnittliche Zeit vom Ausschalten des Lichts im Schlafzimmer bis zum Einschlafen in Minuten). Diese Merkmale von Variablen der Zielpopulation, die uns in der Regel unbekannt sind, werden im Sinne einer statistischen Konvention mit griechischen Buchstaben abgekürzt. Beispielsweise werden die griechischen Buchstaben µ und s für den Mittelwert und die Varianz einer Variablen der Zielpopulation verwendet.

Bei der Durchführung empirischer Studien ist es im Allgemeinen nicht möglich, die gesamte Zielpopulation zu untersuchen. Aus diesem Grund wird nur eine Stichprobe aus der Zielpopulation untersucht und die Informationen aus der Stichprobe werden verwendet, um Aussagen über die Zielpopulation zu treffen. Der statistische Rückschluss einer Stichprobe auf eine Zielpopulation stellt eine induktive Schlussfolgerung dar und wird in der Statistik als Inferenzstatistik bezeichnet.

Wenn aus einer Zielpopulation Zufallsstichproben gezogen werden, tritt der so genannte Stichprobenfehler (Stichprobenvariabilität) auf. Da nur ein Teil der Zielpopulation untersucht wird, gibt es eine Variabilität von Stichprobe zu Stichprobe. Dies kann leicht durch den Wurf einer ungezinkten Münze veranschaulicht werden. Man würde erwarten, dass 50% aller Würfe Kopf zeigen würden. Dieser Erwartungswert, auch Wahrscheinlichkeit genannt, ist die Prognose einer relativen Häufigkeit. Wenn die Münze 10-mal geworfen würde, könnte Kopf 4-mal erscheinen. Würde man die Münze noch einmal 10-mal werfen, so würde nicht unbedingt Kopf 4-mal, sondern z.B. 6-mal auftreten. Diese Variabilität ist Ausdruck des Stichprobenfehlers. Es kann also keine sichere Schlussfolgerung aus einer Stichprobe auf eine Zielpopulation gezogen werden. Das Gesetz der großen Zahlen besagt, dass mit zunehmender Studiengröße der Stichprobenfehler immer kleiner wird.

Variabilität versus Unsicherheit

Führt man z.B. eine Studie auf der Basis einer Stichprobe von 30 erwachsenen Frauen mit Schlafstörungen im Alter von 55–64 Jahren, die in Deutschland leben, durch, um den wahren Mittelwert µ der Schlaflatenz der Zielpopulation abzuschätzen, so liefert die Stichprobe einen Mittelwert Formel von z.B. 38 min und eine entsprechende empirische Varianz s2, die nach folgender Formel berechnet wird:

Formel 1

Unter der Annahme einer Normalverteilung der Variable Schlaflatenz wäre ein geeignetes statistisches Maß, das die Variabilität in der Stichprobe beschreibt, neben der Varianz die Standardabweichung (SD), die die Quadratwurzel der Varianz ist. Die Standardabweichung s für die Stichprobe würde 8,5 min betragen. Würde diese Studie wiederholt, bei der wiederum eine Zufallsstichprobe von 30 erwachsenen Frauen mit Schlafstörungen im Alter von 55–64 Jahren, die in Deutschland wohnen, gewonnen wird, so würde der Mittelwert z.B. 33 min und die Standardabweichung z.B. 8,4 min betragen. Der Standardfehler des Mittelwertes (SE) ist kein Maß, das die Variabilität der Messwerte innerhalb der Stichprobe quantifiziert, sondern vielmehr die Unsicherheit der Schätzung des Mittelwertes µ der Zielpopulation [5]. Der Standardfehler wird nach der folgenden Formel berechnet:

Formel 2

wobei n die Anzahl der Beobachtungen ist. Es ist zu erkennen, dass der Standardfehler umso kleiner wird, je kleiner die Variabilität des Merkmals in der Stichprobe und je größer die Stichprobe ist.


Wie funktioniert ein statistischer Test – der t-Test als Beispiel

Zwei-Gruppen-Vergleich

In einem Beispiel von zwei zufällig ausgewählten Gruppen vergleichen wir die Wirkung eines neuen Schlafmittels auf die Schlaflatenz. Die Verumgruppe umfasst 32 Personen, die Placebogruppe 30 Personen (vgl. Tabelle 1 [Tab. 1]). In beiden Gruppen wurde die Schlaflatenz nach 7 Tagen Behandlung im Schlaflabor (Polysomnographie) bestimmt. Die Nullhypothese ist, dass sich die beiden Gruppen hinsichtlich der Schlaflatenz nicht unterscheiden. Es wurden mehrere Tests für einen solchen Gruppenvergleich vorgeschlagen.

In Tabelle 2 [Tab. 2] erläutern wir kurz den Permutationstest, der historisch wichtig ist. Der Permutationstest wird heutzutage nur noch selten verwendet, da der Rechenaufwand sehr groß sein kann. In unserem Beispiel gibt es 4,5 mal 1017 Permutationen. Daher wäre in unserem Fall der t-Test zu bevorzugen, der als gute Annäherung an den Permutationstest angesehen werden kann und in der biomedizinischen Literatur am beliebtesten ist.

Ein Vergleich der Mittelwerte der beiden Stichproben zeigt, dass die mittlere Schlaflatenz in der Verumgruppe 5 min kleiner ist als in der Placebogruppe. In beiden Gruppen variierte die Schlaflatenz, wie aus den Standardabweichungen ersichtlich ist. Beide Stichproben sind aufgrund von Stichprobenfehlern mit einem Zufallsfehler verbunden.

Die Frage, die sich hier stellt, ist, ob die Differenz von 5 min nur Ausdruck eines zufälligen Fehlers ist oder ob diese Differenz Ausdruck einer tatsächlichen Wirkung des Schlafmittels ist. Im ersten Fall würden beide Stichproben aus identischen Populationen stammen (µpv), im zweiten Fall würden die beiden Stichproben aus unterschiedlichen Populationen stammen, d.h. aus Populationen mit µp≠µv. Abbildung 1 [Abb. 1] veranschaulicht das Problem: Könnte es sein, dass sich Placebo und Verum in Bezug auf die wahren Schlaflatenz-Durchschnitte nicht unterscheiden, d.h. aus der gleichen Population mit z.B. µ=38 min stammen, und die beiden Stichproben-Durchschnitte (33 min und 38 min) lediglich ein Ausdruck des Stichprobenfehlers sind, ähnlich wie beim Münzwurf einer ungezinkten Münze? Oder könnte es sein, dass das neue Schlafmittel tatsächlich einen Einfluss auf die Schlaflatenz hat, so dass die wahren Mittelwerte aus Zielpopulationen mit unterschiedlichen Mittelwerten stammen (µp≠µv)?

Erwartung der statistischen Variabilität von Studienergebnissen aufgrund eines Zufallsfehlers

Ein Signifikanztest kann gewisse, wenn auch unvollständige Informationen zu diesen zentralen Fragen liefern. Zur Beantwortung der obigen Fragen muss zunächst das Verhalten der Differenz der Mittelwerte aufgrund des Zufallsfehlers bestimmt werden, wobei angenommen wird, dass eine Nullhypothese H0 wahr wäre. Es gibt eine unendliche Menge von Nullhypothesen. In der Medizin hat sich die Nil-Hypothese durchgesetzt, d.h. die Nullhypothese, dass es keinen Zusammenhang zwischen der Behandlungszuweisung (Placebo oder Verum) und der Schlaflatenz gibt (d.h. µpv). Die griechischen Buchstaben zeigen an, dass sich diese Nullhypothese auf die Zielpopulation bezieht. Unter dieser Hypothese sind Mittelwertunterschiede, die nicht gleich Null sind, ein Ausdruck des Zufallsfehlers. Ähnlich wie extreme Ergebnisse von Experimenten selten beobachtet werden, wenn eine ungezinkte Münze geworfen wird (z.B. 10 Würfe und es erscheint 10-mal Kopf), nimmt die Differenz der Mittelwerte unter der Nullhypothese selten extreme Werte an.

Aber wie viele permutierte Anordnungen von Patienten, die in zwei Gruppen aufgeteilt sind, gibt es und wie würden sich die Unterschiede der Mittel in diesen Arrangements verhalten, wenn die Nullhypothese µpv wahr wäre? Die Schwierigkeit bei der Beantwortung dieser Frage liegt darin, dass das Verhalten der Mittelwertunterschiede unter der Nullhypothese von der Variabilität der Schlaflatenz innerhalb der Stichproben und der Größe der Stichproben abhängt.

Um also vorherzusagen, wie sich die Unterschiede der Mittelwerte verhalten würden, wenn die Nullhypothese wahr wäre, muss man diese beiden Einflussgrößen berücksichtigen. Hier ist eine Art Normalisierung hilfreich, die durch das folgende Beispiel veranschaulicht werden soll. Ein Mittelwertunterschied von 3 Sekunden wird für zwei Gruppen von Marathonläufern (2 Stunden, 3 Minuten, 40 Sekunden gegenüber 2 Stunden, 3 Minuten, 43 Sekunden) und für zwei Gruppen von 400-Meter-Läufern (46 Sekunden gegenüber 49 Sekunden) beobachtet. Bei ähnlichen Läufer-Gruppen haben die Unterschiede von 3 Sekunden eine unterschiedliche Bedeutung. Bei Marathonläufern ist der Unterschied im Verhältnis zur durchschnittlichen Gesamtdauer des Laufs sehr gering, während er bei 400-Meter-Läufern relativ groß ist. Das Verhältnis zur durchschnittlichen Laufdauer ist eine Art Normalisierung. Die Wahl des statistischen Tests, der eine solche Normierung gewährleistet, bestimmt, welche Teststatistik gewählt wird. Wenn z.B. der t-Test für unabhängige Stichproben gewählt wird, ist die entsprechende Testvariable die t-Statistik, für den Chi-Quadrat-Test die Chi-Quadrat-Statistik usw. Die Wahl des geeigneten statistischen Tests hängt wiederum von Kriterien ab, die in Tabelle 3 [Tab. 3] kurz erläutert werden.

Die t-Statistik ist definiert als:

Formel 3

Die erwartete Differenz der Mittelwerte in der Formel der t-Statistik ist der unter der Nullhypothese H0 angenommene Wert. Im Falle der Nullhypothese µp=µv wird eine Differenz von null Minuten erwartet. Dies vereinfacht die t-Statistik:

Formel 4

Bei ungleichen Varianzen wird der Standardfehler der Differenz der Mittelwerte nach folgender Formel berechnet:

Formel 5

mit

n1: Anzahl von Patienten in Gruppe 1 (Placebo)
n2: Anzahl von Patienten in Gruppe 2 (Verum)
Formel 6: Varianz der Schlaflatenz in Gruppe 1
Formel 7: Varianz der Schlaflatenz in Gruppe 2

Die Formel ändert sich, wenn die Varianzen gleich sind (Formel nicht dargestellt). Der Standardfehler der Differenz der Mittelwerte hängt von den Varianzen der Variablen (Schlaflatenz) und den Gruppengrößen der zu vergleichenden Gruppen ab. Nach der Bestimmung des Standardfehlers ergibt sich die t-Statistik für zwei unabhängige Stichproben mit ungleichen Varianzen:

Formel 8

Unabhängigkeit bedeutet, dass die beiden Patientengruppen voneinander unabhängig sind und auch dass die Patienten innerhalb der Gruppen unabhängig voneinander sind. Die Unabhängigkeit wird beispielsweise verletzt, wenn das Ergebnis eines Patienten statistisch gesehen zu beiden Patientengruppen beitragen würde. Ebenso wird die Unabhängigkeit verletzt, wenn Patienten derselben Gruppe sich gegenseitig in Bezug auf die Ergebnisse von Interesse beeinflussen würden. Die Unabhängigkeit ist auch verletzt, wenn ein Merkmal von einer Gruppe von Patienten im Laufe der Zeit mehrfach erhoben wird (z.B. vor und nach der Behandlung). Die Daten der Schlafstudie haben nun folgenden t-Wert:

Formel 9

Der t-Wert für die konkrete Studie beträgt daher +2,33. Diese Verteilung kann mit Hilfe der sogenannten Freiheitsgrade (df) bestimmt werden. Die Anzahl der Freiheitsgrade ist die Anzahl der Werte, die ohne Veränderung der Mittelwerte frei variiert werden können. Wenn es z.B. drei Zahlen k, l und m gibt und ihre Summe 100 ist, ist klar, dass, wenn zwei der drei Zahlen bekannt sind, automatisch die dritte Zahl gegeben ist. Wenn k=20 und l=70 ist, muss m 10 sein. Bei 62 Patienten in der Studie hat man n1–1+n2–1=30–1+32–1=60 Freiheitsgrade. Wurden 60 Werte frei gewählt, so hat man für die letzten beiden Beobachtungen keine weitere Wahl.

Mit Hilfe der 60 Freiheitsgrade, kann nun die geeignete Verteilung unter der Annahme der Nullhypothese dargestellt werden. Auf die Darstellung der Formel zur Erstellung der t-Verteilung wird aus didaktischen Gründen verzichtet (es ist das Verhältnis der Standard-Normalvariable z und der Quadratwurzel eines Chi-Quadrat-Wertes mit n Freiheitsgraden geteilt durch n). Die t-Verteilung ist symmetrisch und glockenförmig wie die Normalverteilung (Abbildung 2 [Abb. 2]).

Die Wahrscheinlichkeitsdichtefunktion (PDF) liefert in Abhängigkeit von den t-Werten sogenannte Dichtewerte. Im Gegensatz zu den Wahrscheinlichkeiten, die nur Werte zwischen 0 und 1 annehmen können, können Dichten auch Werte >1 annehmen.

Interpretation des t-Wertes

Ein einziger Dichtewert der PDF hat keine praktische Bedeutung. Die Gesamtfläche unter der Kurve der PDF ist 1, so dass (Teil-)Flächen unter der Wahrscheinlichkeitsdichtefunktion die Interpretation von Wahrscheinlichkeiten haben. Im Rahmen der Studie ist es nun möglich, die Frage zu beantworten, wie hoch die Wahrscheinlichkeit ist, dass der t-Wert ≥+2,33 unter der Nullhypothese (µpv) annimmt, d.h. t=0.

Die kumulative Verteilungsfunktion (CDF) liefert die Wahrscheinlichkeit, dass ein t-Wert kleiner oder gleich einem konkreten Wert tk ist. Es ist auch möglich, die CDF zu verwenden, um die Wahrscheinlichkeit zu berechnen, dass t≥tk wird, indem die Wahrscheinlichkeit für t-Werte <tk vom Wert 1 subtrahiert wird. Die Formel für diese Funktion wird an dieser Stelle weggelassen, kann aber im Internet leicht gefunden werden [6]. Im Fall der Schlafstudie ist tk≥+2,33. Abbildung 3 [Abb. 3] zeigt die Fläche unter der Verteilung für t≥+2,33 bei einseitiger Betrachtung und für die Flächen unter der Verteilung für t≤–2,33 und t≥+2,33 bei zweiseitiger Betrachtung.

Der einseitige Bereich hat einen Betrag von 0,01. Das bedeutet, dass die Wahrscheinlichkeit, dass Studien unter der Annahme der Nullhypothese (µpv) einen t-Wert von ≥+2,33 erzeugen, 1% beträgt. Bei zweiseitiger Betrachtung beträgt die Wahrscheinlichkeit, dass Studien unter der Annahme der Nullhypothese (µpv) einen t-Wert von ≤–2,33 oder ≥+2,33 erzeugen, 2%. Die Wahrscheinlichkeit von 1% entspricht dem einseitigen p-Wert, während die Wahrscheinlichkeit von 2% dem zweiseitigen p-Wert entspricht.


Der p-Wert – Erläuterung und einige Caveats

Interpretation des p-Wertes

Der p-Wert gibt somit die Wahrscheinlichkeit (Kriterium 1) unter einer Nullhypothese (Kriterium 2) an, ein Ergebnis wie das vorliegende Studienergebnis zu beobachten oder Studienergebnisse zu beobachten, die noch stärker von der Nullhypothese (Kriterium 3) abweichen. Alle drei Kriterien sind notwendige Kriterien für die Definition des p-Wertes.

Wichtig ist hier, dass der p-Wert eine Aussage über das Verhalten einer Teststatistik bei Vorliegen eines zufälligen Fehlers unter der Nullhypothese macht. Bei einem p-Wert von 0,01 würde nur 1% der Studien einen t-Wert von ≥+2,33 erzeugen, wenn die Nullhypothese wahr wäre. Der p-Wert macht also auch eine Aussage über Ergebnisse von Studien, die nicht beobachtet wurden (kontrafaktisches Element). Ferner muss betont werden, dass der p-Wert unter der Bedingung berechnet wurde, dass die Nullhypothese H0 wahr wäre, weshalb der p-Wert auch als bedingte Wahrscheinlichkeit bezeichnet wird. Die Nullhypothese wurde lediglich angenommen, unabhängig davon, wie groß der Wahrheitsgehalt dieser Hypothese ist.

Fisher interpretierte den p-Wert als ein kontinuierliches Maß für die Evidenz gegen die Nullhypothese. Er sagte: „Kein Wissenschaftler hat ein festgelegtes Signifikanzniveau, auf dem er von Jahr zu Jahr und unter allen Umständen Hypothesen ablehnt; er macht sich vielmehr zu jedem einzelnen Fall Gedanken im Lichte der Evidenz und seiner Ideen“ [7]. Das bedeutet, dass nach Fishers Schule die Einstufung eines p-Wertes kontextabhängig ist und die Anwendung eines festen Schwellenwertes von typischerweise 0,05 nicht gerechtfertigt ist. Die orthodoxe Ablehnung einer Nullhypothese bei einem vordefinierten Schwellenwert von 0,05 stammt von der konkurrierenden Schule von Neyman und Pearson, die den Hypothesentest als entscheidungstheoretisches Verfahren einführten.

Was bedeutet ein großer p-Wert von z.B. 0,70? Technisch gesehen bedeutet er, dass die Wahrscheinlichkeit 70% beträgt, das beobachtete Studienergebnis oder Studienergebnisse, die noch stärker von der Nullhypothese abweichen, zu beobachten, unter der Annahme die Nullhypothese sei wahr. In der Praxis bedeutet das, dass der Signifikanztest wenig Evidenz gegen die getestete Nullhypothese oder das statistische Modell liefert. Es bedeutet jedoch nicht, dass die Nullhypothese wahr ist. Der p-Wert ist eine Funktion der Stärke des Effekts (z.B. beobachteter Mittelwertunterschied, hier 5 min) und der Studiengröße (hier 62 Frauen). Bei einem großen p-Wert kann tatsächlich ein starker Effekt vorhanden sein, aber die Studiengröße war sehr klein. Typische Fehler bei der Definition von p-Werten werden im Folgenden diskutiert.

„Der p-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist.“ Der p-Wert macht keine Aussage über die Wahrscheinlichkeit der Wahrheit der Nullhypothese, jedoch wurde der p-Wert unter der Annahme berechnet, dass die Nullhypothese wahr ist. Übrigens fehlt hier der Hinweis auf noch extremere Ergebnisse der Studie (kontrafaktisches Element).

„Der p-Wert ist die Wahrscheinlichkeit eines Typ-I-Fehlers.“ Diese Aussage ist falsch, weil sie die Prinzipien des Signifikanztests (Fisher) mit denen des Hypothesentests (Neyman & Pearson) vermischt. Nach der Schule von Fisher gibt es kein a priori festgelegtes Signifikanzniveau (auch Typ-I-Fehler genannt). Im Gegensatz dazu wird nach Neyman & Pearson das Signifikanzniveau, auch Typ-I-Fehler genannt, vor Beginn der Studie festgelegt, während der p-Wert aus dem statistischen Modell und den Studiendaten nach Durchführung der Studie abgeleitet werden. Nach Neyman & Pearson bleibt der Typ-I-Fehler nach dem Ende der Studie unverändert und der p-Wert wird mit dem a priori festgelegten Typ-I-Fehler verglichen, um eine Entscheidung zu treffen.

Der Typ-I-Fehler, auch α-Fehler genannt, wird nach Neyman und Pearson vor Beginn der Studie bestimmt. Am Ende der Studie wird der p-Wert, der sich aus der Nullhypothese, dem statistischen Modell (z.B. t-Test) und den Studiendaten ergibt, mit dem α (meist 0,05) verglichen. Die Aussage, dass „ein niedriger p-Wert den Zufall als Erklärung für einen beobachteten Unterschied ausschließt“, beweist einen groben Mangel an Verständnis.

Nahezu korrekt klingende Definitionen des p-Wertes sind zum Beispiel: „Der p-Wert ist die Wahrscheinlichkeit, das vorliegende Studienergebnis oder noch extremere Studienergebnisse zu beobachten“. In dieser Definition fehlt die zentrale Bedingung (Kriterium 2) des p-Wertes: Die Berechnung erfolgt unter der Annahme, dass die Nullhypothese zutrifft. Auch die folgende falsche Definition ist beliebt: „Der p-Wert ist die Wahrscheinlichkeit, das vorliegende Studienergebnis unter der Nullhypothese zu beobachten.“ Hier fehlt Kriterium 3: Der p-Wert macht auch eine Aussage über unbeobachtete Studienergebnisse, die noch stärker von der Nullhypothese abweichen als das vorliegende Studienergebnis.

Beim Signifikanztest nach Fisher gibt es keinen so genannten Typ-I-Fehler und Typ-II-Fehler, es gibt kein Konfidenzintervall, keine Alternativhypothese und kein Konzept für statistische Macht (Power) oder Stichprobengrößenberechnungen. Diese Phänomene gehen auf Neyman & Pearson zurück und werden erst bei der Durchführung von Hypothesentests relevant, die entscheidungstheoretisch nur dann gültig sind, wenn alle Schritte des Hypothesentestverfahrens eingehalten werden, weshalb die Autoren auch von Neyman-Pearson-Orthodoxie sprechen [8]:

1.
Definition der Nullhypothese und Alternativhypothese vor Beginn der Studie
2.
Festlegung des Typ-I-Fehlers und Typ-II-Fehlers vor Beginn der Studie
3.
Festlegung der Teststatistik vor Beginn der Studie
4.
Berechnung der erforderlichen Stichprobengrößen vor Beginn der Studie
5.
Durchführung der Studie unter Einhaltung der erforderlichen Stichprobengrößen
6.
Berechnung der Teststatistik und Vergleich mit dem kritischen Wert der Teststatistik oder Vergleich des p-Wertes mit dem vorab definierten Typ-I-Fehler nach Durchführung der Studie
7.
Entscheidung: Wenn p≤α, wird die Nullhypothese abgelehnt, wenn p>α, wird die Nullhypothese nicht abgelehnt (nach Durchführung der Studie).

Wenn die Schritte 1–7 nicht eingehalten werden, verliert das entscheidungstheoretische Verfahren des Hypothesentestens seine Gültigkeit. Die Entscheidungsregel (7. Schritt) muss konsequent angewendet werden. Wenn z.B. α=0,05 angegeben wurde und p=0,07 am Ende der Studie herauskam, dann kann nach Neyman & Pearson nicht gesagt werden, dass es einen „Signifikanztrend“ oder etwas Ähnliches gab, sondern nur, dass die Nullhypothese nicht abgelehnt wurde. Auch werden p-Werte ≤0,05 nach Neyman & Pearson nicht in z.B. p≤0,05*, p≤0,01** und p≤0,001*** weiter unterteilt.

Bedingungen, die für die korrekte Interpretation des p-Wertes notwendig sind

Viele einführende Lehrbücher der Biostatistik führen lediglich die Theorie der Signifikanztests ein. Das bedeutet, dass es außer dem Zufallsfehler keine weiteren Fehlerquellen gibt. In der Praxis der empirischen Studien ist dies jedoch eine unrealistische Annahme. Greenland et al. [9] weisen zu Recht darauf hin, dass im Falle eines niedrigen p-Wertes nur ein Signal gegeben wird, dass mit dem sogenannten statistischen Modell etwas nicht in Ordnung sein könnte. Das statistische Modell besteht aus drei Komponenten: Der gewählten Teststatistik, der gewählten Nullhypothese und den empirischen Studiendaten.

Zusätzlich zu der Hypothese, dass der niedrige p-Wert Evidenz gegen die Nullhypothese darstellt, müssen die folgenden alternativen Erklärungen in Betracht gezogen werden, die alle mit dem statistischen Modell zusammenhängen und somit den p-Wert beeinflussen:

  • Es wurde eine ungeeignete Teststatistik angewandt.
  • Es kam zu einem Selektionsbias in die Studie oder zu einem Selektionsbias bei der Nachbeobachtung der Probanden.
  • Der Vergleich zwischen zwei Stichproben ist konfundiert (Vermengung von Effekten).
  • Es gibt einen Informationsbias bei der Messung der Variablen in der Studie.

Wenn der p-Wert niedrig ist, können wir nur den Schluss ziehen, dass etwas mit dem statistischen Modell nicht stimmt. Der p-Wert selbst zeigt jedoch nicht, was mit dem Modell nicht stimmt. Der unerfahrene Benutzer des Signifikanztests betrachtet einen niedrigen p-Wert nur als einen Hinweis darauf, dass die Nullhypothese falsch sein könnte. Zusätzlich zu der von Fisher erklärten kontextuellen Abhängigkeit der Bedeutung niedriger p-Werte muss das Ergebnis eines Signifikanztests immer im Licht des vollständigen statistischen Modells gesehen werden.


Fazit

Fishers Signifikanztest ist ein anderes Verfahren als der Hypothesentest von Neyman & Pearson, was oft ignoriert wird. Während der Signifikanztest einen p-Wert erzeugt, der nach Fisher kontextabhängig als ein kontinuierliches Maß für die Evidenz gegen die Nullhypothese interpretiert werden sollte, dient der p-Wert als Entscheidungskriterium, wenn die notwendigen Schritte des Hypothesentests befolgt werden. Der Signifikanztest führt zum p-Wert, dessen Definition drei Kriterien enthalten muss: Die Wahrscheinlichkeit, die Verwendung der Nullhypothesen-Annahme und das kontrafaktische Element des p-Wertes. P-Werte können aus verschiedenen Gründen klein sein, und die Evidenz gegen die Nullhypothese ist einer von mehreren konkurrierenden Gründen in empirischen Studien.


Anmerkungen

Interessenkonflikte

Die Autoren erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.


Literatur

1.
Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Krüger L. The empire of chance. How probability changed science and everyday life. Cambridge: Cambridge University Press; 1989.
2.
Amrhein V, Trafimow D, Greenland S. Inferential statistics as descriptive statistics: there is no replication crisis if we don't expect replication. PeerJ Preprints. 2018;6:e26857v4. DOI: 10.7287/peerj.preprints.26857v3 Externer Link
3.
Wasserstein RL, Lazar NA. The ASA's statement on p-values: context, process, and purpose. Am Stat. 2016;70:129-33. DOI: 10.1080/00031305.2016.1154108 Externer Link
4.
Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019 Mar;567(7748):305-307. DOI: 10.1038/d41586-019-00857-9 Externer Link
5.
Cox DR. Principles of statistical inference. Cambridge: Cambridge University Press; 2006. DOI: 10.1017/CBO9780511813559 Externer Link
6.
Student's t-distribution. In: Wikipedia. [accessed 2019 May 16]. Available from: https://en.wikipedia.org/wiki/Student%27s_t-distribution Externer Link
7.
Fisher RA. Statistical methods and scientific inference. Edinburgh: Oliver & Boyd; 1956.
8.
Oakes MW. Statistical inference. Chichester: Wiley; 1986.
9.
Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016 Apr;31(4):337-50. DOI: 10.1007/s10654-016-0149-3 Externer Link
10.
Manly BFJ. Randomization, bootstrap and Monte Carlo methods in biology. London: Chapman & Hall; 1996. Randomization; p. 3-7.
11.
Feinstein AR. Principles of medical statistics. Boca Raton: Chapman & Hall/CRC; 2002. Testing stochastic hypotheses; p. 190-1.