Article
Wie finde ich einen guten Quantilsschätzer bei lognormalverteilten Daten?
Search Medline for
Authors
Published: | September 6, 2024 |
---|
Outline
Text
Einleitung: Quantile werden in der Statistik genutzt, um Verteilungen zu beschreiben. Es gibt eine ganze Reihe unterschiedlicher Stichprobenquantilfunktionen, die in der statistischen Software implementiert sind und in der Praxis verwendet werden. In der Epidemiologie werden Expositionen häufig durch Quantile (beispielsweise durch die Angabe der Perzentile P50, P75, P90, P95 und P99) beschrieben. Bei Expositionsdaten kann in vielen Fällen von einer Lognormalverteilung der Daten ausgegangen werden. Damit stellt sich die Frage, welche der unterschiedlichen Quantilfunktionen am besten zur Schätzung der Quantile unter dieser Verteilungsannahme geeignet sind.
Methoden: Wir stellen hier für eine Reihe gebräuchlicher Stichprobenquantilfunktionen die Herleitung des Erwartungswerts der Quantilsschätzer unter Annahme einer Lognormalverteilung der Daten vor. Dieser Erwartungswert lässt sich exakt berechnen und im Folgenden nennen wir dies analytische Bestimmung des Erwartungswerts. Über den Erwartungswert kann der Bias eines Schätzers ermittelt werden. Der Erwartungswert eines Quantilsschätzer ist abhängig von der Quantilsfunktion, der Wahl des Quantils, der Stichprobengröße und der Parameter der Lognormalverteilung. In der Literatur wurden schon häufig Quantilsschätzer unter der Annahme der Lognormalverteilung in unterschiedlichen Szenarien miteinander verglichen, wobei der Umweg über Simulationsstudien genutzt wurde. Wir vergleichen hier die analytischen Ergebnisse zum Erwartungswert gegen die Ergebnisse aus einer Simulationsstudie von Schoonjans et al. [1].
Ergebnisse: Schoonjans et al. [1] schätzt für die Stichprobengrößen 20, 120, 500 und 1000 bei einer Lognormalverteilung zur Basis 10 mit den Parametern mu=0 und sigma=1 das 5. und 95. Perzentil (P05, P95) mit vier verschiedenen Quantilsfunktionen (Methode A-D) über eine Simulationsstudie. Methode B entspricht der Standardeinstellung zur Stichprobenquantilsberechnung in SAS und Methode C der Standardeinstellung in R. Die Berechnungsformeln zu den Methoden A-D sind bei Schoonjans et al. [1] zu finden. Vergleicht man die Ergebnisse von Schoonjans et al. [1] mit den analytischen Berechnungen erhält man sehr ähnliche Werte, beispielsweise für das schlecht zu schätzende Szenario n=20, P95, mittleres Perzentil aus Simulationsstudie vs. analytischer Erwartungswert: Methode A: 180,43 vs 179,73; B: 114,69 vs. 113,93; C: 48,07 vs. 48,13; D: 138,42 vs. 135,86.
Diskussion: Die hier vorgestellten Formeln zur analytischen Berechnung des Erwartungswerts für gebräuchliche Quantilfunktionen unter der Annahme eine Lognormalverteilung stimmen mit den Ergebnissen aus Simulationsstudien überein.
Im dargestellten Szenario (n=20, P95) hat die Quantilsfunktion C die kleinste Abweichung zum theoretischen P95-Quantilswert von 44,14. Zu beachten ist allerdings, dass alle betrachteten Schätzer in diesem Szenario eine sehr große Varianz haben und daher alternative Schätzmethoden empfehlenswert sind.
Aus den vorgestellten Formeln zum Erwartungswert kann der Bias von Quantilschätzern in gewählten Szenarien direkt errechnet werden, ohne eine aufwändige Simulationsstudie zu nutzen. Diese Werte können bei der Planung der Stichprobengröße, bei der Wahl eines geeigneten Quantilschätzers oder bei der Beurteilung der Schätzgenauigkeit von Stichprobenquantilen genutzt werden.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.