gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Wie finde ich einen guten Quantilsschätzer bei lognormalverteilten Daten?

Meeting Abstract

Suche in Medline nach

  • Anne Lotz - IPA - Institut für Prävention und Arbeitsmedizin der Deutschen Gesetzlichen Unfallversicherung, Institut der Ruhr-Universität Bochum, Bochum, Germany
  • Jörg Rissler - Institut für Arbeitsschutz der Deutschen Gesetzlichen Unfallversicherung (IFA), Sankt Augustin, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 208

doi: 10.3205/24gmds777, urn:nbn:de:0183-24gmds7775

Veröffentlicht: 6. September 2024

© 2024 Lotz et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Quantile werden in der Statistik genutzt, um Verteilungen zu beschreiben. Es gibt eine ganze Reihe unterschiedlicher Stichprobenquantilfunktionen, die in der statistischen Software implementiert sind und in der Praxis verwendet werden. In der Epidemiologie werden Expositionen häufig durch Quantile (beispielsweise durch die Angabe der Perzentile P50, P75, P90, P95 und P99) beschrieben. Bei Expositionsdaten kann in vielen Fällen von einer Lognormalverteilung der Daten ausgegangen werden. Damit stellt sich die Frage, welche der unterschiedlichen Quantilfunktionen am besten zur Schätzung der Quantile unter dieser Verteilungsannahme geeignet sind.

Methoden: Wir stellen hier für eine Reihe gebräuchlicher Stichprobenquantilfunktionen die Herleitung des Erwartungswerts der Quantilsschätzer unter Annahme einer Lognormalverteilung der Daten vor. Dieser Erwartungswert lässt sich exakt berechnen und im Folgenden nennen wir dies analytische Bestimmung des Erwartungswerts. Über den Erwartungswert kann der Bias eines Schätzers ermittelt werden. Der Erwartungswert eines Quantilsschätzer ist abhängig von der Quantilsfunktion, der Wahl des Quantils, der Stichprobengröße und der Parameter der Lognormalverteilung. In der Literatur wurden schon häufig Quantilsschätzer unter der Annahme der Lognormalverteilung in unterschiedlichen Szenarien miteinander verglichen, wobei der Umweg über Simulationsstudien genutzt wurde. Wir vergleichen hier die analytischen Ergebnisse zum Erwartungswert gegen die Ergebnisse aus einer Simulationsstudie von Schoonjans et al. [1].

Ergebnisse: Schoonjans et al. [1] schätzt für die Stichprobengrößen 20, 120, 500 und 1000 bei einer Lognormalverteilung zur Basis 10 mit den Parametern mu=0 und sigma=1 das 5. und 95. Perzentil (P05, P95) mit vier verschiedenen Quantilsfunktionen (Methode A-D) über eine Simulationsstudie. Methode B entspricht der Standardeinstellung zur Stichprobenquantilsberechnung in SAS und Methode C der Standardeinstellung in R. Die Berechnungsformeln zu den Methoden A-D sind bei Schoonjans et al. [1] zu finden. Vergleicht man die Ergebnisse von Schoonjans et al. [1] mit den analytischen Berechnungen erhält man sehr ähnliche Werte, beispielsweise für das schlecht zu schätzende Szenario n=20, P95, mittleres Perzentil aus Simulationsstudie vs. analytischer Erwartungswert: Methode A: 180,43 vs 179,73; B: 114,69 vs. 113,93; C: 48,07 vs. 48,13; D: 138,42 vs. 135,86.

Diskussion: Die hier vorgestellten Formeln zur analytischen Berechnung des Erwartungswerts für gebräuchliche Quantilfunktionen unter der Annahme eine Lognormalverteilung stimmen mit den Ergebnissen aus Simulationsstudien überein.

Im dargestellten Szenario (n=20, P95) hat die Quantilsfunktion C die kleinste Abweichung zum theoretischen P95-Quantilswert von 44,14. Zu beachten ist allerdings, dass alle betrachteten Schätzer in diesem Szenario eine sehr große Varianz haben und daher alternative Schätzmethoden empfehlenswert sind.

Aus den vorgestellten Formeln zum Erwartungswert kann der Bias von Quantilschätzern in gewählten Szenarien direkt errechnet werden, ohne eine aufwändige Simulationsstudie zu nutzen. Diese Werte können bei der Planung der Stichprobengröße, bei der Wahl eines geeigneten Quantilschätzers oder bei der Beurteilung der Schätzgenauigkeit von Stichprobenquantilen genutzt werden.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Schoonjans F, De Bacquer D, Schmid P. Estimation of population percentiles. Epidemiology. 2011;22(5):750–1. DOI: 10.1097/EDE.0b013e318225c1de Externer Link