gms | German Medical Science

GMS Medizinische Informatik, Biometrie und Epidemiologie

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

ISSN 1860-9171

Untersuchung von Methoden zur Überprüfbarkeit von Ergebnissen von Studienpopulationen auf Teilpopulationen

Analysis of methods for the transferability of results from study populations to subpopulations

Originalarbeit

  • corresponding author Lars Beckmann - Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln, Deutschland
  • Ulrich Grouven - Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln, Deutschland
  • Meinhard Kieser - Institut für Medizinische Biometrie und Informatik, Ruprecht-Karls-Universität, Heidelberg, Deutschland
  • Wiebke Sieben - Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln, Deutschland
  • Guido Skipka - Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln, Deutschland
  • Ralf Bender - Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln, Deutschland

GMS Med Inform Biom Epidemiol 2018;14(2):Doc11

doi: 10.3205/mibe000189, urn:nbn:de:0183-mibe0001896

Veröffentlicht: 30. August 2018

© 2018 Beckmann et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: In Nutzenbewertungen kann der Fall auftreten, dass sich die Studienpopulation (SP) aus einer relevanten Zielpopulation (ZP) und Nicht-ZP (nZP) zusammensetzt und ein nicht statistisch signifikanter Behandlungseffekt in ZP und ein statistisch signifikanter Behandlungseffekt in SP vorliegt. Es stellt sich hier die Frage unter welchen Umständen und mit welcher Methodik das Ergebnis in SP auf ZP übertragen werden kann.

Methoden: Wir haben drei Testprozeduren untersucht: eine Anhebung des Signifikanzniveaus αZP für ZP (Anhebungsregel, AHR), eine Testprozedur, die auf einem permutationsbasierten Test auf qualitative Interaktion zwischen ZP und nZP beruht (Erweiterungsregel, EWR) sowie eine Modifikation derselben. Die Testprozeduren wurden in einer Simulationsstudie bzgl. des empirischen Fehlers 1. Art und der empirischen Power verglichen.

Ergebnisse: Die EWR zeigte für einzelne Datenkonstellationen eine nicht akzeptable Niveauüberschreitung (Median 5,8%, Maximum 15,9%). Die modifizierte EWR unter Berücksichtigung der Relation der Stichprobengrößen in ZP und nZP führte zwar zu einer Reduktion des empirischen Fehlers 1. Art (Median 5,5%, Maximum 10,2%). Ein Vergleich bezüglich empirischer Power und Fehler 1. Art mit der AHR mit einer Erhöhung des Signifikanzniveaus auf αZP=15% ließ jedoch insgesamt keine Vorteile erkennen.

Schlussfolgerung: Bei Inkaufnahme einer geringen Niveauüberschreitung (Median 6,1%, Maximum 10,9% in den untersuchten Datenkonstellationen) stellt die AHR mit bedingter Erhöhung des Signifikanzniveaus auf αZP=15% unter Berücksichtigung des Fehlers 1. Art und der Power das geeignetste Verfahren dar.

Schlüsselwörter: Simulationsstudie, Übertragbarkeit, Teilpopulation

Abstract

Background: When assessing the benefit of an intervention, the study population (SP) may consist of a relevant target population (ZP) and a non-relevant population (nZP). We consider the situation that a significant treatment effect is observed only in SP but not in ZP leading to the question if and how the effect in SP may be used for conclusions about the effect in ZP.

Methods: We assessed three test procedures: the first increases the level of significance αZP for ZP (elevation rule, ER). The second procedure involves a permutation-based test for a qualitative interaction between ZP and nZP (extension rule, EWR). The third one is a modification of the EWR, which takes the relation between ZP and nZP into account.

In a simulation study, we compared the empirical type 1 error and power for all three test procedures.

Results: EWR unacceptably exceeds the significance level for some simulated parameter constellations (median 5.8%, maximum 15.9%). The modified version of EWR has a lower empirical type 1 error (median 5.5%, maximum 10.2%). But EWR has no advantages with respect to the empirical power and type 1 error compared to ER with an increased significance level of αZP=15%.

Conclusion: ER, with an increased significance level of αZP=15%, is the appropriate procedure with respect to the empirical power, when accepting a slightly increased type 1 error (median 6.1%, maximum 10.9% over all simulated scenarios).

Keywords: simulation study, transferability, subpopulation


Hintergrund

Nutzenbewertungen des IQWiG haben zum Ziel, Nutzen und Schaden einer Prüfintervention im Vergleich zu einer Kontrollbehandlung zu bewerten. Es kann der Fall auftreten, dass für die Untersuchung einer konkreten Fragestellung lediglich eine Teilpopulation (TP) der gesamten Studienpopulation (SP) relevant ist.

Eine besondere Situation liegt vor, wenn sich die SP aus der für die untersuchte Fragestellung relevanten Zielpopulation (ZP) und Nicht-ZP (nZP) zusammensetzt und eine Datenkonstellation wie in Abbildung 1 [Abb. 1] dargestellt vorliegt, d.h.:

  • ein nicht statistisch signifikanter Behandlungseffekt in der ZP
  • ein gleichgerichteter Behandlungseffekt in der nZP
  • ein statistisch signifikanter Behandlungseffekt in der SP
  • ein nicht statistisch signifikanter Interaktionstest (pint≥5%)
  • nicht zu unpräzise Effektschätzung in der ZP im Vergleich zur nZP

Es stellt sich die Frage, ob der nicht statistisch signifikante Effekt in der ZP eine Folge zu geringer Power ist und unter welchen Umständen das Ergebnis der SP herangezogen werden kann. Ein nicht statistisch signifikanter Interaktionstest zu α=5% allein ist nicht hinreichend, um eine Aussage im Sinne der Gleichheit von Effekten abzuleiten und Aussagen zu einer ZP durch Heranziehen der Ergebnisse der gesamten SP zu treffen. So kann es trotz eines nicht statistisch signifikanten Interaktionstests zu Situationen kommen, in denen zwischen TPen relevant unterschiedliche Effekte geschätzt werden. Dies bedeutet, dass eine qualitative Interaktion zwischen der interessierenden ZP und der nZP mit ausreichender Sicherheit ausgeschlossen werden muss, um das Ergebnis der SP auf die ZP übertragen zu können [1].

Eine mögliche Vorgehensweise bieten die Erweiterungsregel (EWR), die als Test auf eine qualitative Interaktion verstanden werden kann, sowie die Anhebungsregel (AHR), bei der das Signifikanzniveau für den Test in der ZP angehoben wird. Die Anwendung von mehrstufigen Testprozeduren, die die EWR oder die AHR enthalten, führen konstruktionsbedingt zu einer Niveauüberschreitung für den Test auf einen Effekt in der ZP. Folgende Fragestellungen sollen untersucht werden:

  • Frage 1: Signifikanzniveau. Es soll die Stärke der Niveauüberschreitung quantitativ untersucht werden. Ziel ist es, einfache Anforderungen an die Parameter(konstellationen) zu formulieren, sodass eine Testprozedur mit entsprechend modifizierten Bedingungen mit akzeptabler Niveauüberschreitung angewendet werden kann.
  • Frage 2: Power. Sofern eine Formulierung der Anforderungen wie unter Punkt 1 beschrieben gelingt, soll der Powergewinn durch die Anwendung der modifizierten Testprozedur untersucht werden.
  • Frage 3: Es soll ein Vergleich der alternativen Testprozeduren hinsichtlich Fehler 1. Art und Power durchgeführt werden.

Methodik & Daten

Hypothese

Folgendes Testproblem wird betrachtet:

H0: θZP=0 vs. θZP≠0, mit θZP wahrer Effekt in ZP

Testprozedur

  • Schritt 1: Es wird zweiseitig getestet, ob für ZP eine statistisch signifikante Effektschätzung zum Niveau α=5% vorliegt.
    Falls ja: H0 wird abgelehnt.
    Falls nein: Führe Schritt 2 durch.
  • Schritt 2: Es wird zweiseitig getestet, ob für SP eine statistisch signifikante Effektschätzung zum Niveau α=5% vorliegt.
    Falls ja: Führe Schritt 3 durch.
    Falls nein: H0 wird nicht abgelehnt.
  • Schritt 3: Es wird geprüft, ob die Effektschätzungen von ZP und nZP dieselbe Effektrichtung haben.
    Falls ja: Führe Schritt 4 durch.
    Falls nein: H0 wird nicht abgelehnt.
  • Schritt 4: Es wird getestet, ob zwischen ZP und nZP eine statistisch signifikante Interaktion zum Niveau α=5% vorliegt.
    Falls ja: H0 wird nicht abgelehnt.
    Falls nein: Führe Schritt 5 durch.
  • Schritt 5: Wird dieser Schritt erreicht, so liegen hinreichend homogene Effektschätzungen für ZP und nZP mit derselben Effektrichtung vor, und der Effekt in der SP ist statistisch signifikant von Null verschieden. Unter diesen Voraussetzungen können weitere statistische Tests bzgl. der Hypothesen durchgeführt werden.

Erweiterungsregel (EWR)

Die Erweiterungsregel untersucht, wie wahrscheinlich das beobachtete Ergebnis ist, wenn in Wahrheit kein Effekt in der ZP vorliegt. Dabei werden die Effektschätzungen in den Populationen SP, ZP und nZP berücksichtigt, sowie die Heterogenität zwischen ZP und nZP. Somit kann die EWR auch als Test auf eine qualitative Interaktion verstanden werden. Jedoch ist zu beachten, dass hierbei in einer Population, ZP, auch der Nulleffekt berücksichtigt wird. Damit geht die betrachtete Situation über die bekannte Situation hinaus, in denen bei einer qualitativen Interaktion von zwei vom Nulleffekt verschiedenen und nicht gleichgerichteten Effekten ausgegangen wird [2].

Die EWR beinhaltet die Simulation eines empirischen p-Wertes. Als Effektmaß wird die standardisierte Mittelwertdifferenz SMD (=Cohen’s d, θ) betrachtet.

Für beobachtete Werte [Formel, Formel] und [Formel, Formel] in den Teilpopulationen ZP und nZP (mit ni,ZP und ni,nZP als Fallzahlen der zwei Gruppen in ZP bzw. nZP) werden die folgenden Schritte nrep-mal durchlaufen:

1. Zufälliges Ziehen von

a. Formel, Formel und
Formel, Formel für ZP
b. Formel, Formel und
Formel, Formel für nZP
Formel bezeichnet dabei eine Zufallszahl aus einer Chi-Quadrat-Verteilung mit k Freiheitsgraden. Aus den Angaben kann in beiden Populationen die SMD mit zugehörigem Standardfehler geschätzt werden:
c. Formel mit Formel und
Formel
d. Formel mit Formel und
Formel

2. Durchführen eines Interaktionstests basierend auf [Formel, Formel] und [Formel, Formel] mit Ergebnis Formel, p-Wert des Q-Tests auf Homogenität.

3. Überprüfung:

(i) Formel und (ii) Formel

Ein empirischer p-Wert ergibt sich aus der Anzahl an Replikationen, in denen die beiden Bedingungen unter 3. erfüllt sind, geteilt durch die Gesamtzahl (nrep) an Replikationen. Als Signifikanzniveau wird α=2,5% gewählt. Die Anzahl an Replikationen beträgt nrep=100.000. Ist der empirische p-Wert kleiner als 2,5%, so wird das Ergebnis der Gesamtpopulation SP auf die jeweilige ZP übertragen, d.h. es wird geschlossen, dass der Behandlungseffekt auch in der Zielpopulation signifikant vom Nulleffekt verschieden ist.

Das vorgestellte Verfahren kann mit entsprechenden Verteilungsananahmen auf weitere Effektmaße wie das relative Risiko, das Odds Ratio oder das Hazard Ratio angewendet werden.

Anhebungsregel (AHR): Testprozedur mit bedingter Erhöhung des Signifikanzniveaus

Durchführung der Schritte 1 bis 4, in Schritt 5 wird erneut ein zweiseitiger Test auf einen Effekt in der ZP mit erhöhtem Signifikanzniveau αZP>5% durchgeführt.

Standardprozedur (A5)

Um darstellen zu können, welche Vor- und Nachteile mit den genannten Testprozeduren EWR und AHR einhergehen, wird als Referenz das Standardvorgehen A5, d.h. ein Test auf einen von Null verschiedenen Effekt in der ZP mit einem Signifikanzniveau von 5%, in den Vergleich der Testprozeduren mit einbezogen.


Simulationsstudie

Im Rahmen von Simulationsuntersuchungen werden empirischer Fehler 1. Art und Power der Testprozeduren untersucht. Gegenstand der im Folgenden beschriebenen Simulationsuntersuchungen ist die Anwendung der gesamten Testprozedur. Davon abzugrenzen ist die Simulation des empirischen p-Wertes im Rahmen der EWR, die Teil der Methodik der EWR ist.

Tabelle 1 [Tab. 1] zeigt die geplanten Szenarien für die Simulationsuntersuchungen. Der Wertebereich der untersuchten Simulationsparameter wurde so gewählt, dass praxisrelevante Szenarien abgebildet sind. Jedes Szenario wird für die Untersuchung des empirischen Fehlers 1. Art und der empirischen Power 10.000 mal simuliert. Als Effektmaß wird die standardisierte Mittelwertdifferenz (Cohen’s d) verwendet.


Ergebnisse

Empirischer Fehler 1. Art

Für die Untersuchung des Fehlers 1. Art wurden insgesamt 594 Szenarien simuliert. Die Anzahl der Replikationen je Szenario betrug 10.000, von denen zufällig ausgewählt 6.667 als Trainingsdaten und die übrigen 3.333 Szenarien als Testdaten verwendet wurden.

Über alle Szenarien betrachtet ist der empirische Fehler 1. Art auf den Trainingsdaten in 5,56% der Szenarien größer als 10% (Abbildung 2 [Abb. 2]). Auch wenn Mittelwert und Median des Fehlers 1. Art mit 6,31% und 5,70% leicht erhöht sind, gibt die Häufigkeit einer großen Niveauüberschreitung Anlass, den Einsatz der EWR auf solche Szenarien zu beschränken, in denen nicht oder nur sehr selten mit einem Fehler 1. Art von mehr als 10% zu rechnen ist.

Das 97,5%-Quantil der Verteilung des empirischen Fehlers 1. Art der Testprozedur mit EWR bei einem Signifikanzniveau von 5% für den Interaktionstest ist 12,0%; d.h., in 2,5% der simulierten Szenarien ist ein empirischer Fehler 1. Art größer als dieser Wert zu erwarten.

Die Relation der Stichprobengrößen in ZP und nZP erweist sich als ein einfacher Ansatz, um Szenarien zu identifizieren, die nur in seltenen Fällen einen empirischen Fehler 1. Art größer als 10% aufweisen.

Die Hinzunahme weiterer Parameter brachte keine bedeutsame Verbesserung der Identifikation von Szenarien mit häufiger erhöhtem empirischen Fehler 1. Art.

Mit fallendem Wert der Relation der Stichprobengrößen ist mit einem zu häufig deutlich erhöhten empirischen Fehler 1. Art zu rechnen, sodass die EWR dann nicht mehr angewendet werden sollte. Es kann ein Cut off so bestimmt werden, dass folgendes gilt: Beschränkt man die Anwendung der EWR auf Szenarien, in denen die Relation der Stichprobengrößen größer gleich dem Cut-off ist, so haben weniger als 2,5% der Szenarien einen empirischen Fehler 1. Art von über 10%. Aus Tabelle 2 [Tab. 2] kann für verschiedene Cut-offs entnommen werden, wie hoch der empirische Fehler 1. Art für die 2,5% mit dem größten empirischen Fehler 1. Art mindestens ist (97,5%-Quantile der Verteilung der simulierten Fehler 1. Art der Szenarien). Beschränkt man die Anwendung der EWR auf Szenarien, in denen die Relation der Stichprobengrößen ≥0,33 ist, so haben weniger als 2,5% der Szenarien einen empirischen Fehler 1. Art von über 10%. Bei einem Cut-off von 0,2 hätten mehr als 2,5% der Szenarien einen empirischen Fehler 1. Art von über 10%. Hieraus ergibt sich die Testprozedur EWR0,33: zusätzlich zu den unter den Schritten 1 bis 4 genannten Bedingungen wird 0,33 als Cut-off für die Relation der Stichprobengrößen Formel als weitere Voraussetzung für die Anwendung der EWR gewählt.

Analog zum Vorgehen bei der EWR wird für die Anwendung der AHR die Erhöhung des Signifikanzniveaus so festgelegt, dass auch für diese Testprozedur das 97,5%-Quantil der Verteilung des Fehlers 1. Art für die Trainingsdaten kleiner als 10% ist. Aus Tabelle 3 [Tab. 3] kann entnommen werden, dass dies bei einem Niveau von knapp unter 15% erfüllt ist. Das Niveau für den Test auf einen Effekt in der ZP innerhalb dieser Testprozedur wird daher auf 15% festgesetzt. Für die Testdaten ergibt sich für AHR15 ein 97,5%-Quantil von 10,23% für die empirische Verteilung des Fehlers 1. Art.

Tabelle 4 [Tab. 4] fasst die Simulationsergebnisse zum empirischen Fehler 1. Art zusammen. Die für den Trainingsdatensatz ermittelten Werte werden für den Testdatensatz bestätigt.

Vergleich der Testprozeduren bzgl. der empirischen Power

Die Größenordnung des Fehlers 1. Art der Testprozedur mit EWR (ohne zusätzliche Bedingungen) erwies sich in den Simulationsuntersuchungen als inakzeptabel hoch. Im Folgenden wird diese Testprozedur daher nicht weiter betrachtet. Die folgenden Vergleiche beziehen sich auf die Testprozeduren, EWR0.33, AHR15 und A5.

Die mittlere empirische Power unterscheidet sich zwischen den Testprozeduren über alle 5.940 Szenarien kaum und liegt bei 82,9% für A5, bei 84,1% für EWR0,33 und bei 85,3% für AHR15. Um Unterschiede bezüglich der empirischen Power näher zu untersuchen, wurden pro Szenarium die Differenzen in der Power von EWR0,33 und AHR15 im Vergleich zu A5 betrachtet (Tabelle 5 [Tab. 5]). Dabei sind deutliche Powergewinne in Szenarien zu beobachten, in denen die Standardprozedur A5 eine geringe Power hat. Es ergeben sich Powergewinne von EWR0,33 im Median bis 3,1 Prozentpunkten und maximal von 22,0 Prozentpunkten. Für AHR15 ergeben sich im Median Powergewinne bis 11,8 Prozentpunkte und maximal 22,7 Prozentpunkte. Die 90%-Quantile (EWR0,33: 1,4 bis 15,8 Prozentpunkte; AHR15: 2,2 bis 20,4 Prozentpunkte) zeigen, dass deutliche Powergewinne nicht auf einzelne Szenarien zurückzuführen sind. Insgesamt erwies sich die Testprozedur AHR15 als diejenige mit dem höchsten Powergewinn.

Die Testprozedur EWR0.33 zeigt bezüglich der empirischen Power keine Vorteile, die ihren Einsatz trotz des erhöhten Rechenaufwands rechtfertigen. In der Abwägung von empirischem Fehler 1. Art, empirischer Power sowie Praktikabilität erweist sich die Anhebungsregel AHR15 als das geeignetste Verfahren, insbesondere in Situationen mit zu erwartender niedriger Power.


Diskussion

Ausgangspunkt für die vorliegenden Untersuchungen war die Tatsache, dass in Nutzenbewertungen der Fall auftreten kann, dass für die Untersuchung konkreter Fragestellungen lediglich eine Teilpopulation aus einer vorliegenden Studienpopulation relevant ist. Die Auswertung der TP kann zu einer reduzierten Power zur Aufdeckung eines vorhandenen Behandlungseffekts führen. Es stellt sich die Frage, ob und unter welchen Umständen es gerechtfertigt ist, die gesamte SP für eine Aussage zur relevanten TP heranzuziehen. Für die Situation, dass eine spezifische Datenkonstellation vorliegt, wurde die EWR definiert mit dem Ziel, einen relevanten Powergewinn bei Inkaufnahme einer moderaten Niveauüberschreitung zu erzielen.

Die Untersuchung des Fehlers 1. Art bei Anwendung der Testprozedur mit EWR zeigte für einzelne Parameterkonstellationen eine nicht akzeptable Niveauüberschreitung. Es wurde eine modifizierte Testprozedur basierend auf der Relation der Stichprobengrößen EWR0.33 definiert.

Die Anwendung der EWR0.33 wurde mit einer Testprozedur mit bedingter Erhöhung des Signifikanzniveaus (AHR15) sowie mit dem Standardvorgehen A5 hinsichtlich empirischem Fehler 1. Art und empirischer Power verglichen.

Deutliche Powergewinne lassen sich in den Szenarien erreichen, in denen A5 eine geringe Power aufweist.

Insgesamt zeigte die Testprozedur EWR0.33 weder bezüglich der empirischen Power noch bezüglich des empirischen Fehlers 1. Art Vorteile gegenüber der alternativen Testprozedur, die ihren Einsatz in Anbetracht des erhöhten Rechenaufwands rechtfertigen würden. In der Abwägung von Einbußen beim empirischen Fehler 1. Art, Zugewinn bei der empirischen Power sowie Praktikabilität erweist sich die Anhebungsregel AHR15 insgesamt als das Verfahren der Wahl.

Limitationen der Untersuchungen

Die Abhängigkeit der Ergebnisse von den gewählten Szenarien stellt eine grundsätzliche Limitation von Simulationsuntersuchungen, so auch der vorliegenden, dar. Insbesondere die Tatsache, dass die Ergebnisse extremerer Szenarien mit der gleichen Gewichtung versehen wurden wie die in der Praxis üblicherweise auftretenden, schränkt möglicherweise die Übertragbarkeit der Simulationsergebnisse ein. Um diesem Problem zu begegnen, wurde durch die Wahl geeigneter Parameterwerte versucht, unrealistische Szenarien von vorneherein auszuschließen. Nur eine Gewichtung der Szenarien gemäß ihrer zu erwartenden Auftrittswahrscheinlichkeit hätte dieses Problem tatsächlich lösen können. Es hätte hierzu bekannt sein müssen, welche Parameterkonstellationen in der Realität (z.B. in den Bewertungen des IQWiG) wie häufig auftreten.


Schlussfolgerung

Die Testprozedur mit EWR zur Ableitung von Nutzenaussagen für die Zielpopulation unter Berücksichtigung der gesamten Studienpopulation zeigte für einzelne Datenkonstellationen eine nicht akzeptable Niveauüberschreitung. Eine modifizierte Testprozedur unter Berücksichtigung der Relation der Stichprobengrößen in ZP und nZP führte zwar zu einer Reduktion des empirischen Fehlers 1. Art. Ein Vergleich mit alternativen, einfacheren Testprozeduren AHR15 bezüglich der empirischen Power und des Fehlers 1. Art ließ jedoch insgesamt keine Vorteile erkennen. Unter Berücksichtigung des Fehlers 1. Art, der Power sowie des Rechenaufwands liefert die Anhebungsregel AHR15 die besten Ergebnisse. Die Anwendung der Methode erfordert die Abwägung zwischen Inkaufnahme eines erhöhten Fehlers 1. Art und erzielbarem Powergewinn.


Anmerkung

Interessenkonflikte

Die Autoren erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.


Literatur

1.
Grouven U, Beckmann L, Bender R, Lange S. Kriterien zur Überprüfbarkeit der Anwendung von Studienergebnissen [Präsentation]. In: IQWiG im Dialog; 2013 Jun 21; Köln. Köln: Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG); 2013. Available from: https://www.iqwig.de/download/13-06-21_IQWiG_im_Dialog_Ulrich_Grouven_Kriterien_zur_Ueberpruefung_der_Anwendbarkeit_von_Studienergebnissen.pdf Externer Link
2.
Gail M, Simon R. Testing for qualitative interactions between treatment effects and patient subsets. Biometrics. 1985 Jun;41(2):361-72. DOI: 10.2307/2530862 Externer Link