gms | German Medical Science

GMS Health Innovation and Technologies

EuroScan international network e. V. (EuroScan)

ISSN 2698-6388

Vergleich von Bewertungsinstrumenten für die Studienqualität von Primär- und Sekundärstudien zur Verwendung für HTA-Berichte im deutschsprachigen Raum

HTA-Kurzfassung

  • corresponding author Maren Dreier - Institut für Epidemiologie, Sozialmedizin und Gesundheitssystemforschung, Medizinische Hochschule Hannover, Deutschland
  • author Birgit Borutta - Institut für Epidemiologie, Sozialmedizin und Gesundheitssystemforschung, Medizinische Hochschule Hannover, Deutschland
  • author Jona Stahmeyer - Institut für Epidemiologie, Sozialmedizin und Gesundheitssystemforschung, Medizinische Hochschule Hannover, Deutschland
  • author Christian Krauth - Institut für Epidemiologie, Sozialmedizin und Gesundheitssystemforschung, Medizinische Hochschule Hannover, Deutschland
  • author Ulla Walter - Institut für Epidemiologie, Sozialmedizin und Gesundheitssystemforschung, Medizinische Hochschule Hannover, Deutschland

GMS Health Technol Assess 2010;6:Doc07

doi: 10.3205/hta000085, urn:nbn:de:0183-hta0000855

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/hta/2010-6/hta000085.shtml

Veröffentlicht: 14. Juni 2010

© 2010 Dreier et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.

Der vollständige HTA Bericht in deutscher Sprache ist verfügbar unter: http://portal.dimdi.de/de/hta/hta_berichte/hta260_bericht_de.pdf


Zusammenfassung

Gesundheitspolitischer Hintergrund

Erkenntnisse aus wissenschaftlichen Studien bilden die Grundlage für evidenzbasierte gesundheitspolitische Entscheidungen.

Wissenschaftlicher Hintergrund

Zur Einschätzung der Glaubwürdigkeit von Studien sind Qualitätsbewertungen von Studien immanenter Bestandteil von HTA-Berichten (HTA = Health Technology Assessment) und systematischen Übersichtsarbeiten. Diese prüfen, inwieweit die Studienergebnisse systematisch durch Confounding oder Bias verzerrt sein können (interne Validität). Es werden Checklisten, Skalen und Komponentenbewertungen unterschieden.

Forschungsfragen

Welche Instrumente zur Qualitätsbewertung von systematischen Reviews, Interventions-, Beobachtungs-, Diagnose- und gesundheitsökonomischen Studien gibt es, wie unterscheiden sich diese und welche Schlussfolgerungen lassen sich daraus für die Qualitätsbewertung ableiten?

Methodik

Es wird eine systematische Recherche in einschlägigen Datenbanken ab 1988 durchgeführt, ergänzt um eine Durchsicht der Referenzen, der HTA-Berichte der Deutschen Agentur für Health Technology Assessment (DAHTA) sowie eine Internetrecherche. Die Literaturauswahl, die Datenextraktion und die Qualitätsbewertung werden von zwei unabhängigen Reviewern vorgenommen. Die inhaltlichen Elemente der Qualitätsbewertungsinstrumente (QBI) werden mit modifizierten Kriterienlisten, bestehend aus Items und Domänen spezifisch für randomisierte, Beobachtungs-, Diagnosestudien, systematische Übersichtsarbeiten und gesundheitsökonomische Studien extrahiert. Anhand der Anzahl abgedeckter Items und Domänen werden umfassendere von weniger umfassenden Instrumenten unterschieden. Zwecks Erfahrungsaustausch zu Problemen bei der praktischen Anwendung von Instrumenten wird ein Workshop durchgeführt.

Ergebnisse

Es werden insgesamt acht systematische, methodische Reviews und HTA-Berichte sowie 147 Instrumente identifiziert: 15 für systematische Übersichtsarbeiten, 80 für randomisierte Studien, 30 für Beobachtungs-, 17 für Diagnose- und 22 für gesundheitsökonomische Studien. Die Instrumente variieren deutlich hinsichtlich der Inhalte, deren Ausprägung und der Güte der Operationalisierung. Einige Instrumente enthalten neben Items zur internen Validität auch Items zur Berichtsqualität und zur externen Validität. Kein Instrument deckt alle abgefragten Kriterien ab. Designspezifisch werden generische Instrumente dargestellt, die die meisten inhaltlichen Kriterien erfüllen.

Diskussion

Die Bewertung von QBI anhand inhaltlicher Kriterien ist schwierig, da kein wissenschaftlicher Konsens über notwendige Elemente der internen Validität bzw. nur für einen Teil der allgemein akzeptierten Elemente ein empirischer Nachweis besteht. Der Vergleich anhand inhaltlicher Parameter vernachlässigt die Operationalisierung der einzelnen Items, deren Güte und Präzision wichtig für Transparenz, Replizierbarkeit, die korrekte Bewertung sowie die Interrater-Reliabilität ist. QBI, die Items zur Berichtsqualität und zur internen Validität vermischen, sind zu vermeiden.

Schlussfolgerungen

Es stehen unterschiedliche, designspezifische Instrumente zur Verfügung, die aufgrund ihrer umfassenderen inhaltlichen Abdeckung von Elementen der internen Validität bevorzugt zur Qualitätsbewertung eingesetzt werden können. Zur Minimierung der Subjektivität der Bewertung sind Instrumente mit einer ausführlichen und präzisen Operationalisierung der einzelnen Elemente anzuwenden. Für gesundheitsökonomische Studien sollten Instrumente mit Ausfüllhinweisen entwickelt werden, die die Angemessenheit der Kriterien definieren. Weitere Forschung ist erforderlich, um Studiencharakteristika zu identifizieren, die die interne Validität von Studien beeinflussen.

Schlüsselwörter: Validität von Ergebnissen, Bias (Epidemiologie), Verzerrung, statistische (Epidemiologie), Verzerrung, systematische (Epidemiologie), Methoden, epidemiologische, Methodik, Evaluations-, Studienqualität, Studienbewertung, klinische Studien, Bewerungskriterien, Qualitätsbewertunginstrument, Qualitätsbewertung, Verzerrungspotenzial, Verzerrung, Bias, Validität, Confounding, Health Technology Assessment, HTA, systematische Übersichtsarbeiten, Gesundheitsökonomie, gesundheitsökonomische Studien, Checklisten, Skalen, Komponentenbewertung, Komponenten, Instrument, Studien, Interventionsstudien, Beobachtungsstudien, Diagnosestudien, Item, Metaanalyse-, Metaanalyse, Meta-Analyse, QBI, EBM, evidenzbasierte Medizin, Bewertungsqualität, Bewertungsinstrumente, Standard, Qualität, Wissenschaft, methodische Qualität, Epidemiologie


Kurzfassung

1. Gesundheitspolitischer Hintergrund

Gesundheitspolitische Entscheidungen sollen evidenzbasiert auf der Grundlage von wissenschaftlichen Erkenntnissen getroffen werden. Evidenz basiert auf der Synthese von Studienergebnissen, die möglichst unverzerrt sind und damit eine hohe Glaubwürdigkeit aufweisen.

2. Wissenschaftlicher Hintergrund

Zur Einschätzung der Glaubwürdigkeit von Studien sind Qualitätsbewertungen immanenter Bestandteil von HTA-Berichten (HTA = Health Technology Assessment) und systematischen Übersichtsarbeiten. Diese prüfen, inwieweit die Studienergebnisse systematisch durch Confounding oder Bias verzerrt sein können (interne Validität).

Es gibt keinen Goldstandard für die Bewertung der Studienqualität, da die wahren Zusammenhänge von Exposition/Intervention und Outcome unbekannt sind. Die eingesetzten Instrumente können als Skalen, Checklisten und Komponentenbewertungen klassifiziert werden. Bei einer Skala erhält jedes Item eine numerische Bewertung, die zu einem Summenscore addiert wird. Skalen werden nicht mehr empfohlen, da sie die Höhe der Validität nicht korrekt abbilden. Eine Checkliste besteht aus mindestens zwei Items ohne numerisches Bewertungssystem. Die Komponentenbewertung enthält als Items Komponenten wie „Randomisierung“ und „Verblindung“, die ebenfalls nicht numerisch, sondern qualitativ bewertet werden. Von der methodischen Qualität, die in diesem Bericht synonym zum Begriff Studienqualität verwendet wird, muss die Berichtsqualität abgegrenzt werden, die nicht Bestandteil dieses Berichts ist.

Die Qualität gesundheitsökonomischer Studien wird bestimmt durch (a) die Validität der Studienergebnisse, (b) die Einhaltung methodischer Standards der gesundheitsökonomischen Evaluation und (c) den Zugang zu belastbaren Kosten- und Outcomedaten. Die methodischen Standards der gesundheitsökonomischen Evaluation sind in Standardlehrbüchern und gesundheitsökonomischen Leitlinien beschrieben. Gesundheitsökonomische Evaluation basiert auf den theoretischen Konzepten der Wohlfahrtsökonomik und Entscheidungsanalyse. Bei den Standards der gesundheitsökonomischen Evaluation hat sich ein Konsens über konstitutive Elemente der gesundheitsökonomischen Evaluation und über zulässige Ansätze der Kostenanalyse und Outcomebestimmung herausgebildet. Teilweise wird in Leitlinien explizit gefordert, alternative Ansätze zu kalkulieren. Die Elemente der gesundheitsökonomischen Evaluation umfassen (1) die begründete Auswahl der Studienform, (2) die Identifizierung und Festlegung der Vergleichsalternativen, (3) die Perspektive der Evaluation, (4) die Bestimmung von Ressourcenkonsum und Kosten, (5) die Identifizierung und Bestimmung der relevanten Effekte und Nutzen, (6) die Festlegung des Zeithorizonts, (7) die Modellierung, (8) die Diskontierung, (9) die Inkremental- und (10) die Unsicherheitsanalyse.

3. Fragestellung

Welche Instrumente zur Qualitätsbewertung von systematischen Übersichtsarbeiten, Interventions-, Beobachtungs-, Diagnose- und gesundheitsökonomischen Studien gibt es, wie unterscheiden sich diese und welche Schlussfolgerungen lassen sich daraus für die Qualitätsbewertung ableiten?

4. Methodik

Zur Identifikation von Instrumenten wird eine systematische Recherche in einschlägigen Datenbanken ab 1988 durchgeführt, ergänzt um eine Durchsicht der Referenzen, der HTA-Berichte der Deutschen Agentur für Health Technology Assessment (DAHTA) sowie eine Internetrecherche. Es werden formale Charakteristika und inhaltliche Elemente der Instrumente extrahiert. Die inhaltliche Datenextraktion wird spezifisch für Interventions-, Beobachtungs-, Diagnosestudien, systematische Übersichtsarbeiten und gesundheitsökonomische Studien durchgeführt. Die Literaturauswahl, die Datenextraktion und die Qualitätsbewertung werden jeweils von zwei unabhängigen Reviewern vorgenommen, bei Diskrepanzen erfolgt eine Konsensentscheidung.

Die Inhalte von Instrumenten zur Bewertung von randomisierten Interventions-, Beobachtungs-, Diagnosestudien und systematischen Übersichtsarbeiten werden anhand von modifizierten Kriterienlisten extrahiert. Die Elemente der Listen setzen sich aus Studiencharakteristika zusammen, für die entweder empirisch ein Einfluss auf die Höhe der Studienergebnisse nachgewiesen oder deren Einfluss allgemein akzeptiert bzw. theoretisch fundiert ist. Die Elemente für Studiencharakteristika von Interventions-, Beobachtungsstudien und systematischen Übersichtsarbeiten werden in mehrere Domänen zusammengefasst. Von den Elementen werden diejenigen als relevant definiert, für die empirische Evidenz als potenzielle Biasquelle besteht bzw. die von anderen Autoren als essenziell eingestuft werden.

Als Basis für die Auswahl eines Instruments zur Qualitätsbewertung werden designspezifisch nur generische Instrumente und ihre Elemente der internen Validität betrachtet. Außerdem wird das Vorhandensein von Ausfüllhinweisen berücksichtigt. Anhand der Anzahl abgedeckter Elemente insgesamt, abgedeckter relevanter Elemente sowie abgedeckter Domänen werden umfassendere von weniger umfassenden Instrumenten unterschieden.

Für die Datenextraktion der inhaltlichen Elemente für gesundheitsökonomische Studien wird ein Formular entwickelt, da keine Übersichtsarbeiten vorliegen, die als Referenz dienen können. Im ersten Schritt des Entwicklungsprozesses werden Standardlehrbücher sowie aktuelle nationale und internationale Leitlinien zur Erstellung gesundheits- und pharmakoökonomischer Studien gesichtet. Inhaltlich sprechen die Lehrbücher und Leitlinien weitgehend identische Themenschwerpunkte an (Elemente der gesundheitsökonomischen Evaluation). In einem zweiten Schritt werden die herausgearbeiteten Themenschwerpunkte auf den Bezug zur Studienqualität (interne Validität) gesundheitsökonomischer Studien untersucht. Es werden Domänen und Items entwickelt, die auf den Themenschwerpunkten der Lehrbücher und Leitlinien basieren. Sie werden in ein Formular zur Extraktion von gesundheitsökonomischen Qualitätsbewertungsinstrumenten (QBI) überführt, mit dessen Hilfe die verschiedenen Bewertungsinstrumente extrahiert werden. Bei der Entwicklung der Domänen und Items wird darauf geachtet, dass sich diese primär auf die interne Validität beziehen.

Im gesundheitsökonomischen Extraktionsformular wird für die Bewertung der Items der berücksichtigten QBI eine Abstufung vorgenommen: „angemessen“, „begründet“, „berichtet“ und „fehlend“. Eine Bewertung „berichtet“ wird vergeben, wenn ein QBI lediglich abfragt, ob ein Item in einer gesundheitsökonomischen Studie berichtet wird (z. B. Perspektive der Analyse, einbezogene Outcomeparameter oder Diskontierungsrate). Die Beurteilung „begründet“ bedeutet, dass das QBI explizit nach Begründungen für die Ausprägung des Items fragt. Die Bewertung „angemessen“ heißt, dass ein Instrument eine Überprüfung der Angemessenheit des Items fordert. Die Überprüfung der Angemessenheit sollte an den Standards der gesundheitsökonomischen Evaluation orientiert sein.

Zwecks Erfahrungsaustausch zu Problemen bei der praktischen Anwendung von Instrumenten wird ein Workshop durchgeführt. Ziele des Workshops sind der Austausch und die Diskussion der Erfahrungen sowie des Umgangs mit Bewertungsinstrumenten zur Qualität von randomisierten und nicht-randomisierten Interventionsstudien, Anforderungen sowie Inhalte an/von Bewertungsinstrumente/n zur Qualität von Interventionsstudien. Der Austausch dient zur Ergänzung von wissenschaftlichen Untersuchungen um praktische Aspekte, deren Stellenwert in Publikationen oft nicht thematisiert wird. Eine Konsensbildung zu einzelnen Aspekten wird nicht angestrebt. Zielgruppe des Workshops sind Autoren von deutschsprachigen HTA-Berichten oder systematischen Reviews des Deutschen Instituts für Medizinische Dokumentation und Information (DIMDI) und des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Experten auf dem Gebiet der Methodik, Wissenschaftler (aus den Disziplinen Medizin, Public Health, Epidemiologie, Prävention, Gesundheitsökonomie), die mit gesundheitspolitisch relevanten Evaluationen befasst sind, sowie Institute/Verbände, die systematische Reviews mit Qualitätsbewertung durchführen. Referenten werden mit ihren Vorträgen die entsprechenden Themen einleiten. Im Anschluss an die Vorträge sind jeweils 20 bis 30 Minuten für eine moderierte Diskussion vorgesehen. Zur Dokumentation wird u. a. eine Audio-Aufzeichnung mit anschließender Transkription durchgeführt.

5. Ergebnisse

Die umfassende Recherche ergibt insgesamt 147 Instrumente zur Bewertung der Studienqualität: 15 für systematische Reviews/HTA-Berichte/Metaanalysen, 80 für Interventions-, 30 für Beobachtungs-, 17 für Diagnose- und 22 für gesundheitsökonomische Studien. Unter den QBI sind 16 Instrumente, die sowohl für Interventions- als auch für Beobachtungsstudien eingesetzt werden können.

Ein initiales Screening von HTA-Berichten in der DAHTA-Datenbank zeigt, dass in 87% der Berichte die Durchführung einer Qualitätsbewertung angegeben wird. Von diesen wird ist jedoch nur bei der Hälfte das verwendete QBI dokumentiert.

Die identifizierten Instrumente weisen eine große Variation hinsichtlich der formalen und inhaltlichen Charakteristika auf. Einige Instrumente enthalten neben Items zur internen Validität auch welche zur Berichtsqualität und zur externen Validität. Designspezifisch werden generische Instrumente für die Bewertung von systematischen Reviews/HTA-Berichten/Metaanalysen, Interventions-, Beobachtungs- und Diagnosestudien ermittelt, die die meisten Elemente zur internen Validität, die meisten Domänen mit mindestens einem bzw. 50% der enthaltenen Elemente sowie die meisten als relevant definierten Elemente abdecken. Es können umfassendere von weniger umfassenden Instrumenten unterschieden werden.

Die Instrumente, die die Qualität gesundheitsökonomischer Studien untersuchen, weisen ebenfalls erhebliche Unterschiede auf sowohl in der Betrachtung der verschiedenen Themenbereiche, als auch in der Bewertung der Qualität. Zudem bestehen beträchtliche Differenzen in den Operationalisierungen. Über alle Studiendesigns hinweg erfüllt keines der eingeschlossenen Instrumente alle Bereiche.

Am Workshop nehmen insgesamt 27 Personen aus HTA- und EbM-assoziierten (EbM = Evidenzbasierte Medizin) Institutionen teil. Folgende Diskussionspunkte werden von den Teilnehmern vorgeschlagen: externe Validität als Bestandteil von Bewertungsinstrumenten, Subjektivität der Bewertung, Umgang mit geringer Berichtsqualität, endpunkt- statt studienbezogene Qualitätsbewertung und Integration der Ergebnisse der Bewertung. Eine Konsensbildung ist im Rahmen des Workshops nicht vorgesehen, es werden daher Einzelmeinungen wiedergegeben. Externe und interne Validität sollten getrennt voneinander bewertet werden. Items, die einen großen Spielraum für subjektive Bewertungen lassen, führen zu mangelnder Übereinstimmung der Bewertung und hohem Diskussionsbedarf. Dies kann durch eine präzise Operationalisierung der Items vermieden werden.

6. Diskussion

Studienqualität kann unterschiedlich operationalisiert werden. Es überwiegt die Auffassung, dass eine Bewertung der Studienqualität die Höhe der internen Validität bzw. das Verzerrungspotenzial abbilden sollte. Die Bestandsaufnahme der zahlreichen identifizierten Instrumente zeigt jedoch, dass viele Instrumente auch Items der Berichtsqualität enthalten. Diese Vermischung von Berichtsqualität und interner Validität kann zu einer Fehleinschätzung der Studienqualität führen, wenn Elemente der Berichtsqualität als Surrogatparameter für die Einschätzung der methodischen Qualität herangezogen werden.

Anhand der tabellarischen Darstellung abgedeckter inhaltlicher Items können die identifizierten QBI verglichen werden. Dieses Vorgehen ist jedoch mit Einschränkungen verbunden, da kein Konsens über geeignete Kriterien existiert und nicht für alle Elemente Evidenz vorliegt, dass sie die Höhe der internen Validität einer Studie beeinflussen. Daher ist eine hohe Zahl an abgedeckten Elementen nicht notwendigerweise ein Hinweis auf ein gutes Instrument.

Zur weiteren Differenzierung der QBI wird die Anzahl der als relevant definierten Elemente dargestellt. Während für die relevanten Elemente in Interventions- und Diagnosestudien nur evidenzbasierte Biasquellen ausgewählt werden, trifft dies nur für einige der relevanten Elemente in Beobachtungsstudien und systematischen Übersichtsarbeiten zu. Insgesamt kann die Erfüllung von relevanten Elementen nur als erste Einschätzung dienen, um Instrumente zu identifizieren, die mehr oder weniger umfassend sind. Je nach Themenbereich sollte jeweils geprüft werden, ob alle Items des Instruments relevant sind bzw. ob für das jeweilige Thema zusätzliche Items einbezogen werden sollten.

Einige inhaltliche Elemente von QBI waren nicht eindeutig der Berichtsqualität, der internen oder externen Validität zuzuordnen. Beispielsweise ist die Berechnung der erforderlichen Stichprobengröße zunächst nur mit der Präzision der Ergebnisse assoziiert ohne dass die Höhe des Effektschätzers beeinflusst wird. Die Präzision der Effektschätzer kann jedoch Einfluss auf die Signifikanz der Ergebnisse haben.

Sicher werden nicht alle jemals eingesetzten Instrumente gefunden. Gleichwohl wird die Möglichkeit, bedeutsame und häufig eingesetzte Instrumente übersehen zu haben, als gering eingeschätzt, u. a. auch durch die Nutzung mehrerer Datenquellen einschließlich Internet.

Generell gilt, je höher der Spielraum für subjektive Bewertungen ist, desto geringer ist die Übereinstimmung der Reviewer. Die einzelnen Items der Instrumente sollten daher möglichst präzise und ausführlich operationalisiert sein. Ggf. sind die Ausfüllhinweise anzupassen, um eine eindeutige Bewertungsgrundlage für alle Reviewer sicherzustellen. Etwa 40% der eingeschlossenen Instrumente geben eine ausführlichere Anleitung zur Durchführung der Qualitätsbewertung.

Die Bewertung der Qualität gesundheitsökonomischer Studien ist ein zwingend erforderlicher Bestandteil bei der Erstellung von HTA-Berichten. Insgesamt werden 22 gesundheitsökonomische QBI identifiziert. Zwischen den untersuchten Instrumenten gibt es deutliche Unterschiede bezüglich:

  • Anzahl der untersuchten Items aus dem Extraktionsformular (Themenschwerpunkte)
  • Bewertungsqualität: angemessen – begründet – berichtet
  • Differenziertheit der Qualitätsabfragen.

Keines der untersuchten Bewertungsinstrumente deckt die gesamte Bandbreite der Themenschwerpunkte (Elemente der gesundheitsökonomischen Evaluation) ab. Nur wenige Instrumente berücksichtigen fast alle Bereiche des Extraktionsbogens. Nur drei Instrumente überprüfen überwiegend die Angemessenheit der methodischen Verfahren. In vielen Instrumenten wird zumindest bei einigen Items nach der Angemessenheit der Verfahren gefragt. Für keines der Instrumente wird jedoch erläutert, was unter „angemessen“ zu verstehen ist. Die Mehrzahl der Instrumente fordert Begründungen für konkrete Ausprägungen der Items ein oder untersucht lediglich, ob und welche Items berichtet werden.

Deutliche Unterschiede bestehen auch in der Differenziertheit der Qualitätsabfragen. Wie differenziert ein Bewertungsinstrument die Themenschwerpunkte erfragt, wird über die Anzahl der Items abgebildet. Wenn sich die Qualitätsbewertung auf wenige Items stützt, müssen die Fragen global gestellt werden. Reviewern bleiben dann größere Spielräume bei der Interpretation von Items. Bei umfangreicheren Instrumenten mit großer Itemanzahl lassen sich Items stärker operationalisieren, sodass die Interpretationsspielräume deutlich eingeschränkt werden und objektivere Bewertungen unterstützt werden.

7. Schlussfolgerungen

Die Qualitätsbewertung von Studien ist ein obligatorischer Arbeitsschritt bei der Erstellung von systematischen Übersichtsarbeiten, der transparent darzustellen ist. Es stehen unterschiedliche designspezifische Instrumente zur Verfügung, die entsprechend ihrer inhaltlichen Abdeckung von Elementen der internen Validität für die Qualitätsbewertung ausgewählt werden können.

Für die Auswahl eines QBI gilt, dass Skalen nicht bzw. ohne quantitative Gesamtbewertung eingesetzt werden sollten. Zur Minimierung der Subjektivität der Bewertung sind Instrumente mit einer ausführlichen und präzisen Operationalisierung der einzelnen Elemente vorteilhaft. Wenn möglich, sollten die ausgewählten Instrumente zuvor an ausgewählten Studien getestet und bei Bedarf die Operationalisierung der Items ergänzt bzw. präzisiert werden, um die Subjektivität der Bewertung zu minimieren und eine hohe Übereinstimmung der Bewertungen sicherzustellen.

Weitere Forschung ist erforderlich, um Studiencharakteristika zu identifizieren, die die interne Validität von Studien beeinflussen. Dies gilt insbesondere für Beobachtungsstudien. Offen ist auch, inwieweit die Validität von Studien durch eine qualitative Gesamtbewertung korrekt gemessen wird.

Für die gesundheitsökonomische Qualitätsbewertung sollten Instrumente entwickelt werden, die (1) die gesamten Themenschwerpunkte abbilden, (2) die angemessene Umsetzung von Items in gesundheitsökonomischen Studien überprüfen und (3) die Themenschwerpunkte hinreichend differenziert abfragen. Die Angemessenheit sollte sich an den Standards der gesundheitsökonomischen Evaluation orientieren (definiert durch Standardlehrbücher und internationale Guidelines). Es sollten Erläuterungen und Ausfüllhinweise zu den Bewertungsinstrumenten entwickelt werden, in denen beschrieben wird, wie Angemessenheit definiert ist.