gms | German Medical Science

GMS Zeitschrift für Audiologie — Audiological Acoustics

Deutsche Gesellschaft für Audiologie (DGA)

ISSN 2628-9083

Modellierung und Verifizierung der Test-Retest-Reliabilität des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung

Originalarbeit

Suche in Medline nach

  • corresponding author Inga Holube - Institut für Hörtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland; Exzellenzcluster “Hearing4All”, Oldenburg, Deutschland
  • Alexandra Winkler - Institut für Hörtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland; Exzellenzcluster “Hearing4All”, Oldenburg, Deutschland
  • Ralph Nolte-Holube - Institut für Hörtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland

GMS Z Audiol (Audiol Acoust) 2020;2:Doc03

doi: 10.3205/zaud000007, urn:nbn:de:0183-zaud0000070

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zaud/2020-2/zaud000007.shtml

Veröffentlicht: 27. März 2020

© 2020 Holube et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Die Test-Retest-Reliabilität des Freiburger Einsilbertests wurde mit verschiedenen Methoden modelliert und mit Messdaten von Probanden mit und ohne Hörbeeinträchtigung verglichen. Die Methoden bauen auf den Verfahren von Thornton und Raffin sowie Altman et al. auf. Sie berücksichtigen durch die Verwendung der verallgemeinerten Binomialverteilung die Unterschiede im Wortverstehen innerhalb der Testlisten und beinhalten die Varianz der Testlisten. Die Methoden ermöglichen die Bestimmung der Grenzen für die 90%- und 95%-Konfidenzintervalle bei Verwendung von Testlisten mit 20 Wörtern und von Doppellisten mit 40 Wörtern. Diese Grenzen wurden durch die Messdaten bestätigt. Bei einem Sprachverstehen von 50% sind die Konfidenzintervalle am breitesten. Dort hat für Testlisten mit 20 Wörtern das 90%-Konfidenzintervall eine Breite von ±20% bzw. ±6,0 dB und das 95%-Konfidenzintervall eine Breite von ±25% bzw. ±7,4 dB. Für die Hörgeräte-Anpasspraxis bedeutet dies, dass erst Unterschiede, die diese Spanne übersteigen, als signifikant unterschiedlich gewertet werden können.

Schlüsselwörter: Freiburger Einsilbertest, Sprachverstehen, Binomialverteilung, Test-Retest-Reliabilität, Konfidenz


Einleitung

In Heft 1/2018 wurde die Modellierung der Reliabilität des Freiburger Einsilbertests (FBE) [1] in Ruhe mit der verallgemeinerten Binomialverteilung vorgestellt [2], [3]. Die Verwendung dieser Verteilung ermöglicht die Berücksichtigung der Unterschiede im Wortverstehen innerhalb einer Testliste. Dies führt zu einem kleineren Konfidenzintervall für die Messwerte als die Verwendung der einfachen Binomialverteilung, die für jedes Wort einer Liste die gleiche Erkennungswahrscheinlichkeit annimmt. Die Varianz der verallgemeinerten Binomialverteilung für Testlisten mit 20 Wörtern konnte durch die Varianz einer einfachen Binomialverteilung angenähert werden, die auf Testlisten mit 29 Wörtern mit gleichem Wortverstehen beruht.

Die Untersuchungen bei Holube et al. [2], [3] beschränken sich auf die Berechnung des 95%-Konfidenzintervalls für die Abweichung des Messwertes für eine Testliste vom wahren Wert und alternativ für die Abweichung des wahren Wertes von dem Messwert für eine Testliste. Die publizierten Konfidenzintervalle sind jedoch nicht für die Abschätzung der Test-Retest-Reliabilität oder bei Untersuchungen mit zwei Testlisten zum Vergleich von zwei Messbedingungen anwendbar. Genau dieser Fall liegt jedoch bei der Überprüfung von Hörgeräten oder anderen Therapiemaßnahmen vor. Das Ergebnis zweier Messungen (z.B. mit und ohne Hörgeräte), d.h. zweier Trefferraten, wird verglichen, und aus der Differenz der beiden Trefferraten wird der Erfolg der Maßnahme abgeleitet. In der Hilfsmittelrichtlinie [4] wird z.B. mit dem FBE in Ruhe eine Verbesserung des Sprachverstehens von mindestens 20 Prozentpunkten mit Hörgeräten im Vergleich zur unversorgten Kondition gefordert.

Thornton und Raffin [5] berechneten das 95%-Konfidenzintervall für die Differenz zwischen zwei Messungen, indem sie die Trefferraten in eine Skala mit homogenen Varianzen für alle Testergebnisse transformierten und dann die Varianzen der zwei Testergebnisse addierten. Carney und Schlauch [6] bestätigten im Wesentlichen die Ergebnisse dieser Methode durch einen anderen Ansatz. Sie berechneten die Varianz der Differenz zweier Trefferraten unter der Annahme binomialverteilter Testergebnisse. Für jeden Wert für die Trefferrate aus der ersten Messung berücksichtigten sie dabei alle möglichen Werte für die zweite Messung. Die Ergebnisse der Methode von Thornton und Raffin [5], die gleiches Verstehen aller 20 Wörter einer Testliste voraussetzt, wurden von Winkler und Holube [7] basierend auf Steffens [8] angegeben und mit Ergebnissen wiederholter Messungen verglichen.

Dillon [9] legte einerseits dar, dass bei Annahme der gleichen Wahrscheinlichkeit für das Verstehen jedes Wortes die Breite des 95%-Konfidenzintervalls für die Test-Retest-Kondition durch die Verwendung der Methode von Thornton und Raffin [5] überschätzt wird, wenn die Testlisten gleich verständlich sind und sich die Probanden immer gleich verhalten. Diese Annahme wird durch die Analyse in Winkler und Holube [7] gestützt, da nur 3,2% der Messdaten, d.h. weniger als die erwarteten 5% der Messdaten außerhalb des Konfidenzintervalls nach Thornton und Raffin [5] lagen. Andererseits wies Dillon [9] darauf hin, dass die Methode von Thornton und Raffin [5] trotzdem zur Abschätzung des 95%-Konfidenzintervalls verwendet werden kann, da sich zwei Effekte gegenseitig aufheben: Bei Berücksichtigung unterschiedlichen Wortverstehens und Anwendung der verallgemeinerten Binomialverteilung nach Hagerman [10] werden die 95%-Konfidenzintervalle schmaler. Durch intraindividuelle Variabilität (z.B. durch Aufmerksamkeitsschwankungen) vor allem bei einem größeren zeitlichen Abstand der Messungen werden sie jedoch wieder breiter. Als zusätzliche Varianzquelle weist Dillon [9] auf mögliche Unterschiede zwischen den Testlisten hin. In der Sprachaudiometrie werden, im Gegensatz zu Winkler und Holube [7], im Allgemeinen nicht die gleichen Listen bei wiederholten Messungen verwendet. Das 95%-Konfidenzintervall für die Test-Retest-Reliabilität verbreitert sich bei Verwendung unterschiedlicher Testlisten infolge der unterschiedlichen mittleren Trefferraten der Testlisten.

Für die vorliegende Analyse wurden die Messungen aus Baljic et al. [11] und Holube et al. [2], [3] die für jeden Probanden die Ergebnisse von fünf Testlisten bei jedem von vier Pegeln beinhalten, im Sinne eines Test-Retest-Experiments interpretiert und die Test-Retest-Reliabilität ausgewertet. Alle Messungen wurden innerhalb eines Termins durchgeführt, so dass lediglich die Kurzzeit-Test-Retest-Reliabilität untersucht wurde, nicht jedoch die Test-Retest-Reliablität über einen längeren Zeitraum, die nach Dillon [9] vermutlich zu breiteren Konfidenzintervallen führen würde. Zum Vergleich mit den Messdaten wurden die Grenzen für das 95%- und das 90%-Konfidenzintervall mit verschiedenen Methoden modelliert. Die Methoden bauen auf der in Holube et al. [2], [3] verwendeten verallgemeinerten Binomialverteilung auf und modellieren zusätzlich die Variabilität der Testlisten. Intraindividuelle Varianzen der Probanden wurden aufgrund der geringen zeitlichen Abstände zwischen den Messungen vernachlässigt.


Methoden

Experimentelle Daten

Die Messmethoden werden hier nur kurz zusammengefasst. Für eine ausführliche Beschreibung sei auf Holube et al. [2], [3] verwiesen.

Bei 80 jungen Probanden mit normalem Hörvermögen (im Folgenden als Normalhörende bezeichnet), wurde das Sprachverstehen als Trefferrate für die Freiburger Einsilber in Ruhe bei vier Pegeln (17,5, 23,5, 29,5 und 35,5 dB SPL) mit jeweils fünf Testlisten à 20 Wörtern (n=20) bestimmt. Bei 40 älteren Probanden mit Hörbeeinträchtigung (im Folgenden als Schwerhörige bezeichnet) wurden bei sonst gleichem Verfahren die Pegel 65, 80, 90 und 95 dB SPL verwendet. In die Analyse wurden jedoch nur die Pegel 65 und 80 dB SPL einbezogen, da bei den beiden höheren Pegeln viele Trefferraten bei 100% lagen. Alle Messungen eines Probanden wurden innerhalb eines Termins durchgeführt.

Die fünf Testlisten-Trefferraten bei festem Pegel für jeden Probanden wurden als Test-Retest-Kombinationen in Paaren interpretiert. Die Paare setzten sich jeweils aus einer präsentierten Testliste und einer der danach präsentierten weiteren Testliste zusammen, d.h. (1; 2), (1; 3), (1; 4), (1; 5), (2; 3), (2; 4), (2; 5), (3; 4), (3; 5), (4; 5). Dadurch ergaben sich 3.200 Test-Retest-Paare für die Normalhörenden und 800 Test-Retest-Paare für die Schwerhörigen. Die Anzahl der Test-Retest-Paare verringerte sich, wenn die bei Baljic et al. [11] auffälligen Testlisten ausgeschlossen wurden (siehe Tabelle 1 [Tab. 1]). In einer weiteren Variante wurden jeweils aus zwei Testlisten Doppellisten mit n=40 Wörtern gebildet. Für die Analyse der Test-Retest-Reliabilität wurden alle Doppellisten zu Test-Retest-Paaren kombiniert, so dass keine Einzelliste doppelt vorkam, d.h. (1+2; 3+4), (1+2; 3+5), (1+2; 4+5), (1+3; 2+4), (1+3; 2+5), (1+3; 4+5), (1+4; 2+3), (1+4; 2+5), (1+4; 3+5), (1+5; 2+3), (1+5; 2+4), (1+5; 3+4), (2+3; 4+5), (2+4; 3+5) und (2+5; 3+4). Daraus ergaben sich bei Verwendung aller Testlisten 4.800 Test-Retest-Paare für die Normalhörenden und 1.200 Test-Retest-Paare für die Schwerhörigen. Auch für diese Doppellisten wurden die nach [11] auffälligen Testlisten als Variante ausgeschlossen (siehe Tabelle 1 [Tab. 1]).

Berechnungsmethoden

Bei gegebener Trefferrate pmess1 (Test) ist die Frage, in welchem kritischen Bereich die Retest-Trefferrate pmess2 liegt, sodass die Differenz pmess1pmess2 bei zweiseitiger Fragestellung auf dem α=5%-Niveau gerade noch nicht signifikant von Null verschieden ist. Eine zweiseitige Fragestellung bedeutet dabei, dass die Retest-Trefferrate kleiner oder größer als die erste Trefferrate sein kann und 2,5% der Retest-Trefferraten unterhalb sowie 2,5% der Retest-Trefferraten oberhalb des 95%-Konfidenzintervalls um die erste Trefferrate liegen. Zur Berechnung des 95%-Konfidenzintervalls existieren in der Literatur unterschiedliche Methoden, von denen zwei (Thornton und Raffin [5] und Altman et al. [12]) in der vorliegenden Arbeit betrachtet werden. Beide Methoden werden zunächst reproduziert und dann für die vorliegenden Messdaten mit n=20 bzw. n=40 Worten pro Testliste (d.h. einfache Testlisten und Doppellisten) angewendet. Danach werden Modifikationen dieser Methoden vorgestellt, die die Variabilität des Einzelwortverstehens sowie die Variabilität des mittleren Verstehens der unterschiedlichen Testlisten berücksichtigen.

Methode 1: Kritische Differenzen nach Thornton und Raffin

Thornton und Raffin [5] schlugen die Berechnung eines 95%-Konfidenzintervalls zur Beurteilung der Test-Retest-Reliabilität nach folgender Methode vor: Die Anzahl X richtiger Antworten bei n angebotenen Worten einer Liste wird als Zufallsgröße angesehen. Sie wird als binomialverteilt nach B(n,p,X=k) angenommen. Dabei ist p die Wahrscheinlichkeit dafür, dass ein Wort der Liste richtig verstanden wird. Hier und im Folgenden werden Wahrscheinlichkeiten in Prozent angegeben. Der Erwartungswert von X ist somit F1_in text. Das Sprachverstehen in Prozent (Trefferrate) ist mit diesen Bezeichnungen die Zufallsgröße F2_in text. Ihr Erwartungswert beträgt E(pmess)=p, ihre Varianz ist F3_in text. Diese Varianz nimmt ihr Maximum bei p=50% an. An den Rändern bei p=0 und p=100% ist die Varianz Null.

Für die Test-Retest-Reliabilität ist die Abschätzung eines Konfidenzintervalls für die Differenz pmess1pmess2 zweier Trefferraten von Interesse. Dazu werden die Zufallsgrößen X1 und X2 zunächst (nach Gleichung 3 in [5]) gemäß Gleichung 1 in einen Winkelbereich θ(X,n) transformiert.

Gleichung 1

F4_Gleichung 1

Die so definierte Zufallsgröße θ hat näherungsweise eine von p unabhängige Varianz Var(θ). Thornton und Raffin [5] wählten die Näherungen F5_in text a für n≥50 bzw. F5_in text b für 10<n<50. Die beiden Zufallsgrößen θ1=θ(X1,n) und θ2=θ(X2,n) haben im Rahmen dieser Näherung die gleiche Varianz Var(θ). Unter der Annahme, dass θ1 und θ2 statistisch unabhängig sind, ist die Varianz der Zufallsgröße Δθ=θ1θ2 die Summe der Varianzen, also Var(Δθ)=2Var(θ) . Für Δθ wird nun eine Normalverteilung mit der Varianz 2Var(θ) angenommen. Das 95%-Konfidenzintervall für θ2 bei einer Trefferrate pmess1 ergibt sich somit zu F6_in text. Die so berechneten θ2-Grenzen des 95%-Konfidenzintervalls werden zu X2-Grenzen zurücktransformiert, um dann die entsprechenden pmess2 -Grenzen zu erhalten.

Bezeichnen also F7_in text a und F7_in text b die Trefferrate in der Test- und in der Retest-Messung, so kann diese Methode wie folgt zusammengefasst werden:

Gleichung 2

F8_Gleichung 2


Gleichung 3

F9_Gleichung 3


mit

Gleichung 4

F10_Gleichung 4

Diese Grenzen wurden für alle interessierenden Trefferraten pmess1 zwischen 0 und 100% berechnet. Die Berechnung der Umkehrfunktion X=θ–1(θ, n) von Gleichung 1 erfolgte dabei numerisch.

Methode 2: Kritische Differenzen nach Thornton und Raffin mit variablem Einzelwortverstehen

Sind die einzelnen Worte einer Liste unterschiedlich gut zu verstehen, genügt die gleiche Trefferwahrscheinlichkeit p für jedes Wort nicht mehr zur Beschreibung. Jedes Wort hat eine eigene Trefferwahrscheinlichkeit, und die Binomialverteilung wird durch die verallgemeinerte Binomialverteilung ersetzt [10]. Um die Verschmälerung der Verteilung von X bei der verallgemeinerten Binomialverteilung gegenüber der einfachen Binomialverteilung zu berücksichtigen, soll nun in der Berechnung im θ-Bereich die Varianz von θ zu F11_in text a anstelle von F11_in text b angenommen werden. Der Wert für n' wurde aus [2], [3] übernommen, also n'=29 für n=20 und n'=58 für n=40. Die Methode 2 wird somit durch die Gleichung 2 und Gleichung 3 mit

Gleichung 5

F12_Gleichung 5

anstelle von Gleichung 4 beschrieben.

Methode 3: Kritische Differenzen nach Altmann et al. mit variablem Einzelwortverstehen

Altman et al. [12] empfehlen einen Ansatz, der der Methode 10 von [13] entspricht. Diese Methode wird hier zunächst unverändert vorgestellt. Danach wird sie modifiziert, um die Variabilität des Wortverstehens innerhalb einer Liste zu berücksichtigen.

Liegt eine Trefferrate pmess für eine einzelne Testliste vor, kann nach dem 95%-Konfidenzintervall für den wahren Wert p gefragt werden. Wilson [14] machte dazu den folgenden Ansatz:

Gleichung 6

F13_Gleichung 6

mit z=1,96. Dies ist eine quadratische Gleichung für p. Ihre beiden Lösungen u und o geben die untere bzw. die obere Grenze für das gesuchte Konfidenzintervall an (siehe [2], [3]). Liegen zwei Trefferraten pmess1 und pmess2 vor, so ergeben sich die zugehörigen Untergrenzen u1 und u2 sowie die Obergrenzen o1 und o2. Nach [12] wird die Signifikanz der Differenz pmess1pmess2 wie folgt beurteilt: Wenn die erste Trefferrate pmess1 größer ist als die zweite Trefferrate pmess2, dann muss die Differenz pmess1pmess2 der beiden Trefferraten größer sein als

Gleichung 7

F14_Gleichung 7,

um auf dem 5%-Niveau signifikant unterschiedlich zu sein. Zur Berechnung des 95%-Konfidenzintervalls für die Differenz zwischen den beiden Trefferraten werden also die Varianz für die obere Trefferrate nach unten und die Varianz für die untere Trefferrate nach oben addiert. Für den anderen Fall, dass nämlich die zweite Trefferrate größer ist als die erste Trefferrate, muss die Differenz pmess2pmess1 entsprechend größer sein als

Gleichung 8

F15_Gleichung 8

Dieses Verfahren liefert für jeden der interessierenden Werte von pmess1 zwischen 0 und 100 % ein 95%-Konfidenzintervall für die Differenz pmess2pmess1. Bei gegebenem pmess1 (Test) liegt pmess2 (Retest) mit einer Wahrscheinlichkeit von 95% zwischen pmess1–δu und pmess1o. Die sechs Gleichungen, d.h. die Gleichungen für u1, u2, o1 und o2 sowie die Gleichung 7 und Gleichung 8, müssen für gegebenes pmess1 gelöst werden. Geschlossene Lösungen lassen sich nicht angeben, daher wurden sie numerisch durch Fixpunktiteration gelöst.

Die bisher beschriebene Berechnungsmethode geht von gleichem Einzelwortverstehen innerhalb einer Testliste aus. Die Variabilität des Einzelwortverstehens führt wie schon für Methode 2 beschrieben zu einer Verkleinerung der Varianz F16_in text auf der rechten Seite von Gleichung 6. Hier soll dies durch die Ersetzung von n durch n' berücksichtigt werden. Dabei wird der Wert für n' wieder aus [2], [3] übernommen, also n'=29 anstelle von n=20 und n'=58 anstelle von n=40.

Methode 4: Kritische Differenzen nach Altmann et al. mit variablem Einzelwortverstehen und variablem Testlistenverstehen

Ausgehend von variablem Einzelwortverstehen unter gleichen Bedingungen variiert bei einem Sprachtest der Mittelwert zwischen den Testlisten aufgrund der unterschiedlichen Wortzusammensetzungen der Testlisten. Wäre für jede Testliste der Testlistenmittelwert unter gegebenen Messbedingungen genau ermittelbar, hätte dieser Mittelwert daher eine Varianz fn2. Diese hängt von der Anzahl n der Wörter pro Testliste sowie vom wahren Wert p ab. Die Varianz trägt zur Unsicherheit des wahren Wertes von p in Gleichung 6 bei. Wird also in dieser Gleichung sowohl das variable Einzelwortverstehen (Ersetzung von n durch n') als auch das variable Testlistenverstehen (Addition von fn2 zur Varianz von p) berücksichtigt, wird der Ansatz von Gleichung 6 zu:

Gleichung 9

F17_Gleichung 9

mit z=1,96. Wenn die Varianz fn2 bekannt ist, können die weiteren Schritte der Methode nach [12], wie für Methode 3 beschrieben, durchgeführt werden.

Zur Ermittlung von fn2 wird die Stichprobenvarianz der gemessenen Testlistenmittelwerte berechnet. Betrachtet werden nL Testlisten aus je n Wörtern mit dem Einzelwortverstehen pji, i=1…n, j=1…nL. Die Trefferrate der Testliste j ist damit der Mittelwert F18_in text . Mit den über alle Wörter in allen Testlisten gemittelten Trefferraten

Gleichung 10

F19_Gleichung 10

ist dann fn2 die Stichprobenvarianz der Testlistenmittelwerte gemäß:


Gleichung 11

F20_Gleichung 11.

Die Varianz des Einzelwortverstehens ist

Gleichung 12

F21_Gleichung 12.

Zwischen der Varianz des Verstehens eines einzelnen Wortes und der Varianz der Mittelwerte aus n zufällig zu Testlisten zusammengestellten Einzelwörtern besteht die Beziehung

Gleichung 13

F22_Gleichung 13.

Die Abbildung 1 [Abb. 1] zeigt, dass diese Beziehung im Mittel für zufällig aus den Wörtern des FBE zusammengestellte Testlisten mit n=1, 20, 40 erfüllt ist. Die dargestellten Varianzen wurden aus 106 Realisierungen von zufällig zusammengestellten Testlisten gemittelt. Sie zeigt aber auch, dass die Varianzen der konkreten Testlisten des FBE deutlich von dem mittleren Ergebnis einer zufälligen Wortzusammenstellung abweichen. Darüber hinaus zeigt Abbildung 1 [Abb. 1] erwartungsgemäß, dass fn2 in der Nähe von p=0% (fast kein Wort wird verstanden) und p=100% (fast alle Wörter werden verstanden) kleiner ist als im mittleren Bereich um p=50%. Der genaue Verlauf von fn2 als Funktion von p ist nicht bekannt. Als Ansatz wird hier eine Parabel

Gleichung 14

F23_Gleichung 14,

mit einem noch zu bestimmenden Parameter c2 gewählt, so dass sich Gleichung 9 als

Gleichung 15

F24_Gleichung 15

mit

Gleichung 16

F25_Gleichung 16

schreiben lässt. Wird also in der Methode 3 die Gleichung 6 durch Gleichung 15 ersetzt, dann werden sowohl die Variabilität des Einzelwortverstehens als auch die Variabilität der Testlistenmittelwerte berücksichtigt.

Der Parameter c2 wurde aus dem gemessenen Einzelwortverstehen pji wie folgt berechnet. Für jeden der vier verwendeten Pegel werden der Mittelwert F26_in text des Einzelwortverstehens nach Gleichung 10 und die Varianz fn2 nach Gleichung 11 berechnet. Die Werte der vier Paare F26-2_in text hängen von der Auswahl und von der Wortzusammenstellung der zugrunde liegenden Testlisten sowie von ihrer Länge n ab. An die vier Wertepaare F26-2_in text wird nach der Methode der kleinsten Quadrate eine Parabel F27_in text angepasst. Dies liefert den gesuchten Wert für c2. Drei der so resultierenden Parabeln sind in der Abbildung 1 [Abb. 1] eingezeichnet. Mit dem nun bekannten Wert für c2 wird die effektive Listenlänge ñ mit Hilfe von Gleichung 16 berechnet. Die Tabelle 2 [Tab. 2] zeigt die Ergebnisse für n=20 und für n=40. Da der FBE 20 Wörter pro Liste hat, wurden für die Berechnungen mit n=40 alle Kombinationen aus Paaren unterschiedlicher Listen berücksichtigt.

Methode 5: Kritische Differenzen nach Thornton und Raffin mit variablem Einzelwortverstehen und variablem Listenverstehen

Durch die Berücksichtigung der Einzelwortvariabilität verringert sich die Varianz von Gleichung 4 zu Gleichung 5. Es liegt also nahe, die Variabilität des Listenverstehens durch die Ersetzung von Gleichung 5 durch

Gleichung 17

F28_Gleichung 17

zu modellieren.

Kritische Differenzen bei einseitiger Fragestellung

Bisher wurde das 95%-Konfidenzintervall bei zweiseitiger Fragestellung betrachtet. Bei der Anwendung des FBE in der Hörgeräteanpassung wird jedoch vorausgesetzt, dass Hörgeräte das Sprachverstehen verbessern, dass also bei der zweiten Messung (mit Hörgerät) eine höhere Trefferrate erreicht wird als bei der ersten Messung (ohne Hörgerät). Der statistische Test zur Ermittlung eines signifikanten Unterschieds zwischen den beiden Trefferraten würde dann untersuchen, ob die Irrtumswahrscheinlichkeit für die Hypothese, dass die zweite Trefferrate größer als die erste Trefferrate ist, kleiner als 5% ist. Das entspricht der Grenze des 90%-Konfidenzintervalls. Dies kann mit den gleichen fünf Methoden berechnet werden, indem z=1,96 durch z=1,645 ersetzt wird. Obwohl die Fragestellung einseitig ist, werden die Grenzen des 90%-Konfidenzintervalls für die zweite Trefferrate der Vollständigkeit halber symmetrisch um die erste Trefferrate angegeben.

Kritische Differenzen im Pegelbereich

Mit dem FBE wird das Sprachverstehen für einen gegebenen Sprachpegel bestimmt und das Konfidenzintervall für die Trefferraten angegeben. Die adaptiven Verfahren wie der Oldenburger Satztest (OLSA, [15]) oder der Göttinger Satztest [16] ermitteln dagegen das Signal-Rausch-Verhältnis oder den Sprachpegel für ein gegebenes Sprachverstehen von zumeist 50% oder auch 80% (Speech Recognition Threshold, SRT). Die Genauigkeit der Satzteste beim SRT wird mit ca. ±1 dB ([17], [18]) angegeben. Zum Vergleich wurden die mit Methode 5 berechneten Konfidenzintervalle für die Trefferrate p in Konfidenzintervalle für den Sprachpegel L umgerechnet. Dazu wurde die in [18] gegebene Diskriminationsfunktion nach dem Sprachpegel aufgelöst:

Gleichung 18

F29_Gleichung 18

Für den Pegel L50 bei einer Trefferrate von 50% und die Steigung s50 in diesem Punkt wurden die in [11] angegebenen medianen Werte L50=24,7 dB und s50=0,045/dB verwendet.


Ergebnisse

Vergleich der Berechnungsmethoden

Abbildung 2 [Abb. 2] zeigt einen Vergleich der Methoden 1–5 für das 95%-Konfidenzintervall der zweiten Trefferrate pmess2 bei gegebenem Ergebnis für die erste Trefferrate pmess1. Die Grenzen nach Methode 1, die auf dem gleichen Wortverstehen für jedes Wort einer Liste beruht, liegen am weitesten außen, geben also das breiteste 95%-Konfidenzintervall an. Durch die Einbeziehung unterschiedlichen Wortverstehens in den Methoden 2 und 3 werden die 95%-Konfidenzintervalle schmaler, die Kurven liegen am weitesten innen. Im letzten Schritt wurde für die Methoden 4 und 5 die Varianz der Testlisten berücksichtigt, so dass die 95%-Konfidenzintervalle wieder weiter außen liegen und nahezu mit Methode 1 zur Deckung kommen. Zwischen den Ergebnissen der Berechnungsvarianten nach [5] und [12] bestehen nur geringe Unterschiede. Dies zeigen die Vergleiche der Grenzen aus den Methoden 2 und 3 sowie aus den Methoden 4 und 5.

Trefferraten des FBE sind bei 20 Wörtern pro Liste nur in Abständen von 5% möglich. Deshalb ist es sinnvoll, die Grenzen der 95%-Konfidenzintervalle konservativ auf Vielfache von 5% zu runden. Diese Grenzen für n=20 sind in Tabelle 3 [Tab. 3] angegeben. In Tab. A. 1 im Anhang 1 [Anh. 1] befinden sich die entsprechenden Grenzen für n=40. Durch die Rundungen werden die Unterschiede zwischen den Methoden z.T. vergrößert. Sie betragen jedoch sowohl für n=20 als auch für n=40 höchstens 5%. Die einzige Ausnahme davon ist die Differenz zwischen den Methoden 1 und 3 bei p=75% für die untere Grenze und p=25% für die obere Grenze bei n=20. Die Differenz nimmt hier einen Wert von 10% an.

Für die Methoden 4 und 5 sind in Tabelle 3 [Tab. 3] und Tab. A. 1 im Anhang 1 [Anh. 1] zwei Varianten angegeben. Bei der Einbeziehung von allen 20 Listen (Bezeichnungen 4 bzw. 5) wurde ñ=21,4 verwendet (siehe Tabelle 2 [Tab. 2]). Durch Streichen der Listen 5, 11, 12 und 15, d.h. nur mit 16 Listen, erhöht sich die effektive Listenlänge auf ñ=24,4. Die entsprechenden Grenzen sind in den Spalten 4/16 bzw. 5/16 angegeben. Durch das Weglassen der vier Listen reduziert sich die Varianz der Testlisten, so dass die 95%-Konfidenzintervalle etwas schmaler werden.

Vergleich mit Messdaten

Die prozentualen Anteile der Messergebnisse außerhalb der 95%-Konfidenzintervalle sind in Tabelle 1 [Tab. 1] angegeben. Das Ziel, dass 5% der Messdaten außerhalb des Konfidenzintervalls liegen sollten, wird von Methode 1 sowohl für Normalhörende (NH) als auch für Schwerhörige (SH) und bei Verwendung von 20 oder 40 Wörtern pro Liste annähernd erreicht. Jedoch berücksichtigt Methode 1 weder die Unterschiede im Verstehen der Wörter noch diejenigen zwischen den Testlisten und überschätzt tendenziell die Breite des Konfidenzintervalls. Für die Methoden 2 und 3, die die Unterschiede im Wortverstehen berücksichtigen, liegen ca. 9% der Messwerte außerhalb des 95%-Konfidenzintervalls. Die angegebenen Grenzen sind also zu schmal. Die Methoden 4 und 5 berücksichtigen im Gegensatz zu den Methoden 2 und 3 die Variabilität der Testlisten und erreichen das 5%-Ziel in den verschiedenen Messdatenvarianten für alle 20 Testlisten bis auf eine maximale Abweichung von 0,5% und für die 16 Testlisten bis auf eine maximale Abweichung von 1,1% für Schwerhörige mit Doppellisten.

Abbildung 3 [Abb. 3] zeigt die Messdaten zusammen mit den kritischen Differenzen nach Methode 5. Für eine Trefferrate von 50% liegt das 95%-Konfidenzintervall zwischen 25% und 75% (siehe Tabelle 3 [Tab. 3], Spalten „5“). Bei Verwendung von Doppellisten (n=40) reduziert sich das 95%-Konfidenzintervall auf den Bereich zwischen 30% und 70% (siehe Anhang 1 [Anh. 1] Tab. A. 1, Spalten „5“).

Einseitige Fragestellung

Im Anhang 1 [Anh. 1] sind in Tab. A. 2 und Tab. A. 3 die gerundeten 90%-Konfidenzintervalle für n=20 und n=40 für alle Methoden angegeben. Den Prozentsatz der Daten außerhalb dieser Konfidenzintervalle für NH und SH für alle Varianten zeigt Tabelle 4 [Tab. 4]. Das Kriterium für die Güte der Berechnungsmethode ist hierbei, dass 10% der Daten außerhalb des berechneten Konfidenzintervalls liegen. Die Ergebnisse entsprechen qualitativ denjenigen in Tabelle 1. [Tab. 1] Während die Grenzen nach Methode 1 tendenziell zu breit sind, so dass weniger als 10% der Daten außerhalb des 90%-Konfidenzintervalls liegen, fassen die Methoden 2 und 3 das Intervall zu eng. Mit den Methoden 4 und 5 können die Messergebnisse für Normalhörende und Schwerhörige besser als mit den Methoden 2 und 3 angenähert werden.

Abbildung 4 [Abb. 4] zeigt entsprechend die Messdaten zusammen mit dem 90%-Konfidenzintervall für Methode 5. Für n=20 umfasst das 90%-Konfidenzintervall bei einer Trefferrate von 50% nach Methode 5 den Bereich zwischen 30% und 70% (siehe Anhang 1 [Anh. 1] Tab. A. 2). Bei Verwendung von Doppellisten (n=40) reduziert sich das 90%-Konfidenzintervall an dieser Stelle auf den Bereich zwischen 35% und 65% (siehe Anhang 1 [Anh. 1] Tab. A. 3).

Kritische Differenzen im Pegelbereich

Zum Vergleich mit der Genauigkeit von Satztestverfahren sind in Tabelle 5 [Tab. 5] die Grenzen der Konfidenzintervalle im Pegelbereich bei einem Sprachverstehen von 50% und von 80% für einzelne Listen (n=20) und Doppellisten (n=40) angegeben. Die Konfidenzintervalle sind für n=40 schmaler im Vergleich zu n=20 und für das 90%-Konfidenzintervall schmaler im Vergleich zum 95%-Konfidenzintervall. Bei einem Sprachverstehen von 80% sind die Konfidenzintervalle breiter als bei einem Sprachverstehen von 50%. Die Breite der Konfidenzintervalle reicht von ±4,0 dB für n=40 bei einem Sprachverstehen von 50% (90%-Konfidenzintervall) bis zu ±11,3 dB für n=20 bei einem Sprachverstehen von 80% (95%-Konfidenzintervall).


Diskussion

Mit der Annahme eines Bernoulli-Experiments für das Sprachverstehen mit unterschiedlichem Wortverstehen innerhalb der Testlisten wurden mit Hilfe der verallgemeinerten Binomialverteilung die 90%- und die 95%-Konfidenzintervalle modelliert. Die Methoden von Thornton und Raffin [5] und Altman et al. [12] führten dabei zu ähnlichen Ergebnissen. Diese beiden Methoden wurden durch zusätzliche Berücksichtigung der Testlistenvarianz erweitert. Damit erfüllen sie die Kriterien, dass ca. 5% bzw. 10% der Messdaten außerhalb der Grenzen der berechneten Konfidenzintervalle liegen.

Je nach Variante (einzelne Listen oder Doppellisten, 90%- oder 95%-Konfidenzintervall, alle 20 oder nur 16 ausgewählte Testlisten) haben die Konfidenzintervalle bei einer Trefferrate für die erste Messung pmess1=50% eine Breite von ±15% bis ±25%. Die Hilfsmittelrichtlinie [4] fordert eine Verbesserung von mindestens 20 Prozentpunkten für eine Hörgeräteversorgung im Vergleich zur unversorgten Messung. Bei einer Trefferrate von pmess1=50% für die erste Messung ist eine Verbesserung um 20 Prozentpunkte in der zweiten Messung nur bei Nutzung von Doppellisten statistisch signifikant. Bei Verwendung von 20 Wörtern pro Liste ist eine Erhöhung der Trefferrate um 20 Prozentpunkte durch die Hörgeräte statistisch nicht signifikant, da die Irrtumswahrscheinlichkeit für die Entscheidung, dass durch die Hörgeräte das Sprachverstehen verbessert wird, bei mehr als 5% liegt. Damit aus einem Unterschied von 20 Prozentpunkten eine signifikante Verbesserung gefolgert werden kann, müsste sowohl die unversorgte als auch die versorgte Kondition mit Doppellisten ermittelt werden. Bei Verwendung von Einzellisten kann erst ab einer Trefferrate für die erste Messung von 75% eine Verbesserung um 20 Prozentpunkte in der zweiten Messung als signifikant unterschiedlich angesehen werden.

Zur Reduktion der Konfidenzgrenzen könnte auf die Nutzung derjenigen vier Testlisten, die in Baljic et al. [11] auffällig waren, verzichtet werden, sodass sich die Testlistenvarianz verringert. Allerdings besteht keine Gewähr dafür, dass bei SH, in anderen deutschsprechenden Regionen oder in anderen Messkonfigurationen (z.B. im Störgeräusch), die gleichen vier Testlisten zu auffällig abweichenden Trefferraten führen. Ein Indiz für Abweichungen in den auffälligen Testlisten könnte sein, dass die aus den Messdaten der 16 ausgewählten Listen für die Gruppe der SH ermittelten Konfidenzintervallgrenzen tendenziell etwas zu weit gefasst sind, so dass geringfügig weniger als die angestrebten 5% bzw. 10% der Messdaten außerhalb der Konfidenzintervalle liegen. Auch bei Verwendung aller 20 Testlisten kann die Testlistenvarianz, die zur Modellierung aus den Messdaten der NH gewonnen wurde, bei verschiedenen Probandengruppen oder Messkonfigurationen unterschiedlich sein und zu schmaleren oder breiteren Konfidenzintervallen führen. Für die Messdaten der SH konnte jedoch die Aussage von Dillon [9] bestätigt werden, dass SH die gleiche Test-Retest-Reliabilität aufweisen wie Normalhörende.

Der Vergleich der Messergebnisse mit den modellierten Konfidenzgrenzen bestätigt ebenfalls die Schlussfolgerung von Dillon [9], dass die Grenzen von Thornton und Raffin [5] nach Methode 1, also bei Verwendung der einfachen Binomialverteilung, relativ gut die gemessene Test-Retest-Reliabilität nachbilden können. Diese Grenzen wurden bereits für den FBE von Winkler und Holube [7] für n=20 angegeben. Durch die Verwendung der allgemeinen Binomialverteilung bei den Methoden 2 und 3 werden die Konfidenzintervalle schmaler, nach Berücksichtigung der Testlistenvarianz bei den Methoden 4 und 5 jedoch wieder breiter, so dass annähernd die Grenzen von Methode 1 erreicht werden. Dabei ist jedoch zu berücksichtigen, dass die von Dillon [9] diskutierte Variabilität zwischen den Probanden in der vorliegenden Untersuchung nicht integriert wurde. Ein möglicher Grund für die Vernachlässigbarkeit der Probandenvarianz könnte der Vergleich mit Wiederholungsmessungen zum gleichen Termin sein, so dass nur die Kurzzeit-Reliabilität für Test und Retest überprüft wurde. Diese vermutlich kleine intraindividuelle Varianz der Probanden innerhalb eines Termins liegt möglicherweise unterhalb der Testlistenvarianz, so dass sie hier vernachlässigt werden kann. Nicht untersucht wurde die Reliabilität über einen längeren Zeitraum, d.h. über mehrere Termine, die sich durch die variable Tagesform der Probanden ändern könnte. Ein anderer Erklärungsansatz für die Vernachlässigbarkeit der Probandenvarianz könnte darin liegen, dass individuelle Unterschiede nicht genügend berücksichtigt wurden [9]: Zur Modellierung der verallgemeinerten Binomialverteilung wurden nur die Mittelwerte im Sprachverstehen für die einzelnen Wörter verwendet. Für einzelne Probanden kann sich das Sprachverstehen der Wörter noch deutlicher unterscheiden, so dass die Methoden 2 und 3 zu noch schmaleren Konfidenzintervallen führen würden. Dann wäre eine zusätzliche Varianzquelle, z.B. die intraindividuelle Varianz, notwendig, um die zu den Messdaten passenden Konfidenzintervalle zu modellieren.

Zum Vergleich mit den Satztestverfahren wurden die Konfidenzintervalle von Methode 5 für Trefferraten von 50% und 80% in Konfidenzintervalle für den Sprachpegel transformiert. Bei Verwendung von Einzellisten (n=20) bei einem Sprachverstehen von 50% hat das 90%-Konfidenzintervall eine Breite von ±6 dB. Das Konfidenzintervall für den FBE ist damit wesentlich breiter als die Konfidenzintervalle für die adaptiven Satzteste mit ca. ±1 dB ([17], [18]). Hörgeräte müssten den Sprachpegel für ein Sprachverstehen von 50% um mehr als 6 dB verbessern, um einen signifikanten Effekt zu erzielen. Wenn das Hörgerät den Sprachpegel z.B. nur um 3 dB verbessern würde, dann würden die Satzteste zwar zu einem signifikanten Unterschied und damit zu einem Wirksamkeitsunterschied führen, jedoch nicht der FBE. Dieses Ziel von einer Verbesserung um mehr als 6 dB erscheint für das Sprachverstehen in Ruhe leicht erreichbar. Ob jedoch diese Anforderung auf eine Verbesserung von 6 dB im Signal-Rausch-Verhältnis für den FBE im Störgeräusch übertragen werden kann, ist noch ungeklärt. Im Störgeräusch werden zwar die gleichen Listen mit n=20 bzw. n=40 Wörtern verwendet, die Varianz im Wortverstehen und im Listenverstehen kann sich jedoch von dem FBE in Ruhe unterscheiden, so dass sich abweichende Konfidenzgrenzen ergeben können.


Schlussfolgerungen

  • Kritische Differenzen können allein aus der Anzahl der Messitems mit Methode 1 von Thornton und Raffin relativ gut abgeschätzt werden.
  • Bei weiteren Kenntnissen über den Sprachtest zur Verteilung des Verstehens einzelner Items und der Varianz der Testlisten bieten die Methoden 4 und 5 eine genauere Modellierung der Test-Retest-Reliabilität.
  • Bei Publikation von Sprachtestergebnissen sollten die Konfidenzintervallgrenzen immer mit angegeben werden. Dabei ist zu beachten, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt.

Anmerkungen

Interessenkonflikte

Die Autoren erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.

Danksagung

Die Untersuchungen wurden vom Promotionsprogramm Jade2Pro der Jade Hochschule sowie aus dem Projekt VIBHear mit Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE) und Mitteln des Landes Niedersachsen gefördert.


Literatur

1.
Hahlbrock KH. Uber Sprachaudiometrie und neue Wörterteste [Speech audiometry and new word-tests]. Arch Ohren Nasen Kehlkopfheilkd. 1953;162(5):394-431. DOI: 10.1007/BF02105664 Externer Link
2.
Holube I, Winkler A, Nolte-Holube R. Modellierung der Reliabilität des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung. Z Audiol. 2018;57(1):6-17.
3.
Holube I, Winkler A, Nolte-Holube R. Modeling the reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution. Does the Freiburg monosyllabic speech test contain 29 words per list? GMS Z Audiol (Audiol Acoust). 2020;2:Doc01. DOI: 10.3205/zaud000005 Externer Link
4.
Gemeinsamer Bundesausschuss. Richtlinie des gemeinsamen Bundesausschusses über die Verordnung von Hilfsmitteln in der vertragsärztlichen Versorgung. Hilfsmittelrichtlinie. 2018 [accessed 13. Dezember 2018]. Available from https://www.g-ba.de/downloads/62-492-1666/HilfsM-RL_2018-07-19_iK-2018-10-03.pdf Externer Link
5.
Thornton AR, Raffin MJ. Speech-discrimination scores modeled as a binomial variable. J Speech Hear Res. 1978 Sep;21(3):507-18. DOI: 10.1044/jshr.2103.507 Externer Link
6.
Carney E, Schlauch RS. Critical difference table for word recognition testing derived using computer simulation. J Speech Lang Hear Res. 2007 Oct;50(5):1203-9. DOI: 10.1044/1092-4388(2007/084) Externer Link
7.
Winkler A, Holube I. Test-Retest-Reliabilität des Freiburger Einsilbertests [Test-retest reliability of the Freiburg monosyllabic speech test]. HNO. 2016 Aug;64(8):564-71. DOI: 10.1007/s00106-016-0166-2 Externer Link
8.
Steffens T. Test-Retest-Differenz der Regensburger Variante des OLKI-Reimtests im sprachsimulierenden Störgeräusch bei Kindern mit Hörgeräten. Z Audiol. 2006;45(3):88-99.
9.
Dillon H. A quantitative examination of the sources of speech discrimination test score variability. Ear Hear. 1982 Mar-Apr;3(2):51-8. DOI: 10.1097/00003446-198203000-00001 Externer Link
10.
Hagerman B. Reliability in the determination of speech discrimination. Scand Audiol. 1976;5:219-28. DOI: 10.3109/01050397609044991 Externer Link
11.
Baljić I, Winkler A, Schmidt T, Holube I. Untersuchungen zur perzeptiven Äquivalenz der Testlisten im Freiburger Einsilbertest [Evaluation of the perceptual equivalence of test lists in the Freiburg monosyllabic speech test]. HNO. 2016 Aug;64(8):572-83. DOI: 10.1007/s00106-016-0192-0 Externer Link
12.
Newcombe RG, Altman DG. Proportions and Their Differences. In: Altman DG, Machin D, Bryant TN, Gardner MJ, editors. Statistics with Confidence: Confidence Intervals and Statistical Guidelines. 2nd Edition. London: British Medical Journal Books; 2000. p. 45-56.
13.
Newcombe RG. Interval estimation for the difference between independent proportions: comparison of eleven methods. Stat Med. 1998 Apr;17(8):873-90. DOI: 10.1002/(sici)1097-0258(19980430)17:8<873::aid-sim779>3.0.co;2-i Externer Link
14.
Wilson EB. Probable Inference, the Law of Succession, and Statistical Interference. J Am Stat Assoc. 1927;22(158):209-12. DOI: 10.1080/01621459.1927.10502953 Externer Link
15.
Wagener KC, Kühnel V, Kollmeier B. Entwicklung und Evaluation eines Satztests für die deutsche Sprache I: Design des Oldenburger Satztests. Z Audiol. 1999a;38:4-15.
16.
Kollmeier B, Wesselkamp M. Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment. J Acoust Soc Am. 1997 Oct;102(4):2412-21. DOI: 10.1121/1.419624 Externer Link
17.
Wagener KC, Brand T. Sentence intelligibility in noise for listeners with normal hearing and hearing impairment: influence of measurement procedure and masking parameters. Int J Audiol. 2005 Mar;44(3):144-56. DOI: 10.1080/14992020500057517 Externer Link
18.
Brand T, Kollmeier B. Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests. J Acoust Soc Am. 2002 Jun;111(6):2801-10. DOI: 10.1121/1.1479152 Externer Link