gms | German Medical Science

GMS Zeitschrift für Audiologie — Audiological Acoustics

Deutsche Gesellschaft für Audiologie (DGA)

ISSN 2628-9083

Implementierung und Evaluation einer akustischen Raumsimulation für audiologische Testungen

Originalarbeit

Suche in Medline nach

  • corresponding author Anja Eichenauer - Audiologische Akustik, Klinik für HNO-Heilkunde, Universitätsklinikum Frankfurt am Main, Deutschland
  • Uwe Baumann - Audiologische Akustik, Klinik für HNO-Heilkunde, Universitätsklinikum Frankfurt am Main, Deutschland
  • Tobias Weißgerber - Audiologische Akustik, Klinik für HNO-Heilkunde, Universitätsklinikum Frankfurt am Main, Deutschland

GMS Z Audiol (Audiol Acoust) 2020;2:Doc06

doi: 10.3205/zaud000010, urn:nbn:de:0183-zaud0000108

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zaud/2020-2/zaud000010.shtml

Veröffentlicht: 11. September 2020

© 2020 Eichenauer et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

In alltäglichen Hörsituationen ist die akustische Kommunikation von verschiedenen, anspruchsvollen akustischen Umgebungen geprägt. In der Regel treten Nebengeräusche auf und zusätzlich wird der Schall in Räumen von Wänden und Gegenständen reflektiert. Reflexionen haben einen Einfluss auf die Diskrimination von Sprachinformationen, jedoch werden audiologische Routinemessungen weitgehend in Messkabinen mit geringer Nachhallzeit durchgeführt. Das Ziel dieser Arbeit war die Implementierung und Evaluation eines Raumsimulationssystems zur Untersuchung der Hörleistung in alltagsnahen Hörsituationen mit unterschiedlicher Raumakustik und Nachhall.

Mit Hilfe einer Raumsimulations-Software wurde die Schallausbreitung in Abhängigkeit der Raumgeometrie und der Raumakustik berechnet. Über ein Multikanal-Wiedergabesystem mit 128 Lautsprechern werden den Ergebnissen der Simulation folgend der Anteil des Direktschalls und der Raumreflexionen wiedergegeben. Somit können beliebige Räume unter realitätsnahen und kontrollierten akustischen Bedingungen im Labor rekonstruiert werden.

Das Verfahren wurde anhand eines Raummodells eines leeren Hörsaals für verschiedene Absorptionsgrade evaluiert. Technische Messungen der Nachhallzeit (RT) und des Deutlichkeitgrades (D50) zeigten gute Übereinstimmung mit den Modellvorgaben. Zusätzlich wurden interaurale Pegeldifferenzen (ILDs) aufgezeichnet und in Bezug zu Sprachverständlichkeitsschwellen gebracht. Es zeigte sich, dass die ILDs mit zunehmendem Nachhall um bis zu 10 dB abnehmen. Gleichzeitig ist im Vergleich zwischen Freifeld und Nachhallkondition eine Verschlechterung des spatial release from masking (SRM) um bis zu 5,5 dB SNR zu verzeichnen.

Die Untersuchung der Diskrimination von Sprache mittels des vorgestellten Raumsimulations-Systems erweist sich als sinnvolle Ergänzung zu etablierten audiologischen Messverfahren. Ein unter bestimmten raumakustischen Bedingungen erzieltes Sprachverstehen kann reproduzierbar und zuverlässig untersucht werden.

Schlüsselwörter: Raumsimulation, Nachhall, Sprachverstehen, räumliche Entmaskierung, SRM, interaural level difference, ILD


Einleitung

Im Alltag treten häufig komplexe Hörsituationen mit Nebengeräuschen auf. Zusätzlich wird in geschlossenen Räumen der Direktschall mit Nachhall überlagert. Typische Hörsituationen im Alltag sind beispielsweise ein Stimmgewirr vieler Sprecher in einem Restaurant, am Bahnhof oder im Supermarkt. Das Sprachverstehen hängt sehr stark von Anzahl und räumlicher Verteilung der Störgeräuschquellen ab [1]. Da in der Diagnostik und Therapie von Hörstörungen sowie bei der Anpassung und Kontrolle von Hörsystemen üblicherweise Testverfahren in akustisch optimierten Hörkabinen mit sehr niedriger Nachhallzeit durchgeführt werden, kann die tatsächliche Hörleistung im Alltag nicht abgebildet werden. Hier werden weiterhin nur ein bis zwei Schallquellen (Lautsprecher) eingesetzt, wodurch die möglichen Einfallsrichtungen von Nutz- (d.h. Sprache) und Störschall limitiert sind. Simulationsverfahren bieten die Möglichkeit, reale Hörsituationen nachzubilden um die Hörleistung von Menschen mit und ohne Hörminderung genauer untersuchen zu können [2], [3], [4].

Die Summe aller Reflektionen innerhalb eines abgegrenzten Raumes wird als Nachhall definiert [5]. Dabei wird die abgestrahlte akustische Information einer Schallquelle in geschlossenen Räumen von diesen Reflexionen überlagert. Das am Empfänger aufgenommene Signal lässt sich in Direktschall, frühe und späte Reflektionen einteilen. Frühe Reflexionen treten bis zu 50–80 ms nach der ersten Schallwelle auf und erweisen sich teilweise als nützlich für das Sprachverstehen, da sie als Verstärkung der Information des Direktschalls angesehen werden können [6]. Späte Reflexionen treten mit größerer Verzögerung auf und werden als diffuse „Hallfahne“ oder als separates Echo wahrgenommen und können zu einer Verschlechterung des Sprachverstehens führen. Die akustischen Eigenschaften eines Raumes werden durch verschiedene Maße wie z.B. Nachhallzeit (engl. „reverberation time“, RT), Deutlichkeitsmaß (C50), Klarheitsmaß (C80), Deutlichkeitsgrad (D50) oder Stärkemaß (G) ausgedrückt. Die Nachhallzeit beschreibt dabei die Zeit, die benötigt wird, bis der Schalldruckpegel eines Schalls auf ein Tausendstel seines Ausgangswertes (d.h. um 60 dB) gesunken ist. Das Deutlichkeitsmaß C50 beschreibt das Verhältnis zwischen der Schallenergie im Zeitraum bis 50 ms nach dem Direktschall und der Schallenergie ab dem Zeitpunkt 50 ms. Das Klarheitsmaß C80 ist definiert durch das Verhältnis zwischen der Schallenergie in der Zeit bis 80 ms nach dem Direktschall und der Schallenergie ab dem Zeitpunkt 80 ms. Der Deutlichkeitsgrad D50 beschreibt das Energieverhältnis zwischen den frühen Reflexionen der ersten 50 ms zur gesamten Schallenergie. Das Stärkemaß G setzt den Schallpegel einer kugelförmig abstrahlenden Schallquelle ins Verhältnis zum Pegel derselben Quelle in 10 m Abstand. Die genannten raumakustischen Kenngrößen werden unter anderem durch die Größe (d.h. Volumen) des Raumes und die akustischen Eigenschaften der Begrenzungsflächen wie Decken, Boden, Wänden, etc., beeinflusst.

Je nach akustischen Eigenschaften eines Raumes wird die zeitliche und spektrale Struktur des Quellsignals verändert. Die Überlagerung des Direktschalls mit Nachhall kann mit der Wirkung eines Störgeräusches verglichen werden und zusätzlich die Modulationstiefe des Nutzsignals verringern. Aufgrund der Abhängigkeit zwischen Raumgröße/-beschaffenheit und Sprachverstehen werden nach DIN 18041:2016-03 (Hörsamkeit in Räumen) geeignete Nachhallzeiten abhängig vom Volumen des Raumes empfohlen [7]. Je nach Art der Nutzung gibt es somit unterschiedliche Empfehlungen für Musik, Sprache, Unterricht, etc. Bei einem Raumvolumen von 1.000 bis 5.000 m³ liegen die optimalen Nachhallzeiten für Unterricht bei ca. 0,75 bis 1 s, bei inklusivem Unterricht hingegen sollte die Nachhallzeit bei angegebenem Raumvolumen 0,6 bis 0,8 s nicht überschreiten.

In dieser Arbeit wird die Weiterentwicklung eines bereits bestehenden Freifeldwiedergabesystems mit 128 Lautsprechern [8] für reproduzierbare, flexible und möglichst plausible Wiedergabe von Schallen in Räumen unterschiedlicher akustischer Beschaffenheit beschrieben. Die Evaluation beinhaltet die messtechnische Analyse raumakustischer Größen sowie von interauralen Pegelunterschieden in drei Nachhallkonditionen. Weiterhin soll der Einfluss von Nachhall auf das Sprachverstehen im Störgeräusch unter Betrachtung der räumlichen Entmaskierung (engl. „spatial release from masking“, SRM) bei normalhörenden Probanden untersucht werden.


Material und Methoden

Aufbau des Raumsimulations-Systems

Für den Aufbau des Simulationssystems stand am Schwerpunkt Audiologische Akustik der HNO Universitätsklinik Frankfurt am Main ein reflexionsarmer Raum zur Verfügung. Dieser Raum ist mit einem Wiedergabesystem mit 128 Lautsprechern (Rechteckarray in der Horizontalebene) ausgestattet, welches bisher entweder unter Freifeldbedingungen (z.B. [8], [9], [10]) oder zur richtungsunabhängigen Simulation von Diffusschall [11] genutzt wurde. Die bestehende Anlage wurde um eine Komponente zur Raumsimulation erweitert.

Raummodell

Für die Raumsimulation wurde in der Software ODEON (ODEON A/S, Lyngby, Dänemark) ein dreidimensionales Modell eines leeren Hörsaals (siehe Abbildung 1 [Abb. 1]) mit einem Raumvolumen von 3.520 m³ verwendet. Die Höhe des Raums beträgt 7,5 bis 10 m. Dieses Raummodell ist in der Software frei verfügbar (Dateiname: Example.par). In ODEON können Objekten und Wänden Absorptionseigenschaften bzw. spezifische Materialeigenschaften zugeordnet werden. Basierend auf der genannten Raumgeometrie wurden zwei Raummodelle mit unterschiedlichen Absorptionseigenschaften aller Raumflächen (d.h. Wände, Decke, Boden) erstellt. Die frequenzunabhängigen Absorptionsgrade betrugen 80% und 60%. Dabei entspricht 80% Absorption einer mittleren Nachhallzeit von 350 ms und 60% einer Nachhallzeit von 510 ms.

Es wurden drei Schallquellen im vorderen Halbraum der Horizontalebene bei –60°, 0° und 60° relativ zum Empfänger positioniert. Dabei hatte die frontale Schallquelle aus 0° einen Abstand von 5 m zur Hörposition, die seitlichen Schallquellen waren 10 m von der Hörposition entfernt. Abbildung 1 [Abb. 1] zeigt in der linken Abbildung eine Skizze der Raumgeometrie des Raumes mit drei Schallquellen und einem Empfänger.

Im Raummodell wurde die Schallausbreitung eines vom Sender richtungs- und frequenzunabhängig abgestrahlten Signals zu den Empfängern berechnet (Spiegelquellenmodell und „ray-radiosity-Verfahren“, [12]). Es wurden Reflexionen bis zur 10. Ordnung berücksichtigt und in einem Reflektogramm dargestellt. Für jede Reflektion beinhaltet das Reflektogramm die zeitliche Verzögerung der Reflektionen, die Oktavpegel zwischen 63 und 8.000 Hz, die horizontalen Schalleinfallswinkel sowie die vertikalen Schalleinfallswinkel. Abbildung 1 [Abb. 1] rechts zeigt grafisch die Schallausbreitung von Quelle P1 ausgehend. Der abgestrahlte Schall trifft bei seiner Ausbreitung mehrmals auf Raumbegrenzungen und wird wiederholt reflektiert. Der Direktschall wird in dunkelrot und Reflexionen erster Ordnung in grün dargestellt.

Raumsimulation

Basierend auf den mittels ODEON berechneten Reflektogrammen wurde die Raumsimulation im reflexionsarmen Raum realisiert. Abbildung 2 [Abb. 2] zeigt eine Skizze des Laborraums mit den Positionen der Schallquellen.

Es wurde das Verfahren des am nächsten gelegenen Lautsprechers angewendet [13], [14]. Dies bedeutet, dass bei der Wiedergabe für jede berechnete Reflexion der Lautsprecher mit dem geringsten Abstand im Horizontalwinkel gewählt wird. Reflexionen mit einem vertikalen Einfallswinkel größer als ±30° wurden nicht berücksichtigt, da es sich im Wiedergaberaum um eine horizontale Lautsprecheranordnung handelt. Während eine vollständige Integration (d.h. Mapping) aller Elevationswinkel auf die Horizontalebene einen vollständigen Erhalt der Reflexionsdichte der Erstreflexionen ermöglicht, führt diese Variante zu sehr deutlich hörbaren Klangverfärbungen. Als Kompromiss zwischen Reflexionsdichte und Klangverfärbung haben wir deshalb nach subjektiven Tests in Vorversuchen beschlossen, vertikale Einfallswinkel bis ±30° über die horizontalen Lautsprecher wiederzugeben. Basierend auf dem Reflektogramm wurde für jede Reflexion entsprechend ihrer zeitlichen Verzögerung und ihres Spektrums eine Impulsantwort generiert.

Im nächsten Schritt wurde jeder Reflexion der im Horizontalwinkel nächstliegende Lautsprecher zugeordnet und die Impulsantworten je Lautsprecher summiert. 80 ms nach dem Direktschall wurden späte Reflexionen mittels eines statistischen Modells (Feedback-Delay-Network, FDN, bezogen von den Quality & Usability Labs, Institut für Softwaretechnik und Theoretische Informatik, Technische Universität Berlin) als diffuser Nachhall eingeblendet. Hierzu wurde im Zeitfenster zwischen 80 ms und 120 ms nach Direktschall der RMS-Pegel aller generierten Reflexionen bestimmt. Der diffuse Hall wurde im Pegel an die zuvor generierten Reflexionen angepasst. Der diffuse Nachhall wurde unter Einbeziehung der frequenzabhängigen RT generiert und gleichermaßen auf alle 128 Kanäle eingeblendet. Zum Ausgleich der aufgrund der Rechteckanordnung individuellen Übertragungseigenschaften der Lautsprecher zur Raummitte (Amplitudenfrequenzgang und Laufzeit) wurde für jeden Lautsprecher individuell eine Entzerrung durchgeführt („finite impulse response“ (FIR) Filter).

Die generierte 128-kanalige Raumimpulsantwort („room impulse response“, RIR) wurde für die Schallwiedergabe mit dem gewünschten einkanaligen Audiosignal gefaltet. Die Darbietung des Raumklangs erfolgte simultan über alle 128 Lautsprecher. Es wurden RIRs beider Konditionen mit Nachhall, für je drei Direktschallpositionen (±60°, 0°) erzeugt. Abbildung 3 [Abb. 3] zeigt ein Flussdiagramm der Raumsimulation mit Direktschall, Erstreflexionen und diffusem Hall.


Evaluation des Raumsimulations-Systems

Um die Qualität der Simulation zu überprüfen, wurden im ersten Schritt RT und D50 messtechnisch ermittelt und mit den Modelldaten verglichen. Im zweiten Schritt wurde das System unter audiologischen Gesichtspunkten evaluiert, indem Sprachtests durchgeführt und die Ergebnisse einer Bewertung unterzogen wurden. Hierbei wurde der Einfluss der Nachhallzeit auf das Sprachverstehen und SRM untersucht. Zusätzlich wurden mit einem Kunstkopf aufgenommene kopfbezogene (engl. „head-related“) IRs (HRIRs) auf interaurale Pegeldifferenzen (engl. „interaural level differences“, ILDs) untersucht und in Relation zum SRM betrachtet.

Technische Evaluation

Material und Methode

Die RT und D50 wurden sowohl pro Oktavfrequenzband von 63 Hz bis 8.000 Hz als auch breitbandig gemittelt analysiert und mit den Berechnungen des Raummodells verglichen. Die Analyse erfolgte für eine Schallquelle bei 0°. Als Stimulus wurde ein Sinussweep (Frequenzbereich von 50 Hz bis 22.050 Hz) der Dauer 0,5 s genutzt. Die Messungen an der Hörposition erfolgte mit einem Messmikrofon vom Typ 4155 (Brüel & Kjær, Nærum, Dänemark) am Impedanzwandler 2.669 und Messverstärker Nexus des gleichen Herstellers. Die Impulsantworten wurden mit der Akustiksoftware ARTA (Artalabs, Kastel Luksic, Kroatien) untersucht.

Zusätzlich wurden die IRs am Kopf- und Rumpfsimulator (Brüel & Kjær Type 4100 mit Mikrofonen Type 4190-L-002) gemessen. Die Schalldarbietung erfolgte aus 60°. Aus den Ergebnissen der Messungen wurden ILDs abgeleitet. Alle Messungen wurden in beiden simulierten Konditionen mit Absorptionsgraden 60% und 80% und unter Freifeldbedingungen (d.h. ~100% Absorption) durchgeführt.

Ergebnisse

Für die Freifeldmessung ergab sich eine mittlere RT von 0,05 s. Die RT-Werte pro Oktavband sind für Messkondition 2 mit 80% Absorption und Messkondition 3 mit 60% Absorption in Tabelle 1 [Tab. 1] angegeben. Die durch das Modell mittels ODEON ermittelte RT lag in der Kondition mit 80% Absorption im Mittel über alle Frequenzen bei 0,35 s; für 60% Absorption bei 0,51 s. Die Messungen mit dem Simulationssystem im reflexionsarmen Raum ergaben bei 80% Absorption 0,39 s und bei 60% Absorption 0,58 s Nachhallzeit. Es zeigen sich die größten Abweichungen in den tieffrequenten Bändern, insbesondere im Bereich und unterhalb der Grenzfrequenz des reflexionsarmen Raumes (~200 Hz).

Tabelle 2 [Tab. 2] zeigt beispielhaft für Messkondition 2 (80% Absorption) und Messkondition 3 (60% Absorption) das D50-Maß pro Oktavfrequenz. Die D50 Werte lagen im Modell im Mittel über alle Frequenzen bei 95% und 91% (Kondition 2 und 3 entsprechend). In den Messungen ergaben sich 96% in Kondition 2 und 87% in Kondition 3. Ähnlich wie bei den RT-Werten liegen die größten Abweichungen im tieffrequenten Bereich. Mittels der am Kopf- und Rumpfsimulator aufgenommen HRIRs wurden für alle drei Konditionen ILDs berechnet. Abbildung 4 [Abb. 4] zeigt die ILDs als Funktion der Frequenz. In allen Konditionen liegt die höchste ILD bei ca. 4 kHz. Bis 4 kHz steigen die ILDs mit steigender Frequenz steil an, ab etwa 5 kHz sinken sie leicht und bleiben bis 10 kHz nahezu konstant. Je stärker der Nachhall, umso geringer ist die ILD. Zwischen Kondition 1 (Freifeldkondition) und Kondition 3 (starker Nachhall) liegt zwischen 3.000 Hz und 5.000 Hz ein ILD-Unterschied von bis zu 10 dB.

Sprachtests

Material und Methode

Das Sprachverstehen im Störgeräusch wurde an normalhörenden (NH) Probanden mit dem Oldenburger Satztest (OLSA, [15], [16], [17] in den Anordnungen S0N0 (Signal bei 0°, Störgeräusch bei 0°) und S0N60 (Signal bei 0°, Störgeräusch bei ±60°) bestimmt. Der Abstand zwischen Proband und dem Lautsprecher bei 0° war 1 m, zu den Lautsprechern bei 60° betrug der Abstand 1,80 m. Der Direktschall des Sprachsignals wurde für alle Konditionen auf 60 dB SPL festgelegt. Das Sprachsignal blieb im Pegel konstant, während der Störgeräuschpegel adaptiv geändert wurde. Das Signal-Rauschverhältnis (SNR) bei Testbeginn lag bei +5 dB. Alle Probanden absolvierten eine Trainingsliste. Anschließend wurden in randomisierter Reihenfolge Messungen mit 100%, 80% und 60% Absorption jeweils mit den Anordnungen S0N0 und S0N60 durchgeführt. Als Rauschsignal wurde das Oldenburger Rauschen (OlNoise) verwendet. Pro Messung wurden 20 OLSA-Sätze abgespielt. Der Proband saß in der Mitte des reflexionsarmen Raumes und wählte die Antworten über einen Touchscreen-Monitor aus.

An den Messungen nahmen 17 NH Probanden (Alter: 26,7±8,0 Jahre, 3 weibl., 14 männl.) teil. Die Ergebnisse wurden mittels Kolmogorow-Smirnow-Test auf Normalverteilung untersucht. Da der Test die Annahme einer Normalverteilung bestätigte, wurden statistische Auswertungen mittels T-Test durchgeführt. Bei Mehrfachvergleichen wurde das Signifikanzniveau mittels der Bonferroni-Methode korrigiert.

Ergebnisse

Abbildung 5 [Abb. 5] zeigt Boxplots der Sprachverständlichkeitsschwellen (SVS) für die drei Konditionen in den beiden Anordnungen S0N0 (Signal 0°, Noise 0°) und S0N60 (Signal 0°, Noise ±60°). Für das Sprachverstehen bei räumlich überlagerter Sprach- und Störschallwiedergabe von vorne (S0N0) ergab sich in der Freifeldbedingung im Median eine SVS von –7,4 dB SNR. In Kondition 2 reduziert sich diese auf –5,8 dB SNR. Die Ergebnisse sind signifikant unterschiedlich (p=0,024). In Kondition 3 beträgt die SVS noch –4,7 dB SNR. Diese ist signifikant schlechter als die FF-Bedingung (p<0,001) und als die Bedingung mit 80% Absorption (p=0,01). Bei räumlicher Trennung der Sprach- und Störschallquellen (S0N60) verbesserte sich die SVS in der Freifeldbedingung auf –13,9 dB SNR. Bei einem Absorptionsgrad von 80% reduziert sich die SVS auf –8,8 dB SNR, beim Absorptionsgrad von 60% beträgt sie noch –6 dB SNR. Alle Ergebnisse unterscheiden sich signifikant (p<0,001).

Der Gewinn in der SVS durch die räumliche Trennung (SRM) wurde durch Differenzbildung der SVS der Konditionen S0N60 und S0N0 bestimmt. Die Ergebnisse des SRM sind in Abbildung 6 [Abb. 6] dargestellt.

Im Freifeld beträgt der Vorteil durch die räumliche Entmaskierung 6,8 dB. Bei einem Absorptionsgrad von 80% reduziert sich der SRM auf 2,7 dB, beim Absorptionsgrad von 60% beträgt er nur noch 1,3 dB. Die Konditionen mit Raumsimulation unterscheiden sich signifikant von der Freifeldbedingung (p<0,001) und der SRM bei 60% Absorption ist signifikant geringer als bei 80% (p=0,016).


Diskussion und Ausblick

Ziel dieser Arbeit war es, das vorhandene Freifeldwiedergabesystem um eine Raumsimulation zu erweitern und diese zu evaluieren. Dazu wurden Raumsimulationen für einen Modell-Hörsaal durchgeführt und die akustischen Kenngrößen RT und D50 zwischen den Vorhersagen des Modells und der Laborwiedergabe verglichen. Zusätzlich wurde durch Einführung von zwei verschiedenen Absorptionsgraden der Effekt von zwei verschieden langen Nachhallzeiten auf die Sprachdiskrimination im Störgeräusch und den SRM geprüft.

Ähnlich wie in anderen Arbeiten wurde eine Raumsimulation basierend auf Reflektogrammen aus einem Raummodell realisiert [2], [13], [14] und um den diffusen Nachhall durch Nutzung eines Feedback-Delay-Netzwerks ergänzt. Für die Wiedergabe der Erstreflexionen wurde der Ansatz des nächstgelegenen Lautsprechers gewählt. Dieses Verfahren wurde eingesetzt, da die Integration in das bereits vorhandene Testsetup mit 128 Lautsprechern ohne technische Umbauten im Wiedergaberaum erfolgen konnte und aufgrund des geringen Durchmessers der Einzellautsprecher (und dem damit verbundenen geringen Lautsprecherabstand) eine äußerst gute Winkelauflösung in der Horizontalebene erreicht werden kann. Andere bereits in der Literatur beschriebene Systeme für akustische Raumsimulation mit oft weniger Lautsprechern verwenden beispielsweise die Verfahren „Higher Order Ambisonics“ (HOA, z.B. [2]), Vector Base Amplitude Panning (VBAP, [18]) oder Wellenfeldsynthese (WFS, [19]). Verfahren wie HOA und WFS haben jedoch den Nachteil, dass aufgrund der begrenzten Zahl an Lautsprechern bzw. des nicht unendlich kleinen Abstand zwischen zwei Lautsprechern eine mehr oder weniger stark ausgeprägte räumliche Unterabtastung (sogenanntes „spatial aliasing“) stattfindet, d.h. das synthetisierte Schallfeld ist oberhalb der Aliasfrequenz nicht mehr physikalisch korrekt. Bei WFS liegt, je nach Aufbau und Lautsprecherabstand, die Aliasfrequenz üblicherweise bei etwa 1–4 kHz. Das hier verwendete Verfahren des nächstgelegenen Lautsprechers wurde favorisiert, da im gesamten relevanten Frequenzbereich immer eine physikalisch korrekte Wiedergabe der Einzelreflexionen ermöglicht wird. Der Nachteil des hier beschriebenen Systems ist, dass nur eine Wiedergabe in der Horizontalebene möglich ist. Um eine dreidimensionale Raumsimulation zu ermöglichen, bietet sich die Nutzung von HOA oder VBAP an. Hierzu müssen dann aber auch Lautsprecher mit Elevation installiert werden. Bei einer konstanten Hörerposition im sogenannten „Sweet-Spot“ (Mitte des Wiedergabearrays) kann auch bei der Nutzung von HOA bei entsprechendem Wiedergabesetup eine für die Hörforschung ausreichend korrekte räumliche Auflösung erreicht werden. In der dreidimensionalen Umsetzung kann der diffuse Nachhall beispielsweise auch mit Ambisonics der 1. Ordnung auf Basis der Einhüllenden erzeugt werden [2]. Anstelle der Nutzung eines Raummodells können bei dem Wiedergabeverfahren HOA auch dreidimensionale Mikrofonaufnahmen (d.h. gemessene Impulsantworten) realer Räume zur Raumsimulation genutzt werden.

Während mit dem hier genutzten Verfahren keine dynamisch bewegten Schallquellen erzeugt werden können, ist dies mit anderen Verfahren möglich. Je nach Fragestellung und gewünschter Hörsituation ist daher die Wahl des genutzten Wiedergabeverfahrens mit den jeweiligen Vor- und Nachteilen individuell zu überdenken. Die Arbeiten von Grimm et al. [20] und Ahrens und Koautoren [21] geben einen guten Überblick, welche Verfahren sich für welche Fragestellung am besten eignen.

Die Evaluation der hier vorgestellten Raumsimulation zeigte eine gute Übereinstimmung zwischen Messungen und Modell-Daten. Sowohl RT als auch D50 zeigten nur unterhalb der Grenzfrequenz des zur Verfügung stehenden reflexionsarmen Raumes größere Abweichungen. Das in dieser Studie simulierte Auditorium hat ein Volumen von 3.520 m³ und entsprechend der Messungen eine maximale RT von 580 ms. Die mit den verwendeten Absorptionsgraden beobachteten Nachhallzeiten unterschritten die nach DIN-Norm [7] geforderte maximale mittlere Nachhallzeit von 900 ms für Unterricht/Kommunikation bzw. 1,2 s für Sprache/Vortrag deutlich. Dennoch zeigte sich bereits eine stark reduzierte Sprachverständlichkeit.

In den Messungen zum Sprachverstehen in der räumlichen Anordnung S0N0 zeigte sich in Kondition 3 (60% Absorption, RT 580 ms) im Vergleich zur Freifeldsituation eine Verschlechterung von 2,7 dB SNR. In Kondition 2 (80% Absorption, RT 390 ms) betrug diese Verschlechterung 1,6 dB SNR. Bedingt durch frühe Reflexionen erreicht der abgegebene Schall das Ohr mit Zeitverzögerung mehrere Male und späte Reflexionen bewirken zusätzlich, dass der Schallpegel nur relativ langsam abfällt. Dies führt bei Sprachdarbietungen dazu, dass Sprachanteile von reflektiertem Schall maskiert werden. Einzelne Phoneme können somit überdeckt werden, was zu einem reduzierten Sprachverstehen führt. Die RT und D50 drücken dies ebenfalls aus: Während in Kondition 1 (Freifeldbedingung) eine minimale RT vorliegt und 100% der Schallenergie innerhalb von 50 ms integriert wird, liegen in Kondition 3 im Mittel 13% der Schallenergie außerhalb der ersten 50 ms nach dem Direktschall. Hierdurch kann auf einen erhöhten Effekt der Maskierung von Sprache durch Nachhall geschlossen werden.

In der S0N60-Kondition bei 60% Absorption verschlechterte sich die SVS im Vergleich zur FF-Bedingung um 7,9 dB SNR. Dies spiegelte sich insbesondere auch im SRM wieder. Lediglich 1,3 dB SNR Verbesserung konnten durch die räumliche Trennung von Stör- und Nutzschallquelle noch erzielt werden. Abbildung 4 [Abb. 4] zeigt die ILDs der drei gemessenen akustischen Konditionen als Funktion der Frequenz. Zwischen der Kondition 1 (Freifeld) und Kondition 3 (60% Absorption) zeigen sich verminderte ILDs über das gesamte Frequenzspektrum. Zwischen 3.000 Hz und 5.000 Hz ist der ILD-Unterschied maximal, er beträgt etwa 10 dB. Diese ILD-Reduktion erklärt den deutlich reduzierten SRM unter Nachhall, die Abschattung des Schalls durch den Kopf ist durch das diffuse Schallfeld verringert. Die durch den Kopfschatteneffekt entstehende SNR-Verbesserung am kontralateralen Ohr ist somit deutlich geringer und resultiert in einem verminderten Effekt. Kidd und Koautoren [22] demonstrierten den Effekt von Nachhall auf den SRM in einem Raum, der in einer Kondition mit Plexiglas und in der Vergleichskondition mit Schaumstoff ausgekleidet war. Der Gewinn durch räumliche Trennung von Nutz- und Störschall um 90° verringerte sich von 8 dB SNR auf 2 dB SNR in der Plexiglas-Kondition und ist vergleichbar mit den in dieser Arbeit gezeigten Resultaten.

Die Ergebnisse bestätigen die lange bekannte Beobachtung des Einflusses der Raumakustik auf die Sprachdiskrimination. Eine Raumakustik mit sehr geringer Nachhallzeit fördert gutes Sprachverstehen. Eine lange Nachhallzeit hingegen führt zu erhöhter Maskierung des direkten Sprachsignals durch zusätzliche Nachhallanteile des Störgeräuschs und des Nutzsignals selbst. Lange Nachhallzeiten haben somit eine negative Wirkung auf die Sprachdiskrimination. Der Einfluss der Raumakustik wird gegenwärtig in den klinischen audiologischen Prüfverfahren zur Sprachverständlichkeit nicht berücksichtigt. Die Bestimmung der Hörleistung im Raumsimulationssystem stellt eine sinnvolle Ergänzung zu etablierten audiologischen Messverfahren dar. Zukünftig sollen auch mit Hörgeräte- sowie Nutzern von Cochlea-Implantaten Hörtests in simulierten akustischen Hörumgebungen durchgeführt werden. Hierdurch können zusätzliche Informationen über den Einfluss der Versorgungsart und den Effekt von Signalvorverarbeitung auf die Sprachdiskrimination gewonnen werden. Eine Ergänzung der Messkonditionen ist geplant und soll zu weiteren Einblicken in die Auswirkung raumakustischer Größen auf die Verständlichkeit von Sprache führen. Insbesondere die Untersuchung von Klassenräumen mit unterschiedlich guter raumakustischer Optimierung ist hier bei verschiedenen Abständen zwischen Schallquelle (Lehrer) und Hörposition (Schüler) von Interesse. Ebenso soll der Einfluss der Raumakustik auf das Richtungshören untersucht werden. Dank der Raumsimulation können nun Hörsituationen unter realitätsnahen aber kontrollierten akustischen Bedingungen im Labor rekonstruiert werden.


Anmerkungen

Interessenkonflikte

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.

Danksagung

Die Autoren danken der Firma Cochlear Deutschland GmbH & Co. KG. sowie der Moessner-Stiftung Frankfurt am Main für die Unterstützung der Studie.


Literatur

1.
Cox RM, Alexander GC. Hearing aid benefit in everyday environments. Ear Hear. 1991 Apr;12(2):127-39. DOI: 10.1097/00003446-199104000-00009 Externer Link
2.
Minnaar P, Favrot S, Buchholz JM. Improving hearing aids through listening tests in a virtual sound environment. Hear J. 2010;63(10):40-42. DOI: 10.1097/01.HJ.0000389926.64797.3e Externer Link
3.
Revit LJ, Killion MC, Compton-Conley CL. Developing and testing a laboratory sound system that yields accurate real-world results. Hear Rev. 2007;14(11):54.
4.
Weissgerber T. Ein Wiedergabesystem mit Wellenfeldsynthese zur Simulation alltäglicher Hörumgebungen [A sound reproduction system using wave field synthesis to simulate everyday listening conditions]. HNO. 2019 Apr;67(4):265-271. DOI: 10.1007/s00106-019-0635-5  Externer Link
5.
Kuttruff H. Room Acoustics. 6th Ed. Boca Raton: CRC Press; 2016. DOI: 10.1201/9781315372150 Externer Link
6.
Bradley JS, Sato H, Picard M. On the importance of early reflections for speech in rooms. J Acoust Soc Am. 2003 Jun;113(6):3233-44. DOI: 10.1121/1.1570439  Externer Link
7.
DIN 18041:2016-03. Hörsamkeit in Räumen - Anforderungen, Empfehlungen und Hinweise für die Planung. Berlin: Beuth Verlag; 2016.
8.
Weissgerber T, Bandeira M, Brendel M, Stöver T, Baumann U. Impact of Microphone Configuration on Speech Perception of Cochlear Implant Users in Traffic Noise. Otol Neurotol. 2019 03;40(3):e198-e205. DOI: 10.1097/MAO.0000000000002135  Externer Link
9.
Weissgerber T, Rader T, Baumann U. Impact of a moving noise masker on speech perception in cochlear implant users. PLoS ONE. 2015;10(5):e0126133. DOI: 10.1371/journal.pone.0126133 Externer Link
10.
Weissgerber T, Rader T, Baumann U. Effectiveness of Directional Microphones in Bilateral/Bimodal Cochlear Implant Users-Impact of Spatial and Temporal Noise Characteristics. Otol Neurotol. 2017 12;38(10):e551-e557. DOI: 10.1097/MAO.0000000000001524  Externer Link
11.
Weissgerber T, Neumayer HL, Baumann U. Sprachverständlichkeitsschwellen mit Cochlea Implantat und mit CI-Simulation in Abhängigkeit vom Pegelverhältnis zwischen Direktschall und Diffusschall. Z Audiol. 2016;55(1):14-9.
12.
Christensen CL, Rindel JH. A new scattering method that combines roughness and diffraction effects. In: Proceedings Forum Acusticum; 2005; Budapest, Hungary. p. 344-52.
13.
Seeber BU, Kerber S, Hafter ER. A system to simulate and reproduce audio-visual environments for spatial hearing research. Hear Res. 2010 Feb;260(1-2):1-10. DOI: 10.1016/j.heares.2009.11.004  Externer Link
14.
Favrot S, Buchholz, J. M. LoRA: A Loudspeaker-Based Room Auralization System. Acta Acustica. 2010;96(2):364-75. DOI: 3813/AAA.918285  Externer Link
15.
Wagener K, Kühnel V, Kollmeier B. Entwicklung und Evaluation eines Satztests für die deutsche Sprache. Teil I: Design des Oldenburger Satztests. Z Audiol. 1999;38(1):4-15.
16.
Wagener K, Brand T, Kollmeier B. Entwicklung und Evaluation eines Satztests für die deutsche Sprache. Teil II: Optimierung des Oldenburger Satztests. Z Audiol. 1999;38(2):44-56.
17.
Wagener K, Brand T, Kollmeier B. Entwicklung und Evaluation eines Satztests für die deutsche Sprache. Teil III: Evaluation des Oldenburger Satztests. Z Audiol. 1999;38(3):86-95.
18.
Pulkki V. Virtual sound source positioning using vector base amplitude panning. J Audio Eng Soc. 1997;45(6):456-66.
19.
Berkhout AJ. A holographic approach to acoustic control. J Audio Eng Soc. 1988;36(12):977-95. DOI: 10.1111/j.1532-5415.1988.tb05800.x  Externer Link
20.
Grimm G, Ewert S, Hohmann V. Multi-channel loudspeaker reproduction and virtual acoustic environments in the context of hearing aid evaluation. J Acoust Soc Am. 2016;140(4):2999. DOI: 10.1121/1.4969292  Externer Link
21.
Ahrens A, Marschall M, Dau T. Measuring and modeling speech intelligibility in real and loudspeaker-based virtual sound environments. Hear Res. 2019 06;377:307-17. DOI: 10.1016/j.heares.2019.02.003 Externer Link
22.
Kidd G, Mason CR, Brughera A, Hartmann WM. The Role of Reverberation in Release from Masking Due to Spatial Separation of Sources for Speech Identification. Acta Acustica. 2005;91(3):526-36.