Artikel
Kann künstliche Intelligenz bei der Unterscheidung zwischen physiologischen und pathologischen Stimmklängen unterstützen?
Suche in Medline nach
Autoren
Veröffentlicht: | 20. August 2024 |
---|
Gliederung
Zusammenfassung
Hintergrund: Diese Studie untersucht, inwieweit künstliche Intelligenz mittels maschinellen Lernens in der klinischen Diagnostik bei der Zuordnung gesunder und pathologischer Stimmschallsignale unterstützen kann. Ziel war es, durch automatische Mustererkennung im Stimmschallsignal Messgrößen zur Unterscheidung und Stratifizierung von gesunden und pathologischen Stimmschallsignalen zu gewinnen.
Material und Methoden: Als Untersuchungsmaterial dienten Stimmschallsignale der Sprechstimme mit mehrsilbigen Zahlwörtern in verschiedenen Steigerungsstufen von 2.000 Personen (ab 18. Lbj., normalverteilte Bevölkerungskohorte) aus der LIFE-Studie und 216 Patient:innen (19–101 Jahre, Median 61; 108:108 m:w) mit Dysphonien zehn verschiedener Genesen. Alle Zahlwörter wurden in Mel-Frequenz-Cepstrum-Koeffizienten umgewandelt. Anschließend war es Aufgabe der KI, zwischen gesunden und pathologischen Stimmschallsignalen zu unterscheiden. Es wurden zwei unabhängige Methoden untersucht. In Methode 1 rekonstruierte ein unüberwachtes Modell (Autoencoder) gesunde Stimmschallaufnahmen über einen Informationsengpass. Der Rekonstruktionsfehler ermöglichte eine Einteilung nach ihrem Abweichungsgrad von gesunden Stimmschallsignalen. In Methode 2 lernte ein überwachtes Modell (Morse-Netz) im Kreuzvalidierungsverfahren eine Transformation der Stimmschallaufnahmen auf ein vorher definiertes Intervall und so die Unterscheidung verschiedener Krankheitsbilder. Mittels Bestimmung der AUROC wurde die Diskriminierungsfähigkeit bestimmt und gezeigt, wie gut das Modell zwischen positiven und negativen Fällen unterscheiden kann.
Ergebnisse: Methode 1 erreichte eine AUROC von 0,98 und Methode 2 eine AUROC von 0,99. Damit wurde eine sehr hohe Diskriminierungsfähigkeit der KI gezeigt. Die Ordnung verschiedener Krankheitsbilder auf der Messskala von Methode 2 korrelierte stark mit der vorher trainierten Diagnose.
Diskussion: Bisherige Studien konnten mittels KI den Schweregrad einer bekannten Dysphonie richtig einschätzen. Anhand unserer Daten konnten wir zeigen, dass es mit den o.g. Modellen gelingt, unabhängig von Alter und Geschlecht sicher zwischen gesunden und pathologischen Stimmklängen zu unterscheiden und vorher trainierte, unterschiedliche Ursachen der Dysphonie zu gruppieren.
Fazit: KI könnte in der Stimmdiagnostik eine zunehmende Rolle spielen. Anwendungsbeispiele bestehen im Monitoring von Therapieverläufen, um den Patient:innen z.B. App-gesteuert Biofeedback zu geben und somit Anreize für eine rasche Rehabilitation zu schaffen.
Text
Einleitung
In der klinischen Praxis stellt die auditive und perzeptive Analyse eine zentrale Säule der multimodalen Stimmdiagnostik dar. Diese ist jedoch personenabhängig (Untersuchende und Untersuchte) und dadurch auch eine subjektive Beurteilung mit inhärenten Verzerrungen [1], [2]. Diese Studie untersucht, inwieweit künstliche Intelligenz (KI) mittels maschinellen Lernens in der klinischen Diagnostik bei der Zuordnung gesunder und pathologischer Stimmschallsignale unterstützen kann und beschreibt den Prozess der Bewertung eines pathologischen Stimmschallsignals durch einen auf künstlicher Intelligenz beruhenden Algorithmus. Transformer-basierte neuronale Netze [3] haben sich hier als State-of-the-Art in der Zeitreihenanalyse bewiesen und werden in zum vorliegenden Vorhaben verwandten Aufgaben wie der Sprach- und Sprechererkennung erfolgreich eingesetzt [4]. Dabei war die grundlegende Idee, dass das menschliche Gehirn der Stimme nicht bewusst gesonderte Parameter zuordnet, sondern über Erfahrungslernen erlernt, gesunde von kranken Stimmschallsignalen zu unterscheiden. Ziel war es, dieses Erfahrungslernen durch automatische Mustererkennung im Stimmschallsignal auf einen Algorithmus zu übertragen und Messgrößen zur Unterscheidung und Stratifizierung von gesunden und pathologischen Stimmschallsignalen zu gewinnen.
Material und Methoden
Als Untersuchungsmaterial dienten Stimmschallsignale der Sprechstimme mit mehrsilbigen Zahlwörtern in verschiedenen Steigerungsstufen von 2.000 Personen (ab 18. Lebensjahr, normalverteilte Bevölkerungskohorte) aus der LIFE-Studie und 216 Patient:innen (19–101 Jahre, Median 61; 108:108 m:w) mit Dysphonien verschiedener Genesen (u.a. chronische Laryngitis, Stimmlippenpolyp, Stimmlippenparese, Stimmlippenzyste, Sulcus vocalis, spasmodische Dysphonie, Larynxpapillomatose, Larynxkarzinom, Reinke-Ödem). Alle Zahlwörter wurden Mithilfe von wav2vec2.0 [5] aus den Aufnahmen extrahiert und in Mel-Frequenz-Cepstrum-Koeffizienten umgewandelt. Anschließend war es Aufgabe des Algorithmus, zwischen gesunden und pathologischen Stimmschallsignalen zu unterscheiden. Es wurden zwei unabhängige Methoden untersucht. In Methode 1 rekonstruierte ein unüberwachter Convolutional Autoencoder gesunde Stimmschallaufnahmen über einen Informationsengpass. Durch Latentraum-Analyse und Rekonstruktionsfehler konnten so Anomalien identifiziert werden. Um die Abstände zwischen Datenpunkten im Latentraum zu bewahren, wurden distanzerhaltende Methoden eingesetzt [6], [7], welche ein robustes Abstandsmaß vom erlernten Normbereich ermöglichen. In Methode 2 lernte ein überwacht trainiertes Morse-Netz [8] im Kreuzvalidierungsverfahren eine Transformation der Stimmschallaufnahmen auf ein vorher definiertes Intervall und so die Unterscheidung verschiedener Krankheitsbilder. Ziel war es hier, gesunde Aufnahmen einer Grenze zuzuordnen, Zufallsrauschen der gegenüberliegenden Grenze und kranke Aufnahmen in erlernbarer Reihenfolge dazwischen abzubilden. Mittels Bestimmung der AUROC wurde die Diskriminierungsfähigkeit bestimmt und gezeigt, wie gut das Modell zwischen positiven und negativen Fällen unterscheiden konnte.
Ergebnisse
Unsere Konzeptstudie lieferte vielversprechende Ergebnisse: Beide Verfahren unterschieden zuverlässig zwischen gesunden und kranken Stimmen anhand von Zahlwörtern. Methode 1 erreichte eine AUROC von 0,98 und Methode 2 eine AUROC von 0,99. Damit wurde eine sehr hohe Diskriminierungsfähigkeit der KI gezeigt. Die Ordnung verschiedener Krankheitsbilder auf der Messskala von Methode 2 korrelierte stark mit der vorher trainierten Diagnose.
Abbildung 1 [Abb. 1]
Die Validierung mit gesunden Aufnahmen unter unterschiedlichen Bedingungen (Mikrofone, Umgebungen) deutet darauf hin, dass die Modelle tatsächlich menschliche Stimmschallsignale und nicht Mikrofon- oder Hintergrundcharakteristika erlernten.
Diskussion
Bisherige Studien konnten mittels KI den Schweregrad einer bekannten Dysphonie richtig einschätzen [9]. Anhand unserer Daten konnten wir zeigen, dass es mit den o.g. Modellen gelingen kann, unabhängig von Alter und Geschlecht sicher zwischen gesunden und pathologischen Stimmschallsignalen zu unterscheiden und vorher trainierte, unterschiedliche Ursachen der Dysphonie zu gruppieren. Die Validierung mit gesunden Aufnahmen unter unterschiedlichen Bedingungen (Mikrofone, Umgebungen) deutet darauf hin, dass die Modelle tatsächlich menschliche Stimmschallsignale und nicht Mikrofon- oder Hintergrundcharakteristika erlernten. Weitere Forschung wird sich auf die präzise Kalibrierung der Defektheitsmaße und den Ausschluss nicht krankheitsbedingter Einflussfaktoren konzentrieren.
Fazit
Dieser innovative Ansatz erlaubt es uns, ein Scoring-System für Stimmschallsignale zu entwickeln, das automatisiert, objektiv und umfassend ist. Damit bietet er neue Perspektiven in der Analyse und Bewertung von Stimmdaten während der Therapie und in der Nachsorge. Insbesondere die intraindividuelle Vergleichbarkeit bei einer Person im Verlauf einer Therapie ist hierbei von Interesse. Anwendungsbeispiele bestehen im Monitoring von Therapieverläufen, um den Patient:innen z.B. App-gesteuert Biofeedback zu geben und somit Anreize für eine rasche Rehabilitation zu schaffen.
Literatur
- 1.
- Kent RD. Hearing and Believing: Some Limits to the Auditory-Perceptual As-sessment of Speech and Voice Disorders. Am J Speech Lang Pathol. 1996 Aug;5(3):7-23. DOI: 10.1044/1058-0360.0503.07
- 2.
- Oates J. Auditory-perceptual evaluation of disordered voice quality: pros, cons and future directions. Folia Phoniatr Logop. 2009;61(1):49-56. DOI: 10.1159/000200768
- 3.
- Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I. Attention Is All You Need [Preprint]. arXiv. 2017 [cited 2024 Jan 29]. Available from: https://arxiv.org/abs/1706.03762
- 4.
- Novoselov S, Lavrentyeva G, Avdeeva A, Volokhov V, Gusev A. Robust Speaker Recognition with Transformers Using wav2vec 2.0 [Preprint]. arXiv. 2022 [cited 2024 Jan 29]. Available from: https://arxiv.org/abs/2203.15095
- 5.
- Baevski A, Zhou H, Mohamed A, Auli M. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations [Preprint]. arXiv. 2020 [cited 2024 Jun 22]. Available from: https://arxiv.org/abs/2006.11477
- 6.
- Liu JZ, Lin Z, Padhy S, Tran D, Bedrax-Weiss T, Lakshminarayanan B. Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness [Preprint]. arXiv. 2020 [cited 2024 Jan 29]. Available from: https://arxiv.org/abs/2006.10108
- 7.
- Morales-Álvarez P, Hernández-Lobato JM, Molina R, Hernández-Lobato D. Activation-level uncertainty in deep neural networks. In: 9th International Conference on Learning Representations (ICLR 2021); 2021 May 3-7.
- 8.
- Dherin B, Hu H, Ren J, Dusenberry MW, Lakshminarayanan B. Morse Neural Networks for Uncertainty Quantification [Preprint]. arXiv. 2023 [cited 2024 Jun 22]. Available from: https://arxiv.org/abs/2307.00667
- 9.
- van der Woerd B, Chen Z, Flemotomos N, Oljaca M, Sund LT, Narayanan S, Johns MM. A Machine-Learning Algorithm for the Automated Perceptual Evaluation of Dysphonia Severity. J Voice. 2023 Jul 8:S0892-1997(23)00179-0. DOI: 10.1016/j.jvoice.2023.06.006