Article
Entwicklung eines Korpus zu Pathologieberichten in der Hämato-Onkologie: Schema und Richtlinien für die Annotation
Search Medline for
Authors
Published: | September 15, 2023 |
---|
Outline
Text
Einführung: Pathologieberichte enthalten wichtige Informationen, zum Beispiel über das Vorhandensein einer Mutation oder einer Überexpression bestimmter Proteine, die ausschlaggebend für die Diagnose und Therapie sein können. Diese Informationen sind häufig im Freitextformat verfasst und somit für automatische Analysen nicht unmittelbar verwertbar. Die automatisierte Sprachverarbeitung bietet die Möglichkeit, den Freitext maschinell in strukturierte Daten umzuwandeln, um sie für die Forschung und auch für maschinelles Lernen nutzbar zu machen. In der englischen Sprache wurden bei der automatischen Analyse von hämato-onkologischen Pathologieberichten schon gute Ergebnisse erzielt [1]. Die Anwendung auf deutschen Texten der Hämato-Onkologie ist trotz der schnellen Weiterentwicklung von Sprachverarbeitungsmethoden hingegen noch nicht sehr verbreitet [2]. Daher besteht der Bedarf an deutschsprachigen, annotierten Pathologieberichten der Hämato-Onkologie. Eine manuelle, umfassende Annotation von Pathologieberichten ist sehr zeitaufwendig. Die Variabilität der Schreibstile und Ausdrucksmöglichkeiten erschweren die Annotation zusätzlich. Deshalb sind ausführliche Richtlinien notwendig, um einheitliche Ergebnisse zu erzielen. Unser Ziel war es, ein Annotationsschema und Richtlinien zu erarbeiten, um die Erstellung eines umfassend annotierten Korpus von hämato-onkologischen Pathologieberichten zu ermöglichen.
Methodik: Im ersten Schritt wurde ein Schema mit den zu annotierenden Entitäten und Attributen erstellt. Anschließend wurde eine erste Version der Annotationsrichtlinien verfasst. Nach der Erstellung des ersten Schemas und der Richtlinien folgten wir dem MAMA-Zyklus (Model-Annotate-Model-Annotate) [3]. Anhand der Richtlinien wurden Pathologieberichte von mehreren Annotatoren unabhängig voneinander annotiert. Anschließend wurde die Übereinstimmung der Annotationen anhand des F1-Scores quantifiziert. Die Unstimmigkeiten wurden diskutiert und aufgelöst. Die Richtlinien sowie das Schema wurden entsprechend angepasst und der Zyklus wurde iterativ wiederholt.
Ergebnisse: Die Mehrzahl der hämato-onkologischen Pathologieberichte beschreibt Knochenmarks- und Lymphknotenpräparate. Unser Hauptaugenmerk bei der Annotation lag auf der Diagnose und den immunhistochemischen Markern. Das momentane Annotationsschema umfasst neun Entitäten (z.B. Zellart, Expressionsmarker, Diagnose) und zehn Attribute (z.B. Größe, Menge, Expressionsstärke). In den Richtlinien werden für jede Entität bzw. jedes Attribut die zu annotierenden Bezeichnungen aufgelistet (z.B. „schwach“, „stark“, „kräftig“ für Expressionsstärke) und bei Bedarf Beispielsätze angegeben. Zudem wird spezifiziert, welche Wörter nicht annotiert werden sollen. Zur bisherigen Weiterentwicklung der Richtlinien wurden 110 Pathologieberichte herangezogen, die jeweils von zwei Medizinstudenten in sieben Runden annotiert wurden. Das Inter-Annotator-Agreement konnte von einem F1-Score von 0.61 in der ersten Runde auf 0.91 in der letzten Runde verbessert werden. Sofern aus dem Pathologiebericht hervorgehend, wird die Diagnose der entsprechenden Diagnose der WHO-Klassifikation der Tumoren hämatopoetischer und lymphatischer Gewebe zugeordnet [4]. Den verwendeten Begriffen wurden zudem die passenden SNOMED-Codes zugeordnet, sodass das Schema leicht in andere Sprachen übertragen werden kann.
Diskussion: Unsere Richtlinien bieten eine hilfreiche Grundlage für die Annotation von Pathologieberichten der Hämatologie und Onkologie. Das Annotationsschema ist leicht für weitere konkrete Zwecke adaptierbar und auf andere Sprachen übertragbar. Im nächsten Schritt planen wir, eine größere Anzahl von Texten zu annotieren und diese anschließend für das Trainieren von Sprachmodellen zu nutzen. Dabei werden wir das Schema und die Richtlinien im weiteren Prozess nach Bedarf anpassen.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass ein positives Ethikvotum vorliegt.
Literatur
- 1.
- Zaccaria GM, Colella V, Colucci S, Clemente F, Pavone F, Vegliante MC, et al. Electronic case report forms generation from pathology reports by ARGO, automatic record generator for onco-hematology. Sci Rep. 2021;11(1):1-11. DOI: 10.1038/s41598-021-03204-z
- 2.
- Rösler W, Altenbuchinger M, Baeßler B, Beissbarth T, Beutel G, Bock R, et al. An overview and a roadmap for artificial intelligence in hematology and oncology. J Cancer Res Clin Oncol. 2023;149(10):7997-8006. DOI: 10.1007/s00432-023-04667-5
- 3.
- Pustejovsky J, Bunt H, Zaenen A. Designing annotation schemes: From theory to model. In: Ide N, Pustejovsky J, editors. Handbook of Linguistic Annotation. Dordrecht: Springer Netherlands; 2017. p. 21–72.
- 4.
- Swerdlow SH, Campo E, Harris NL, Jaffe ES, Pileri SA, Stein H, Thiele J, editors. WHO classification of tumours of haematopoietic and lymphoid tissues. 4th ed. Lyon: International Agency for Research on Cancer; 2017.