gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Zuteilung von fuzzy-gradierten Deskriptoren mittels Computerlinguistik

Meeting Abstract (gmds2004)

Suche in Medline nach

  • corresponding author presenting/speaker Rainer Kaluscha - Forschungsinstitut für Rehabilitationsmedizin an der Universität Ulm, Bad Wurzach, Deutschland
  • Martin Urban - Forschungsinstitut für Rehabilitationsmedizin an der Universität Ulm, Bad Wurzach, Deutschland
  • Eckart Jacobi - Forschungsinstitut für Rehabilitationsmedizin an der Universität Ulm, Bad Wurzach, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds173

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds173.shtml

Veröffentlicht: 14. September 2004

© 2004 Kaluscha et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

In der Rehabilitation steht nicht nur die körperliche Schädigung, sondern auch die daraus resultierenden funktionalen Beeinträchtigungen und Störungen der Teilhabe im Mittelpunkt. Diese werden in der International Classification of Functioning (ICF) der WHO [1] beschrieben. Da diese sehr umfangreich und komplex ist, gestaltet sich die Zuteilung von ICF-Codes schwierig. In einer Pilotstudie wird am Forschungsinstitut für Rehabilitationsmedizin an der Universität Ulm daher ein besser handhabbares Ordnungssystem mit 3-Letter-Codes, das sich an die ICF anlehnt, erprobt [2]. Dabei werden nur wenige aus Sicht des Arztes bzw. Rehabilitanden relevante Deskriptoren zugeteilt. Diese werden auf einer Skala mit den Endpunkten 0 (keine Beeinträchtigung) bis 100 (maximale Beeinträchtigung) unscharf gradiert. Dabei wird ähnlich wie in der medizinischen Begutachtung nicht nur ein Zahlenwert, sondern ein Intervall angegeben, um Raum für die Unschärfe der Einschätzung zu lassen [Abb. 1].

In einer Forschungsdatenbank, dem Patientenkonto, stehen mehr als 50.000 Reha-Entlassungsberichte inklusive des umfangreichen ärztlichen Freitextes zur Verfügung [3]. Hier soll jetzt untersucht werden, ob mit computerlinguistischen Methoden (halb-)automatisch Deskriptoren aus dem Ordnungssystem zugeteilt werden können und ggfs. bei Vorliegen ausreichender textueller Information sogar eine unscharfe Gradierung erfolgen kann. So kann etwa der Deskriptor Schlaffunktion (SLF, entspricht ICF-Code b134) beim Auftreten von Begriffen wie „Schlafstörung" oder „Insomnie" etc. zugeteilt werden. Textuelle Angaben zu Häufigkeit („manchmal", „regelmäßig") oder Intensität („leicht", „stark") können dann genutzt werden, um eine unscharfe Gradierung vorzunehmen, z.B. eine Beeinträchtigung zwischen 53 und 72.

Methoden

Strukturierte Daten und Freitexte der Entlassungsberichte liegen integriert in einer relationalen Datenbank mit Textauswertungskomponente vor (Oracle 8i mit Intermedia/Text Option), die mittels einer SQL-Erweiterung (contains-Operators) die Einbettung linguistischer Anfragen in SQL-Abfragen erlaubt. Der aus den Freitexten aufgebaute Korpus umfasst nach Entfernung der irrelevanten Stopworte ca. 50,5 Millionen Worte.

Einige Deskriptoren wie z.B. Gewicht (GEW, entspricht ICF b530) können anhand strukturierter Daten wie Körpergewicht und -größe zugeteilt und gradiert werden. Weitere sind mit hybridem Einsatz von linguistischen Anfragen und regulären Ausdrücken extrahierbar. Die linguistischen Anfragen dienen dabei im ersten Schritt der effizienten Selektion der relevanten Textteile, während die regulären Ausdrücke der Extraktion von variablen Meßgrößen aus den vorselektierten Textteilen dienen. Ein Beispiel wäre der Schober lumbalis (SOB), der als Maß für die Beweglichkeit der Wirbelsäule auch ein Indikator für weitere Beeinträchtigungen, z.B. beim Bücken (BUK, entspricht ICF d4105), darstellt.

Für ausgewählte Deskriptoren des Ordnungssystems können von Menschen komplexere linguistische Pattern, die syntaktische und semantische Aspekte beinhalten können, entwickelt [4] und in Datenbankanfragen umgesetzt werden. Diese Pattern beschreiben gängige Formulierungsvarianten eines interessierenden Sachverhaltes. Ihre Entwicklung kann aufwändig sein und setzt eine Vertrautheit mit dem Fach und dem Textkorpus voraus. So gibt es z.B. bei der Identifikation von Rauchern unterschiedlichste Formulierungsvarianten: „30-40 Zigaretten täglich", „Nikotin: ca. 2 Schachteln pro Woche", „Nikotinabusus von ca. sechs bis sieben Pfeifen per die", etc. Es kristallierte sich aber ein gemeinsames Pattern heraus: auf eine (unscharfe) Mengenangabe folgte die Bezeichnung einer Tabakware (Zigarette, Schachtel, Zigarre, Pfeife, etc.) sowie ein Zeitraum (pro Tag, monatlich, per die, etc.).

Die Güte der maschinellen Zuteilung der Deskriptoren wird anhand einer Zufallsstichprobe von Menschen geprüft und das linguistische Pattern ggfs. verfeinert, bis ein akzeptables Niveau erreicht wird [3].

Ergebnisse

Die Güte der automatisierten Extraktion des Schober lumbalis wurde an einer Zufallsstichprobe von 200 Aufnahmebefunden durch den Menschen überprüft [5]. So sollte etwa dem Text „Schober lumbalis 10/12 cm" der Wert 12 zugeordnet werden. Wegen der deutlichen Abweichung vom Normalbereich (14-15) wäre somit die Zuteilung des entsprechenden Deskriptors gerechtfertigt.

Die erste Version der Suchanfrage ließ bei der Vollständigkeit (83%) noch zu wünschen übrig, während die Relevanz bereits 100% betrug. Die Fehleranalyse förderte einige unerwartete Varianten zu Tage, so wurde z.B. gelegentlich (wohl in Anlehnung an das Lasegue'sche Zeichen o.ä.) die Bezeichnung „Schober-Zeichen" verwendet, obwohl es sich um eine Meßgröße in cm handelt.

Nach nur einer Verfeinerung erreichten Vollständigkeit und Relevanz beide 100% [Tab. 1]; auch die gelieferten numerischen Werte stimmten jetzt perfekt mit den erwarteten überein.

Für weitere Sachverhalte (Rauchen, Reha-Initiative, Schlafstörungen) wurden bereits linguistische Pattern und Datenbankanfragen entwickelt, deren Trefferquote um 95% liegt. Dabei waren ebenfalls nur ein bis zwei Verfeinerungsschritte notwendig.

Die hybride Nutzung von linguistischen Anfragen und regulären Ausdrücken beschleunigte die Auswertung gegenüber einer Suche mit regulären Ausdrücken deutlich.

Diskussion

Selbstverständlich kann eine Zuteilung von Deskriptoren durch den Computer nicht die komplexen kognitiven Prozesse bei der Zuteilung durch den Menschen abbilden. Auch die Gradierung anhand linguistischer Merkmale wird unpräziser sein als die direkte Einschätzung auf einer visuellen Analogskala durch den Arzt bzw. Rehabilitanden. Da sie sich noch in der Entwicklung befindet, liegen noch keine abschließenden Ergebnisse vor.

Dennoch kann das Verfahren bei der Erschliessung und Auswertung vorhandener Daten, deren manuelle Aufbereitung zu aufwändig wäre, gute Dienste leisten und mit hoher Präzision und Zuverlässigkeit aus Freitexten auswertbare Daten extrahieren.

Danksagung

Die verwendeten Daten stammen aus dem Projekt REHA-NET, das im Förderschwerpunkt Rehabilitationswissenschaften vom Bundesforschungsministerium und der Deutschen Rentenversicherung unter dem Förderkennzeichen 020702 gefördert wird. Besonderer Dank gilt hier der Landesversicherungsanstalt Baden-Württemberg, die dem Projekt die Daten anonymisiert zur Verfügung stellt.


Literatur

1.
World Health Organization: International Classification of Functioning, Disability and Health.Online: http://www.who.int/classification/icf (16.07.2003).
2.
Urban M. Beiträge der Dokumentation und Informatik an das Assessment in der Rehabilitationsmedizin. Dissertation an der Med. Fakultät der Universität Ulm. Online: http://vts.uni-ulm.de/query/longview.meta.asp?document_id=3321. (29.03.2004)
3.
Kaluscha R, Jacobi E: Erschliessung von Routinedaten mittels Vernetzung und Computerlinguistik. Inf. Biom. Epedemiol. Med. Biol. 34/3 (2003).
4.
Waterman SA: Distinguished Usage. In: Boguraev B, Pustejovsky J, Eds. Corpus Processing for Lexical Acquisition. Cambridge: MIT Press, 1996.
5.
Gaus W: Dokumentation und Ordnungslehre. Berlin: Springer; 2003.