gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

BioTop – Eine Top-Level-Ontologie für die Lebenswissenschaften

Meeting Abstract

  • Stefan Schulz - Institut für Medizinische Biometrie und Medizinische Informatik, Freiburg, Deutschland
  • Holger Stenzhorn - Institut für Medizinische Biometrie und Medizinische Informatik, Freiburg, Deutschland
  • Elena Beisswanger - JULIE, Jena, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocP-50

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2008/08gmds236.shtml

Published: September 10, 2008

© 2008 Schulz et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Die Flut von Faktenwissen in Medizin und Biologie stellt steigende Ansprüche an neue Techniken des Datenmanagements. Die Nachfrage nach terminologischen und ontologischen Standards spiegelt sich wider in der dynamischen Entwicklung spezialisierter Ontologien im Rahmen der Open Biological Ontologies (OBO) – Initiative. Beispiele hierfür sind Gene Ontology, Sequence Ontology, Cell Ontology, ChEBI (Chemical Entities), sowie diverse Ontologien für Modellorganismen wie Maus, Drosophila, C. elegans etc. Im Bereich der Medizin ist neben den klassischen Kodierungs- und Klassifikationssystemen insbesondere das sich zu einem internationalen Standard entwickelnde SNOMED CT zu erwähnen.

Die ausgeprägte Fragmentierung und teilweise Überlappung der einzelnen Ontologien legt nahe, Anstrengung einer semantischen Normierung zu unternehmen. Es hat sich gezeigt, dass selbst Grundbegriffe der Medizin und Biologie nicht einheitlich definiert sind: So kann „Gen“ sowohl für eine (materielle) Nukleotidsequenz, als auch für (nichtmaterielle) Information stehen. „Organismus“ kann „Virus“ mit einschließen oder auch nicht. „Tier“ mag „Homo Sapiens“ ein- oder ausschließen. „Peptid“ kann „Protein“ subsumieren oder exkludieren.

Bereits im UMLS (Unified Medical Language System) wurde vor zwei Jahrzehnten mit dem Semantic Network ein allgemeines Kategoriensystem entwickelt, welches dazu verwendet wurde, die Konzepte des UMLS Metathesaurus nach semantischen Typen zu ordnen und standardisierte Relationen zwischen diesen Konzepten festzulegen. Die Unzulänglichkeiten des UMLS Semantic Network sind bekannt. Kritisiert wurden hierbei insbesondere die unscharfe Bedeutung der einzelnen Kategorien, sowie deren Überlappung.

Im Gegensatz zum UMLS Semantic Network verfolgt die hier vorgestellte Top-Level-Ontologie BioTop daher die Strategie, biomedizinische Basiskategorien nach strikt formalen Kriterien zu ordnen und zu definieren. BioTop orientiert sich an domänenunabhängigen Upper-Level-Ontologien wie BFO und DOLCE, sowie an der domänenspezifischen OBO Relationen-Ontologie.

BioTop umfasst derzeit 257 hierarchisch angeordnete Klassen. Mit Hilfe von insgesamt 42 ebenfalls hierarchisch angeordneten Relationen wurden 193 Restriktionen auf Klassen definiert. Diese Restriktionen liefern in der Mehrzahl notwendige Kriterien für Klassenbeschreibungen, in 57 Fällen konnten Klassen anhand hinreichender Kriterien voll definiert werden.

Beispiel für eine solche Definition ist:

Multicellular Organism

is defined as
Organism and
hasProperPart some Cell

Die verwendete Beschreibungssprache ist OWL-DL, ein Ontologiestandard des Semantic Web, für den mehrere maschinelle Klassifizierer existieren, welche die Ontologie auf logische Konsistenz prüfen und zusätzliche Subsumptionsbeziehungen berechnen.

Die Anbindung der OBO-Ontologien an BioTop erfolgt nach folgendem Schema:

GeneOntology: CellComponent – BioTop:CellularComponent
GeneOntology: MolecularFunction – BioTop: MolecularFunction
GeneOntology: BiologicalProcess – BioTop:BiologicalProcess
CellOntology: EukaryoticCell – BioTop:EukaryoticCell
ChEBI:SimpleProtein – BioTop:EntirePolypeptideMolecule
ChEBI:PolypeptideChain – BioTop:AminoAcidChain

Wir arbeiten derzeit an einer Abbildung des UMLS Semantic Network auf BioTop. Neben einer Erweiterung von BioTop auf Klassen wie Mind, IndividualBehavior, Genome, fallen insbesondere zwei Phänomene auf: Zum einen beschreiben viele UMLS-Semantic-Network-Kategorien eher Rollen als ontologisch relevante inhärente Eigenschaften, wie z.B. Food, Poison, Finding. Diese werden in BioTop durch Klassen wie FoodRole, PoisonRole, FindingRole repräsentiert. Zum anderen bot sich an, UMLS- Semantic-Network-Relationen nicht als BioTop-Relationen, sondern als Klassen unter ProcessualEntity wie z.B. Disrupting, Interacting, Treating zu repräsentieren.

Die aktuelle Entwicklung von BioTop kann unter http://www.purl.org/biotop verfolgt werden.


Literatur

1.
Christian Blaschke, Lynette Hirschman, and Alfonso Valencia. Information extraction in molecular biology. Briefings in Bioinformatics 2002; 3(2): 154-65.
2.
Aaron M. Cohen and William Hersh. A survey of current work in biomedical text mining. Briefings in Bioinformatics 2005; 6(1):57-71.
3.
Lars Juhl Jensen, Jasmin Saric, and Peer Bork. Literature mining for the biologist: from information retrieval to biological discovery. Nature Reviews Genetics 2006; 7(February): 119-29.
4.
Ian Horrocks, Peter F. Patel-Schneider, and Frank van Harmelen. From SHIQ and RDF to OWL: The making of a Web ontology language. Journal of Web Semantics 2003; 1(1):7-26.
5.
Olivier Bodenreider and Robert Stevens. Bio-ontologies: Current trends and future directions. Briefings in Bioinformatics 2006; 7(3):256-74.
6.
Barry Smith, Werner Ceusters, Bert Klagges, Jacob Kohler, Anand Kumar, Jane Lomax, Chris Mungall, Fabian Neuhaus, Alan L. Rector, and Cornelius Rosse. Relations in biomedical ontologies. Genome Biology 2005; 6(5):R46 (1:15).
7.
Cornelius Rosse, Anand Kumar, Jose Leonardo V. Mejino, Daniel L. Cook, Landon D. Detwilern, and Barry Smith. A strategy for improving and integrating biomedical ontologies. In Charles P. Friedman, editor, AMIA 2005 – Proceedings of the Annual Symposium of the American Medical Informatics Association. Biomedical and Health Informatics: From Foundations, to Applications to Policy, pages 639-643. Washington, D.C., USA, October 22-26,2005.
8.
Pierre Grenon, Barry Smith, and Louis Goldberg. Biodynamic ontology: Applying BFO in the biomedical domain. In Domenico M. Pisanelli, editor, Ontologies in Medicine . Proceedings of the Workshop onMedical Ontologies, number 102 in Studies in Health Technology and Informatics, pages 20-38. Rome, Italy, October 2003. Amsterdam: IOS Press, 2004.
9.
Heinrich Herre, Barbara Heller, Patryk Burek, Robert Hoehndorf, Frank Loebe, and Hannes Michalek. General Formal Ontology (GFO): A foundational ontology integrating objects and processes. Part I: Basic principles. Technical report, Research Group Ontologies in Medicine (Onto-Med), University of Leipzig, 2006.
10.
Tomoko Ohta, Yuka Tateisi, and Jin-Dong Kim. The GENIA corpus: An annotated research abstract corpus in molecular biology domain. In M. Marcus, editor, HLT 2002 - Human Language Technology Conference. Proceedings of the 2nd International Conference on Human Language Technology Research, pages 82-86. San Diego, Cal., USA, March 24-27, 2002. San Francisco, CA: Morgan Kaufmann, 2002.
11.
Stefan Schulz, Elena Beisswanger, Udo Hahn, Joachim Wermter, Anand Kumar, and Holger Stenzhorn. From GENIA to BIOTOP: Towards a top-level ontology for biology. In Brandon Bennett and Christiane Fellbaum, editors, Formal Ontology in Information Systems. Proceedings of the 4th International Conference - FOIS 2006, number 150 in Frontiers in Artificial Intelligence and Applications, pages 103-114. Baltimore, Maryland, USA, November 9-11, 2006. Amsterdam: IOS Press, 2006.
12.
Robert MacGregor. The evolving technology of classification-based knowledge representation systems. In John F. Sowa, editor, Principles of Semantic Networks. Explorations in the Representation of Knowledge, pages 385-100. San Mateo, CA: Morgan Kaufmann, 1991.
13.
Alan L. Rector, Jeremy Rogers, and Thomas Bittner. Granularity, scale and collectivity: When size does and does not matter. Journal of Biomedical Informatics 2006; 39(3):333-49.
14.
Michael Ashburner, Catherine A. Ball, Judith A. Blake, David Botstein, Heather Butler, J. Michael Cherry, Allan P. Davis, Kara Dolinski, Selina S. Dwight, Janan T. Eppig, Midori A. Harris, David P. Hill, Laurie Issel-Tarver, Andrew Kasarskis, Suzanna Lewis, John C. Matese, Joel E. Richardson, Martin Ringwald, Gerald M. Rubin, and Gavin Sherlock. Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics, 25(1):25-29, May 2000.
15.
Jonathan Bard, Seung Y. Rhee, and Michael Ashburner. An ontology for cell types. Genome Biology 2005; 6(2):R21.
16.
Kirill Degtyarenko, Paula de Matos, Marcus Ennis, Janna Hastings, Martin Zbinden, Alan McNaught, Rafael Alcantara, Michael Darsow, Mickael Guedj, and Michael Ashburner. CHEBI: a database and ontology for chemical entities of biological interest. Nucleic Acids Research 2008; 36(Database-Issue):344-50.
17.
Karen Eilbeck, Suzanna E. Lewis, Christopher J. Mungall, Mark Yandell, Lincoln Stein, Richard Durbin, and Michael Ashburner. The Sequence Ontology: A tool for the unification of genome annotations. Genome Biology 2005; 6(5):R44.