gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Automatisierte Annotation von Gensequenzen unter Verwendung von Support-Vektor-Maschinen

Meeting Abstract (gmds2004)

  • corresponding author presenting/speaker Jutta Moormann - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland
  • Vinayagam Arunachalam - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland
  • Falk Schubert - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland
  • Rainer König - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland
  • Roland Eils - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland
  • Karl-Heinz Glatting - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland
  • Sándor Suhai - Deutsches Krebsforschungszentrum, Heidelberg, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds338

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2004/04gmds338.shtml

Published: September 14, 2004

© 2004 Moormann et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung

In zahlreichen Sequenzierungsprojekten werden die Genome verschiedener Organismen entschlüsselt. Dabei fallen rapide wachsende Datenmengen an. Der Bedarf an angemessenen Methoden zur Interpretation dieser Rohdaten ist entsprechend hoch, umfassende experimentelle Untersuchungen sind für Datenmengen dieser Größenordnung jedoch nicht durchführbar. Es bedarf automatisierter Verfahren zur schnellen und zuverlässigen Auswertung, die mit den Fortschritten der Genomsequenzierung Schritt halten können.

Wir stellen eine Methode zur automatisierten Annotation von Gensequenzen vor, durch die noch uncharakterisierte Sequenzstücke mit Termen eines vordefinierten Vokabulars gekennzeichnet werden. Sie basiert auf der Erkenntnis, dass ein Großteil der Gene und Proteine allen Organismen gemeinsam ist [1]. Mit Hilfe eines Sequenzvergleichsverfahrens haben wir Annotationsterme ähnlicher, bereits bekannter Sequenzen extrahiert und mit Attributen versehen. Unter Verwendung von Support-Vektor-Maschinen konnten wir einen Klassifikator konstruieren, der die Übertragbarkeit dieser Terme auf die unbekannte Sequenz bewertet.

Methoden

Als Datenquelle bereits annotierter Sequenzen dienten uns 13 organismusspezifische cDNA-Datenbanken. Für die Auswertung berücksichtigten wir ausschließlich Informationen, die im vom Gene Ontology (GO) Consortium entwickelten Gene Ontology-Format vorlagen. Die GO besteht aus einem dynamischen, gemeinsamen Vokabular für die Annotation von Genen und Genprodukten aller Organismen [1].

Die Suche nach ähnlichen Sequenzen wurde durch das Sequenzvergleichsverfahren BlastX durchgeführt. Es liefert neben den Treffersequenzen auch Informationen über die Signifikanz der jeweiligen Übereinstimmung [2]. Wir extrahierten die GO-Annotation dieser Treffer und generierten für jeden Term 31 Attribute, die Informationen über seine Übertragbarkeit auf die Suchsequenz enthalten.

Des Weiteren verwendeten wir eine Methode aus dem Bereich des Maschinellen Lernens, die Support-Vektor-Maschinen (SVM), die unter anderem zu Klassifizierungszwecken eingesetzt werden kann. Hierzu bilden die SVM numerische Eingabevektoren in einen hochdimensionalen Merkmalsraum ab und konstruieren anhand von Trainingsdaten genau die Hyperebene, welche die Daten der verschiedenen Klassen bestmöglichst trennt, die sog. Optimal Separierende Hyperebene (OSH) [3], [4]. In der hier vorgestellten Anwendung wurden die SVM zur Klassifizierung von bezüglich der Suchsequenz richtigen bzw. falschen GO-Termen herangezogen. Als Trainingsdatensatz dienten die Sequenzen aus den 13 Sequenzdatenbanken. Dabei wurde jeweils der Zielorganismus, dem die Suchsequenz entstammte, bei den BlastX-Suchen nicht berücksichtigt. Die Attribute der mit den Treffern assoziierten GO-Terme bildeten die Eingabevektoren, anhand derer die SVM die Unterscheidung der Klassen erlernten (also die OSH konstruierten).

Im Anschluss an eine Parameteroptimierung erfolgte das Training und Testen mit verschiedenen, voneinander unabhängigen Trainings- und Testdatensätzen.

Ergebnisse

Nach den BlastX-Suchläufen lagen uns 856.632 Datensätze vor. Wiederholte Versuche erwiesen, dass bereits mit einem Anteil von nur 3 % bzw. 1,5 % der Daten repräsentative SVM trainiert werden konnten.

Durch die Variation der Gewichtsfaktoren für falsch positive bzw. falsch negative Zuordnungen konnten entweder die Präzision (Anteil der richtigen Ergebnisse an den positiv klassifizierten Beispielen) oder die Genauigkeit (Anteil richtig vorhergesagter Beispiele an allen Beispielen) optimiert werden.

Testläufe für die vier Organismen Maus, Fruchtfliege, Hefe (Eukaryoten) und einem Bakterium (Prokaryot) wiesen Vorhersagegenauigkeiten zwischen 70 % und 80 % auf, wobei die Ergebnisse für die Eukaryoten jeweils über 75 % lagen.

Diskussion

Die Tests mit verschiedenen Organismen unter Ausschluss des jeweiligen Zielorganismus belegen die übergreifende Anwendbarkeit unseres Verfahrens insbesondere auch auf noch nicht charakterisierte Organismen. Für einen vollautomatisierten Einsatz sollte jedoch die Vorhersagegenauigkeit erhöht werden; dabei wird ein Augenmerk auf die Reduzierung der falsch positiven Vorhersagen, also eine Erhöhung der Präzision gelegt. Einfluss auf die Zuverlässigkeit der Vorhersage haben unter anderem auch die Qualität und Vollständigkeit der zugrunde liegenden Trainingsdaten. Mit der fortschreitenden Annotation durch Experten werden diese weiterhin zunehmen, was wiederum zu verbesserten automatisierten Verfahren führen wird.


Literatur

1.
The GeneOntologyConsortium. GeneOntology: tool for the unification of biology. Nature Genetics 2000; 25: 25-29.
2.
Altschul SF, Gish W, Millers W, Myers EW, Lipman DJ. Basic Alignment Search Tool. Journal of Molecular Biology 1990; 215(3): 403-410
3.
Vapnik VN. Statistical Learning Theory. John Wiley & Sons, Inc.; 1998
4.
Christianini N, Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press; 2000