gms | German Medical Science

GMS Medizinische Informatik, Biometrie und Epidemiologie

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

ISSN 1860-9171

Normalisierungs-Methoden für one-channel Microarrays in der Organismen-Identifikation

Normalization of one-channel microarrays for identification of organisms

Originalarbeit

  • corresponding author Astrid Zierer - Bremer Institut für Präventionsforschung und Sozialmedizin, Bremen, Deutschland
  • Achim Reineke - Bremer Institut für Präventionsforschung und Sozialmedizin, Bremen, Deutschland
  • Denja Drutschmann - Centrum für Angewandte Gensensorik, Universität Bremen, Bremen, Deutschland
  • Dietmar Blohm - Centrum für Angewandte Gensensorik, Universität Bremen, Bremen, Deutschland
  • Iris Pigeot - Bremer Institut für Präventionsforschung und Sozialmedizin, Bremen, Deutschland

GMS Med Inform Biom Epidemiol 2007;3(1):Doc06

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/journals/mibe/2007-3/mibe000054.shtml

Published: March 15, 2007

© 2007 Zierer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Microarrays werden vor allem in der Genexpressionsanalyse eingesetzt, bieten aber auch für andere Bereiche wie die Organismen-Identifikation ein breites Anwendungsfeld. Um die Ergebnisse von Microarrays vergleichen und damit nutzen zu können, ist eine Standardisierung, in diesem Zusammenhang Normalisierung genannt, notwendig. Hier wird ein Datensatz von Microarrays vorgestellt, dessen Einsatz die Identifikation verschiedener Subtypen des Hepatitis-C-Virus zum Ziel hat. Die Methoden, die zur Normalisierung im Bereich der Genexpressionsanalyse entwickelt wurden, sind für den Einsatz in der Organismen-Identifikation nur bedingt geeignet und erfordern daher Modifikationen. In diesem Artikel werden ausgehend von der gegebenen Datensituation verschiedene Möglichkeiten zur Modifikation bestehender Methoden für die Anwendung in diesem Bereich aufgezeigt.

Schlüsselwörter: Normalisierung, one-channel Microarrays, Organismen-Identifikation, Loess

Abstract

Microarrays are widely used in gene expression analysis, but there are further areas they can be applied to, like e.g. the identification of organisms. To interpret and compare the results of microarray experiments it is necessary to standardize the data. In this context standardization is referred to as normalization. We present data derived from a microarray experiment aiming to identify different subtypes of the hepatitis C virus. Most of the methods developed to normalize microarray data are focused on gene expression analysis. Their use for the identification of organisms is restricted and needs adaption for the special requirements. Based on our data setting, we present several possibilities how to modify the existing methods and deal with the specific conditions.

Keywords: normalization, one-channel microarrays, identification of organisms, loess


1. Einleitung

Die fortschreitende Entwicklung der Microarray-Technik hat in den letzten Jahren eine Vielzahl neuer Einsatzgebiete eröffnet. Wichtigstes Beispiel ist die Genexpressionsanalyse. Microarrays sind in diesem Gebiet inzwischen zu einem Standardinstrument geworden. Die aus Microarray-Experimenten resultierenden Messwerte unterliegen starken systematischen und zufälligen Schwankungen. Um die Werte für eine weitere Analyse nutzen zu können, ist eine Korrektur (Normalisierung) notwendig.

Neben der Genexpressionsanalyse werden weitere große Anwendungsgebiete für Microarrays derzeit bei der Organismen-Identifikation, der Genotypisierung und vielen anderen Verfahren der biomedizinischen Diagnostik erschlossen. In der hier beschriebenen Studie werden Microarrays zum Nachweis und zur Klassifikation von unterschiedlichen Subtypen des Hepatitis-C-Virus eingesetzt.

Das Hepatitis-C-Virus (HCV) tritt in verschiedenen Ausprägungen auf. Man unterscheidet zunächst auf der Ebene von Genotypen, die ihrerseits in Subtypen unterteilt werden. Diese Klassifizierung basiert u.a. auf Sequenzunterschieden [3] innerhalb des HCV-Genoms. Die HCV-Genotypen sind mit Zahlen in der Reihenfolge ihrer Entdeckung gekennzeichnet (1...9) [17]. Die DNA-Sequenzen des gleichen Genotyps (z.B. Typ 1) stimmen in der Abfolge der Nukleotide zu 65,7% bis 68,9% überein. Allgemein anerkannt sind sechs verschiedene Genotypen (die Typen 7, 8 und 9 werden meist dem Typ 6 zugeordnet), die in ca. 90 Subtypen untergliedert werden. Subtypen sind näher verwandte HCV-Stämme innerhalb eines Genotyps und werden mit zusätzlichen kleinen Buchstaben gekennzeichnet (1a, 1b etc.). Die Übereinstimmung der DNA-Sequenzen innerhalb eines Subtyps liegt zwischen 76,9% und 80,1%.

Im Fall einer Infektion mit Hepatitis-C-Viren kann eine zuverlässige Klassifizierung des Erregers von entscheidender klinischer Bedeutung sein, denn der Erfolg der eingesetzten Therapien ist in hohem Maße vom Typ des Virus abhängig. Diese Unterscheidung ist zum Teil bis auf die Ebene der Subtypen erforderlich.

Zur Hepatitis-C-Virus-Diagnose werden eine Reihe verschiedener Verfahren eingesetzt. Die von Drutschmann und Blohm entwickelten Microarrays [6], [7] dienen primär dem universellen Nachweis von HCV und der gleichzeitigen Identifikation der klinisch wichtigen Subtypen. Sie erfolgt durch die Verwendung ausgewählter Sequenzen, die jeweils allein oder in Kombination spezifisch für einen Subtyp sind. Derartig erstellte Microarrays weisen allerdings einige Besonderheiten auf, die bei der anschließenden Auswertung beachtet werden müssen. Im Gegensatz zur verbreiteten Array-Anwendung, die der Messung der Genexpression dient, werden zur Organismen-Identifikation gespottete one-channel Arrays eingesetzt. Deren Auswertung zielt auf die Ermittlung von Absolutwerten und ist deutlich komplizierter als die Analyse der Expressionsmessungen, die auf Vergleichsmessungen zwischen unterschiedlich markierten Molekülen beruht. Weitere Besonderheiten ergeben sich durch die geringe Anzahl, die besondere Anordnung der Spots sowie durch den hohen Anteil an Sequenzen die mit der Probe reagieren. Diese Gegebenheiten verhindern die Anwendung von Standardmethoden und erfordern die Entwicklung bzw. Anpassung von Verfahren, die diesen Besonderheiten Rechnung tragen.

In der vorliegenden Arbeit wird in Abschnitt 2 zunächst eine Einführung in die Fragestellung und eine Beschreibung der Grundlagen gegeben. In Abschnitt 3 werden verschiedene Methoden zur Analyse vorgestellt und modifiziert. Schließlich werden in Abschnitt 4 die Ergebnisse ihrer Anwendung auf den vorliegenden Datensatz dargestellt und in Abschnitt 5 kurz diskutiert und zusammengefasst.


2. Materialien und Fragestellung

2.1 Microarrays

Allen Microarrays ist gemeinsam, dass auf einem Trägermaterial einzelsträngige DNA immobilisiert wird, deren Sequenz komplementär zu derjenigen Sequenz ist, die im Untersuchungsmaterial nachgewiesen werden soll. Die ursprünglich in Form einer Doppelhelix vorliegende DNA wird dazu in die beiden Einzelstränge getrennt (denaturiert). Durch die Eigenschaft der komplementären Bindung des genetischen Materials kann so das Vorhandensein einer bestimmten DNA-Sequenz nachgewiesen und damit z.B. ein dazugehöriger Organismus bestimmt werden. Von den zwei häufigsten Arten von Microarrays wird ein Typ mit Hilfe photolithographischer Verfahren in situ produziert [13], [15]. Die andere Art von Microarrays enthält separat hergestellte DNA-Sequenzen, die mit einem Roboter an vorher definierte Positionen auf einem Träger aufgebracht (gespottet) werden [16].

Die Arrays werden mit fluoreszent markierten PCR (Polymerase chain reaction) Produkten oder cDNAs hybridisiert, die zuvor aus dem zu untersuchenden Gewebematerial gewonnen wurden (Probe). Dabei werden die fluoreszent markierten Nukleotide, meist Cy3-dUTP und Cy5-dUTP, während der enzymatischen Synthese der PCR Produkte oder cDNAs eingebaut. Als Hybridisierung wird die Anlagerung einzelsträngiger DNA an ihre Sequenz-komplementäre, ebenfalls einzelsträngige Zielsequenz bezeichnet. Die erfolgreiche Bindung der markierten Probe an eine der aufgebrachten Sonden verursacht eine fluoreszente Einfärbung der Array-Position, an der sich die entsprechende komplementäre Sonde befindet. Diese Information wird über einen Scanner digitalisiert und für jeden Spot in Form von Helligkeitswerten (Intensitäten) für die weitere Bearbeitung bereitgestellt.

Grundlage für ein statistisches Modell ist die Annahme, dass die Spotintensität proportional zur tatsächlichen Menge an genetischem Material ist, das an die jeweilige Gensequenz auf dem Array bindet. Aufgrund des komplexen Verfahrens und der zugrunde liegenden biologischen Faktoren gibt es jedoch eine Reihe von Fehlerquellen, die das Ergebnis beeinflussen. Die Ursachen solcher Variationen können in den verschiedenen Phasen des Experimentes liegen [11] und stellen ein Problem dar, wenn verschiedene Gensequenzen auf einem Array oder aber verschiedene Arrays verglichen werden sollen.

Dabei sind die Strategie zur Fehlervermeidung und die Wahl der geeigneten Korrekturmethoden insbesondere vom Typ des Arrays und von den Bedingungen des Experimentes abhängig. In situ hergestellte Arrays sind aufgrund des standardisierten Herstellungsverfahrens weniger anfällig gegenüber räumlichen Fehlern; zudem werden spezielle Mismatch-Sonden zur Fehlerkorrektur eingesetzt. Diese Arrays enthalten aber im Vergleich zu gespotteten Microarrays deutlich mehr Sequenzfehler [8], [10], die mit Hilfe der Mismatch-Sonden nur zum Teil korrigiert werden können. Gespottete Arrays weisen hingegen größere Abweichungen bei Lage, Form und Gleichförmigkeit der Spots auf. Auf gespotteten Arrays werden in der Regel zwei unterschiedlich markierte DNA-Proben hybridisiert, die aus den zu vergleichenden biologischen Proben, beispielsweise aus Tumorgewebe oder aus gesundem Gewebe isoliert und mit rot bzw. grün fluoreszierenden Farbstoffen markiert werden. Bei dieser "two-channel" Messung der Gen-Aktivitäten in verschiedenen Geweben (Expression Profiling) wird das Verhältnis der Proben zueinander betrachtet. Dabei erübrigen sich viele der sonst erforderlichen Korrekturen, da sich die Einflussfaktoren auf beide Proben in weitgehend gleicher Weise auswirken.

Bei dem hier vorgestellten Einsatz von gespotteten "one-channel" Arrays geht es darum zu messen, ob bestimmte Sequenzen in einer Probe an- oder abwesend sind. Beispiele dafür sind die Identifikation von Organismen, die Diagnose von Viren oder die Analyse von Mutationen. Bei dieser Art der Verwendung von Microarrays sind die Anforderungen an die durchzuführende Fehlerkorrektur besonders hoch, da die Ermittlung von Verhältniswerten über einen direkten Vergleich nicht möglich ist.

In der Literatur werden verschiedene Methoden der Fehlerkorrektur, der Datenaufbereitung und der abschließenden Analyse diskutiert. In einem Artikel von Edwards [9], der sich mit der Hintergrundkorrektur und Normalisierung von gespotteten one-channel Microarrays befasst, werden ähnliche Problematiken behandelt. Weitere Ansätze zur Normalisierung von one-channel Microarrays lassen sich der Arbeit von Yang und Thorne [19] entnehmen, die, obwohl sie zweifarbig gespottete Microarrays zur Verfügung haben, die einzelnen Farbkanäle getrennt zur Normalisierung nutzen.

Der Fokus liegt im Folgenden auf der Auswertung gespotteter one-channel Microarrays, wie sie im Bereich der Virendiagnostik und bei anderen Verfahren der Genotypisierung bzw. Organismen-Identifikation eingesetzt werden.

2.2 Fehlerquellen

Jedes Microarray-Experiment kann in verschiedene Phasen unterteilt werden. In jeder Phase existieren Quellen für eine unerwünschte Variation in den gemessenen Ergebnissen [11], die in diesem Abschnitt näher erläutert werden sollen.

Beispielsweise kommt es bereits während der Herstellung der Arrays zu Abweichungen in der Oberflächenstruktur der Objektträger. Diese können z.B. aus kleinen Unebenheiten in der Oberfläche resultieren oder aus Fehlern bei der Oberflächenmodifizierung (Beschichtung) des Objektträgers. Eine weitere Fehlerquelle sind Unregelmäßigkeiten beim Aufbringen der Spots. Diese reichen von Unterschieden in der jeweils abgegebenen Menge des DNA-Materials pro Spot bis zum völligen Auslassen einzelner Spots. Abhängig von der Qualität des Roboters können auch Abweichungen bei der Form und der Position der einzelnen Spots auf dem Array auftreten.

Eine weitere Fehlerquelle ist die Präparation der Proben, denn der Einbau der verschiedenen Farbstoffmoleküle kann sowohl von den Gensequenzen als auch von diversen Umgebungsbedingungen beeinflusst werden. Generelle Unterschiede der verwendeten Markierungen, z.B. in der Effizienz der fluoreszierenden Farben und den daraus resultierenden Intensitätswerten, müssen korrigiert werden.

Auch die Hybridisierungsphase beinhaltet weitere Quellen für Variationen, indem sich z.B. die aufgebrachte Probe innerhalb eines Arrays nicht gleichmäßig verteilt oder von Array zu Array variiert. Besonders schwierig ist mit der Tatsache umzugehen, dass die Hybridisierungseffizienz der PCR- bzw. cDNA-Proben und damit auch die Fluoreszenzmesswerte variieren können, ohne dass die zugrunde liegenden Ursachen dafür bekannt sind.

Weitere Variationen kommen bei der anschließenden Bildverarbeitung hinzu, da die vom Scanner erstellte digitale Abbildung des Arrays von zahlreichen physikalischen Parametern abhängig ist, die sich je nach Geräteeinstellung verschieden auswirken können. Auch die Lokalisierung der Spots und die Bestimmung der Vorder- und Hintergrundwerte spielen eine große Rolle.

Unterschieden werden muss zwischen systematischen und zufälligen Variationen sowie zwischen Variationen, die einen engen räumlichen Bezug haben, und solchen, die sich über das ganze Array erstrecken. Die Durchführung von Korrekturen, die eine Vergleichbarkeit der einzelnen Messungen zum Ziel hat, wird als Normalisierung bezeichnet.

2.3 Datensatz

Ausgewertet wurde ein vom Centrum für Angewandte Gensensorik (CAG) erhobener Datensatz zum Hepatitis-C-Virus. Untersucht wurden vier verschiedene HCV-Subtypen bzw. Genotypen. Die Sub- bzw. Genotypen 1a, 3 und 4 wurden auf je sechs Arrays hybridisiert, der Subtyp 1b auf drei Arrays (vgl. Tabelle 1 [Tab. 1]). Jedes dieser Arrays umfasst 625 Spots, davon sind 74 Negativkontrollen, 155 Positivkontrollen und 396 Gen-Sonden.

Jede der 66 verschiedenen, 15-25 Basen (im Durchschnitt 18.27 Basen) langen Gen-Sonden wurde mit jeweils sechs Wiederholungen pro Array berührungslos gespottet. Als Probe dient ein 209 Basen langes, Cy5-markiertes PCR-Fragment vom 5’-Ende des HCV-Genoms. Die Anordnung auf dem Array erfolgte systematisch in Quadrupolen aus je drei gleichen Sonden und einer Positivkontrolle (siehe Abbildung 1 [Abb. 1]), d.h. zwei Quadrupole je Gen. Auf diese Weise sind zahlreiche Positivkontrollen (PKs) gleichmäßig über den Array verteilt und sollten im günstigsten Fall stets gleich starke Signale ergeben. Zusätzlich dazu wurden weitere Positivkontrollen in der Mitte und an den Randbereichen des Arrays positioniert. Als Positivkontrolle diente das Oligonukleotid S_U23G. Die Arrays wurden mit einem Axon 4000b Scanner digitalisiert, und die Bildanalyse wurde mit der Software Genepix durchgeführt.

2.4 Problemstellung

Die Problematik der Auswertung der Arrays liegt zum einen in den vielfältigen Einflüssen, die das Ergebnis verfälschen können und eindeutige Aussagen erschweren, wie es auch bei Microarray-Experimenten zur Messung der Genexpression durchaus üblich ist. Zum anderen liegt die Problematik aber auch in den speziellen Gegebenheiten des Einsatzes von Microarrays für Genotypierungs-Experimente und im konkreten Fall darin, dass die verwendeten one-channel Microarrays nur etwa 600 Spots beinhalten, eine geringe Anzahl im Vergleich zu den üblicherweise in Microarray-Experimenten verwendeten Arrays. Zudem verteilen sich die gemessenen Werte im vorliegenden Fall nicht gleichmäßig über den Wertebereich. Normalisierungsverfahren, die in verschiedenen Software-Paketen oder Programmen implementiert sind, setzen eine größere Anzahl an Spots voraus und können nicht ohne Anpassungen übernommen werden.

Im Normalisierungsprozess werden z.B. häufig Glättungsfunktionen eingesetzt, die auf der locally weighted polynominal regression (loess) von Cleveland [4] beruhen. Bei diesen Verfahren wird eine Regression jeweils auf einem Teil der Daten ausgeführt. Die Gesamtheit der durchgeführten Anpassungen ergibt dann eine Glättungsfunktion zur Korrektur der Daten. Voraussetzungen für eine stabile Anpassung ist eine ausreichende Anzahl an Beobachtungen. Zudem setzen derartige Normalisierungsverfahren eine gleichmäßige Verteilung der Beobachtungen über den gesamten Wertebereich voraus. In Wertebereichen, für die nur wenig Daten vorliegen, können keine sinnvollen Anpassungen durchgeführt werden.

Ein zusätzliches Problem besteht beim vorliegenden Datensatz darin, dass die hybridisierende Probe nicht nur mit einigen wenigen, sondern mit einem großen Anteil der gespotteten Gen-Sonden reagiert. Eine Reihe von publizierten Normalisierungs-Methoden setzt voraus, dass nur ein kleiner Teil der untersuchten Sequenzen ihren Zustand ändert und damit die Normalisierung mit robusten Verfahren nicht beeinflusst.

Der überwiegende Teil der bekannten Normalisierungs-Methoden wurde primär für den Einsatz bei two-channel Microarrays entwickelt. Für die Normalisierung von gespotteten one-channel Microarrays sind diese Standardmethoden zum Teil nicht einsetzbar oder müssen zumindest angepasst werden. Die oben beschriebenen Probleme stellen deshalb besondere Anforderungen an die angewendeten statistischen Verfahren.


3. Methoden

In diesem Abschnitt werden verschiedene Methoden zur Normalisierung vorgeschlagen, deren Anwendbarkeit auf die vorliegende Situation in der Organismen-Identifikation in Abschnitt 4 näher untersucht wird.

3.1 Globale Normalisierung

Für den Einstieg in die Methoden zur Normalisierung eines Arrays sei zunächst ein relativ einfacher Ansatz gewählt. Dabei wird angenommen, dass die Spotintensität proportional zum tatsächlichen Bindungspotential der aufgebrachten Gensequenz (genannt "Gen-Sonde") g ist. Damit lässt sich die Spotintensität Z gir eines Arrays i, i=1, ..., I, einer Gensequenz g, g=1,..., G, und der Wiederholung r, r=1, ..., R, durch das multiplikative Modell

Z gir =k i α g θ g ψ gir (1)

angeben, wobei k i eine Array-spezifische Konstante, α g eine Sequenz-spezifische Konstante, θ g den Intensitätslevel der Gensequenz g und ψ gir den Fehler mit E gir )=1 bezeichnet. Es wird hier davon ausgegangen, dass keine Interaktionen auftreten. Die Sequenz-spezifische Konstante steht für ein möglicherweise unterschiedliches Bindungspotential einer bestimmten Gensequenz, beispielsweise beeinflusst durch die Bindungsenergie einer bestimmten Abfolge von Nukleotiden. Die Intensität eines Spots für die gleiche Gensequenz unterscheidet sich, abgesehen vom Fehlerterm, nur um die Array-spezifische Konstante. Unter diesem Modell reicht eine Skalenadjustierung aus, um die Intensitätslevel für einzelne Gensequenzen g vergleichen zu können.

Diese Form der Normalisierung wird als globale Normalisierung bezeichnet. Für die log-transformierten Intensitäten, meist wird ein Logarithmus zur Basis 2 verwendet, erhält man ein klassisches additives Modell

log2(Z gir )=log2(k i )+log2(α g )+log2(θ g )+є gir (2)

mit є gir =log2 gir ).

In diesem Ansatz findet entsprechend den Annahmen des Modells ein räumlicher Bias keine Berücksichtigung, wie er z.B. durch Unebenheiten in der Oberfläche eines Sildes entstehen kann. Auch ein nichtlinearer Bias in der Intensität, der in Genexpressions-Experimenten häufig beobachtet wurde (vgl. z.B. [14], [18]), wird vernachlässigt. Im Folgenden soll auf Lösungsmöglichkeiten für die Einbeziehung dieser Aspekte in ein Modell näher eingegangen werden. Dazu wird in Abschnitt 3.2 auf die Korrektur des räumlichen Bias und in Abschnitt 3.3 auf Methoden zur Korrektur eines Intensitäts-Bias eingegangen.

3.2 Korrektur des räumlichen Bias

Bei two-channel Microarrays wird das Verhältnis zweier Proben zueinander innerhalb eines Spots betrachtet. Die Proben sind mit unterschiedlich fluoreszierenden Farben markiert, wobei für jeden Spot das Verhältnis aus beiden Intensitäten betrachtet wird. Es kann meist davon ausgegangen werden, dass ein räumlicher Bias beide Messungen gleichermaßen beeinflusst, so dass viele der Einflussfaktoren nicht berücksichtigt werden müssen. Für one-channel Microarrays stellt sich das Problem des räumlichen Bias als möglicherweise gravierend dar, da hier eine solche Möglichkeit des Bezugs auf eine Referenz nicht besteht.

Eine räumliche Korrektur lässt sich in Hinblick auf diskrete und stetige räumliche Heterogenität unterteilen. Diskrete räumliche Heterogenität wird z.B. durch "Print-tip"-Gruppen oder punktuelle Fehler in der Oberfläche eines Slides verursacht. Ein stetiger Bias kann durch Unterschiede in der hybridisierten Menge oder auch durch Unebenheiten in der Oberfläche des Slides verursacht werden.

Zur Korrektur eines stetigen räumlichen Bias schlägt Edwards [9] für gespottete one-channel Microarrays, zurückgehend auf Colantuoni et al. [5], eine Anpassung mit Hilfe einer zweidimensionalen lokal gewichteten Regression [4] an die Koordinaten des Arrays vor. Die lokal gewichtete Regression, auch kurz mit loess bezeichnet, ist eine Prozedur zur Anpassung einer Regressionsoberfläche durch multivariate Datenglättung. Bezogen auf das Modell zur Normalisierung bedeutet dies, dass die Array-spezifische Konstante k i aus (1) nun als eine Funktion der Koordinaten ƒ i (x, y) für die Position des Spots auf dem Array variiert. Voraussetzungen dabei sind, dass sich für die verschiedenen Arrays die Zustände der Gensequenzen nur geringfügig unterscheiden und auch keine systematische Anordnung der Gensequenzen auf dem Array vorliegt. Ist dies nicht erfüllt, kann das "Fenster" zur Berechnung der lokal gewichteten Regression für die Anpassung entsprechend zu viele höher oder niedriger ausgeprägte Sequenzen enthalten, so dass dies zu einer Verfälschung der Ergebnisse führt.

Es gibt Situationen, für die diese Voraussetzungen nicht erfüllt sind, wie z.B. beim Vergleich verschiedener Zellarten. Im vorliegenden Datensatz sind die Gensequenzen, wie man anhand des Layouts in Abbildung 1 [Abb. 1] erkennen kann, systematisch in Dreier-Gruppen angeordnet, so dass bei einem "Fenster" für die Regression eine systematische Beeinflussung durch die jeweiligen Werte besteht. Als Alternative dazu kann zur räumlichen Korrektur auf sogenannte "housekeeping genes" oder Positivkontrollen zurückgegriffen werden, falls diese räumlich gleichmäßig über das Array verteilt sind. Dafür wird die folgende Korrektur vorgeschlagen, deren Prinzip sich an der eben beschriebenen Methode orientiert.

Sei Equation 1 ein geeigneter Schätzer für einen Lageparameter der Verteilung der Intensitäten der Positivkontrollen auf Array i. Die korrigierte Intensität wird als Equation 2 berechnet, wobei der Korrekturfaktor

Equation 3 (3)

den Schätzer für die Positivkontrollen aus einer festzulegenden δ-Umgebung U δ der Koordinaten des Spots (x, y) ins Verhältnis zum Schätzer für alle Positivkontrollen auf diesem Array setzt. Der Korrekturfaktor c i (x, y) nimmt genau dann den Wert 1 an, wenn der Schätzer in der Umgebung des Spots und jener für das gesamte Array den gleichen Wert annehmen. Als Schätzer für den Lageparameter können das arithmetische Mittel oder besser robuste Varianten wie der Median oder ein getrimmtes Mittel verwendet werden. Als Umgebung bieten sich z.B. alle direkt angrenzenden Spots an. Wie und wieweit der Umgebungsbegriff gefasst werden sollte, ist abhängig von der Größe und Struktur des Arrays und der Verteilung der Positivkontrollen.

Mit dieser Korrektur wird jedoch nur eine systematische Abweichung in der Oberfläche berücksichtigt. Korrekturen für punktuelle Veränderungen sind nicht möglich. Eine zusätzliche Berücksichtigung eines nicht-linearen Bias in der Intensität findet sich im folgenden Abschnitt 3.3.

3.3 Korrektur des Intensitätsbias

Für gespottete two-channel Microarrays liegt der Intensitätsbias in dem unterschiedlichen Verhalten der beiden Farben, üblicherweise Cy3 und Cy5, begründet, mit denen die beiden hybridisierten Proben markiert wurden. Im Gegensatz dazu resultiert der Bias für die gespotteten one-channel Microarrays oder auch in situ hergestellte Microarrays aus einer nicht-linearen Variation von Array zu Array.

Sind innerhalb eines Arrays r =1, ..., R Wiederholungen verfügbar, so werden diese im Allgemeinen durch das geometrische Mittel bzw. das arithmetische Mittel der logarithmierten Werte zusammengefasst, Z i =(Z1 i , ..., Z Gi ) bzw. X i =(X 1 i , ..., X Gi ) bezeichnen dabei die zugehörigen Vektoren. In der Analyse von Microarrays werden die Daten häufig anhand von sogenannten MA-Plots dargestellt, wobei für zwei Farben bzw. Arrays i und j mit i, j I das logarithmierte Verhältnis der Intensitäten M g =log2(z gi /z gj ) gegen die mittlere Gesamtintensität
, angetragen wird. Liegt kein Intensitätsbias vor, so sollten die Daten eine Punktwolke zeigen, die um die Horizontale M=0 streut.

Um einem nicht-linearen Intensitätsbias zu begegnen, werden derzeit im wesentlichen zwei Verfahren genutzt, die bereits oben erwähnte loess-Prozedur [4] und die Quantil-Normalisierung [2]. Bei der lokal gewichteten Regression wird für den MA-Plot eine Glättungsfunktion mittels der loess-Funktion angepasst, die dann zur Korrektur für die logarithmierten Verhältnisse der Intensitäten herangezogen wird. Es gibt verschiedene Varianten (vgl. z.B. [1], [2], [14]), diese Methode zum Vergleich zweier Arrays bzw. zweier Farben auf einem Array für eine Anwendung auf I Arrays zu erweitern.

Bei der Quantil-Normalisierung hingegen werden die empirischen Verteilungen der Arrays entsprechend ihrer Quantile aneinander angepasst. Sie stellt eine Erweiterung der Idee des Q-Q-Plots dar, für den die Verteilung zweier Datensätze gleich ist, wenn ihre Quantile auf der Diagonalen (Winkelhalbierenden) liegen. Dieser Ansatz wird auf alle I Arrays erweitert. Dazu werden der Vektor q s =(q s1 , q s2 , ..., q sI ) für die s-ten Quantile, s=1, ..., S sowie die Einheits-Diagonale als definiert und für die S Quantile jeweils das arithmetische Mittel über alle Arrays berechnet, das dann die Werte der Originaldaten ersetzt. Aufgrund dieser Projektion von q auf d mit

(4)

wird impliziert, dass die Quantile entlang der Diagonalen d liegen.

Grundsätzlich bieten beide Verfahren auch für gespottete one-channel Microarrays eine gute Anwendbarkeit. Allerdings setzen die Methoden voraus, dass die Verteilung der Intensitätslevel insgesamt auf jedem der Arrays gleich ist. Ist diese Bedingung nicht erfüllt, können für die Korrektur lediglich Gensequenzen genutzt werden, die über die verschiedenen Arrays hinweg ranginvariant sind (vgl. [12], [14]). Das heißt, dass nur jene Gensequenzen für die Normalisierung eingesetzt werden, die für die beiden zu vergleichenden Arrays (d.h. zu normalisierendes und Baseline) bzw. für alle Arrays den gleichen Rang der geordneten Intensitäten auf dem Array einnehmen. Diese sehr harte Bedingung der Ranginvarianz kann in der Hinsicht aufgeweicht werden, als dass auch solche Gensequenzen für die Normalisierung herangezogen werden, die nur geringe Abweichungen in den Rängen aufweisen. Dazu kann die relative Rangdifferenz (engl. "proportion rank difference", PRD) zwischen zwei Arrays, definiert als die absolute Differenz dividiert durch die Anzahl der berücksichtigten Gensequenzen (Ränge) G*

(5)

herangezogen und ein Grenzwert für die PRD festgelegt werden. Alle Gensequenzen, deren PRD unterhalb des entsprechenden Grenzwertes liegen, werden dann als nahezu ranginvariant betrachtet.

Für die Normalisierung wird eine ausreichende Anzahl an Gensequenzen über das gesamte Spektrum der Intensitäten hinweg benötigt. Dies kann durch die Reduktion auf die invarianten Gensequenzen ein Problem insbesondere im Bereich höherer Intensitäten darstellen. Um diesem zu begegnen, werden die Grenzen für die PRD für höhere Ränge abgeschwächt, indem abhängig vom mittleren relativen Rang der Intensitäten der jeweiligen Gensequenz eine Interpolation zwischen einem unteren und oberen Grenzwert erfolgt. Zusätzlich benutzen Li und Wong [12] eine Iteration in Hinblick auf die Gensequenzen, die in die Berechnung der PRD eingehen, um eine stabileres Ergebnis für die invariante Menge von Gensequenzen zu erhalten.


4. Realisierung

4.1 Hintergrund

In der Organismen-Identifikation kann nicht davon ausgegangen werden, dass die Verteilung der Intensitätslevels für die verschiedenen Organismen (z.B. Subtypen) gleich ist, so dass die gängigen Verfahren zur Normalisierung basierend auf allen Gensequenzen hier nicht geeignet sind. Es werden üblicherweise Microarrays eingesetzt, auf denen im Vergleich zur Genexpressionsanalyse nur eine relativ geringe Anzahl verschiedener Sequenzen aufgebracht wird, da die Anzahl möglicher Sequenzen aus biologisch-technischen Gründen eingeschränkt ist. Insbesondere im Bereich der mittleren Intensitäten ist aufgrund des biologischen Hintergrundes und der Zielsetzung eine nur dünne Datenlage zu erwarten, die bei einer Beschränkung auf die nahezu ranginvarianten Gensequenzen problematisch ist. Hier sei in diesem Zusammenhang für die Korrektur des Intensitätsbias eine Beschränkung der loess-Methode auf eine einfache globale lineare Regression auf den logarithmierten Werten vorgeschlagen, die dieser Situation entgegen kommt. Die Daten lassen sich dadurch bereits relativ gut annähern, wobei gleichzeitig die Menge nahezu ranginvarianter Gene für eine stabile Anpassung ausreicht. Dieser Ansatz soll detaillierter vorgestellt werden.

4.2 Ergebnisse

Im Folgenden werden die Ergebnisse der Normalisierung für den in Abschnitt 2.3 vorgestellten Datensatz dargestellt. Das Vorgehen für diesen Datensatz der Hepatitis-C-Viren kann beispielhaft für den generellen Einsatz von one-channel Microarrays in der Organismen-Identifikation betrachtet werden.

Anhand der Positivkontrollen, die über das Array verteilt aufgebracht sind und alle die gleiche Intensität haben sollten, wird deutlich, dass ein stetiger räumlicher Bias vorliegt, der im Modell berücksichtigt werden muss. In der schematischen Darstellung eines Arrays (Abbildung 2 [Abb. 2]) ist der Farbverlauf in den Intensitäten der Positivkontrollen insbesondere von links nach rechts klar erkennbar.

Für die Hepatitis-C-Daten ist die Annahme, dass die Zustände des Großteils der Gensequenzen für die verschiedenen Arrays und damit auch für die unterschiedlichen Subtypen unverändert bleiben, nicht erfüllt. Zudem liegt eine systematische Anordnung der Gensequenzen (vgl. Abbildung 1 [Abb. 2]) durch die Quadrupole vor. Da die Annahmen für die loess-Methode [9] verletzt sind, wurde eine räumliche Korrektur mit einem Korrekturfaktor entsprechend Gleichung (3) vorgenommen. Dabei wurde der Datensatz mit dem Median als Lageparameter und den Positivkontrollen aus der unmittelbaren Umgebung des jeweiligen Spots normalisiert.

Anhand des Vergleichs von jeweils zwei Arrays, auf denen die gleiche Probe hybridisiert wurde, die also im Idealfall jeweils die gleichen Werte haben sollten, lässt sich das Ergebnis der Normalisierung überprüfen. Die Standardabweichungen innerhalb der R Wiederholungen auf einem Array für alle Gensequenzen vor und nach der räumlichen Korrektur verdeutlichen die Verbesserung in der Reproduzierbarkeit der Ergebnisse durch die räumliche Korrektur. So geht das arithmetische Mittel der Abweichung im Mittel über alle Arrays von 13.99 auf 12.72 und die maximale Standardabweichung je Array im Mittel von 219.49 auf 175.35 zurück. Die Streuung innerhalb der Arrays konnte also durch die räumliche Korrektur reduziert werden. Die Berücksichtigung eines diskreten räumlichen Bias, wie er beispielsweise durch Fehler beim Spotten verursacht werden kann, wurde damit allerdings nicht berücksichtigt.

Gleichzeitig zeigt sich, dass die Arrays in den log-Intensitäten Skalenunterschiede aufweisen, die nicht durch eine globale Normalisierung, das bedeutet eine Parallelverschiebung auf den log-Intensitäten, auszugleichen sind. Dies entspricht der Vermutung, dass auch für Arrays, die zur Organismen-Identifikation eingesetzt werden, ein nicht-linearer Intensitätsbias vorliegen kann.

Entsprechend der Zielsetzung der Arrays, die verschiedenen Subtypen zu unterscheiden, wurden Sequenzen ausgewählt, um möglichst Subtypen-spezifisch zu trennen. Gleichzeitig steht aufgrund der experimentellen Bedingungen (z.B. Temperatur, Bindungsenergie) und des Genoms des Hepatitis-C-Virus nur eine begrenzte Auswahl an möglichen Sequenzen zur Verfügung. Aus diesen Rahmenbedingungen folgt zum einen, dass nicht die "gleiche" Verteilung über die Intensitäten für die verschiedenen Subtypen vorliegt, zum anderen aber auch nur eine geringe Anzahl an nahezu ranginvarianten Gensequenzen für eine Normalisierung herangezogen werden kann. Daher wurde hier die loess-Methode linear, für nur ein "Fenster" über den gesamten Bereich vorgenommen, dies entspricht einer globalen linearen Regression. Abbildung 3 [Abb. 3] für zwei Arrays mit der gleichen Probe zeigt, dass die Daten der log-Intensitäten bereits durch Anpassung einer globalen Regression, d.h. einer Regressionsgerade, relativ gut modelliert werden können; zum Vergleich ist auch die Situation nach der unten beschriebenen Normalisierung dargestellt. Für dieses Modell liegt auch für die Gesamtheit der zu betrachtenden Arrays, also für die verschiedenen Subtypen, die verglichen werden sollen, eine ausreichende Anzahl nahezu ranginvarianter Sequenzen vor, um eine stabile Anpassung durchführen zu können.

Der folgende Algorithmus beschreibt das konkrete Vorgehen für eine Anpassung mittels linearer Regression anhand der nahezu ranginvarianten Gensequenzen. Existieren innerhalb eines Arrays R Replikationen für eine Gensequenz, so wird der Mittelwert berechnet. Anschließend werden die nahezu ranginvarianten Gensequenzen mit den log-Intensitäten ermittelt. Mit Hilfe dieser Gensequenzen wird iterativ für i=1,..., I zunächst das arithmetische Mittel aus den verbleibenden Arrays berechnet

und eine Regressionsgerade für an angepasst. Die Adjustierung der log-Intensitäten erfolgt dann mit den Parametern der Regressionsanpassung

In Abbildung 4 [Abb. 4] sind die Boxplots für die log-Intensitäten der Arrays dargestellt, die mit der gleichen Probe vom Subtyp 4 hybridisiert wurden. Für die anderen Subtypen ergibt sich ein ähnliches Bild. Dabei stammen Array 10, 11 und 12 sowie 16, 17 und 18 jeweils von einem Slide. Diese Gegenüberstellung vor und nach der Normalisierung verdeutlicht, wie durch die Normalisierung die Vergleichbarkeit der Arrays verbessert werden konnte, so dass die Werte für die verschiedenen Arrays näher beieinander liegen. Die Standardabweichung der jeweils gleichen Gensequenzen (Mittelwert der log-Intensitäten je Array) geht im Mittel für alle Subtypen zurück. Die Ergebnisse dazu sind in Tabelle 2 [Tab. 2] angegeben. Ähnliches gilt für die weiteren Kenngrößen, abgesehen von der maximalen Standardabweichung, die für die Subtypen 1a und 1b steigt. Für den Subtyp 1b ist hier generell nur schwer eine Aussage zu treffen, da dafür nur jeweils drei Arrays zur Berechnung der Standardabweichungen zur Verfügung stehen. Insgesamt wird deutlich, dass die Variabilität in den Messungen reduziert werden konnte.


5. Diskussion

Im Gegensatz zu den beim Expression Profiling üblichen Verfahren ist der Einsatz von Microarrays für Organismen-Identifikation und Diagnostik noch ein sehr junges Gebiet. Die Besonderheit der hier eingesetzten one-channel Microarrays liegt neben der Beschränkung auf eine aufgebrachte Probe in der relativ geringen Anzahl von verschiedenen Gensequenzen, die verwendet werden. Ein weiterer Aspekt dieses neuen Einsatzgebietes für Microarrays ist die Tatsache, dass sich mehr als ein vernachlässigbarer Anteil der Sequenzen in ihrem Zustand für die verschiedenen Organismen wie z.B. die vier untersuchten HCV-Subtypen verändern. Damit ist die übliche Annahme verletzt, dass sich der überwiegende Teil der Gensequenzen nicht verändert. Die Voraussetzung für weitere Untersuchungen ist eine zuverlässige Normalisierung der verwendeten Arrays, um eine Vergleichbarkeit der Ergebnisse zu erzielen. Eine geeignete Normalisierungs-Methode ist immer abhängig von den individuellen Gegebenheiten zu wählen. So ist für die Wahl z.B. entscheidend, ob starke Intensitätsunterschiede für die verschiedenen Gruppen zu erwarten sind, wie die Intensitäten verteilt sind oder wie viele Spots auf einem Array aufgebracht werden. Es gibt keine grundsätzlich beste Normalisierungs-Methode. Zur Beurteilung, wie gut eine Methode in einer gegebenen Situation funktioniert, können Messwiederholungen eingesetzt werden. Wird eine bestimmte Gensequenz an verschiedenen Positionen auf einem Array aufgebracht, so kann eine Verringerung der Variation zwischen diesen Werten (z.B. Standardabweichung) als Kriterium für eine gelungene Normalisierung verwendet werden. Ähnliches gilt für eine Normalisierung mit wiederholten Messungen auf verschiedenen Arrays.

Die Standardverfahren, die im Wesentlichen für die Genexpressionsanalyse entwickelt wurden, können hier nicht einfach übernommen werden. In der vorliegenden Arbeit wird eine Adaptation an diese Problemstellung am Beispiel der HCV-Genotypisierung beschrieben. Durch die Modifizierung der bekannten Verfahren konnte, wie in Abschnitt 3 und 4 beschrieben, für die vorliegenden Hepatitis-C-Daten über eine Normalisierung der primären Messwerte eine bessere Vergleichbarkeit erreicht und damit die Voraussetzung für weitere Analysen geschaffen werden. Mit Hilfe der Normalisierung war eine klarere Trennung zwischen den Subtypen und damit eine bessere Identifizierung möglich. Die beschriebenen Verfahren wurden für weitere Arrays zur gleichen Fragestellung eingesetzt. Dabei zeigten sich in der Tendenz die gleichen Ergebnisse. Jedoch war für Ausgangsmaterial von besserer Qualität ein geringerer Effekt der Normalisierung zu beobachten.


Anmerkung

Danksagung

Wir möchten beiden Reviewern für ihre hilfreichen Kommentare danken. Dieses Projekt entstand im Rahmen eines vom "Senator für Bildung und Wissenschaft der Freien Hansestadt Bremen" geförderten Vorhabens zur Bioinformatik und genetischen Epidemiologie.

Interessenkonflikte

Keine angegeben.


Literatur

1.
Åstrand M. Contrast normalization of oligonucleotide arrays. J Comput Biol. 2003;10(1):95-102.
2.
Bolstad B, Irizarry RA, Åstrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003;19(2):185-3.
3.
Choo Q-L, Richman KH, Han JH, et al. Genetic organization and diversity of the hepatitis C virus. PNAS. 1991;88(6):2451-5.
4.
Cleveland WS. Robust locally weighted regression and smoothing scatterplots. JASA. 1979;74(368):829-6.
5.
Colantuoni C, Henry G, Zeger SL, Pevsner J. Local mean normalization of microarray element signal intensities across an array surface: Quality control and correction of spatially systematic artifacts. BioTechniques. 2002;32(6):1316-20.
6.
Drutschmann DK, Nölte M, Blohm D. Virendiagnostik per Chip. Nachr Chem. 2002;50(4):454.
7.
Drutschmann DK. Untersuchungen zur Erkennung, zum Nachweis und zur simultanen Genotypisierung von Hepatitis C-Viren (HCV) mittels Mikroarrays. Dissertation. Universität Bremen; 2004.
8.
Dufva M. Fabrication of high quality microarrays. Biomol Eng. 2006;22(5-6):173-84.
9.
Edwards D. Non-linear normalization and background correction in one-channel cDNA microarray studies. Bioinformatics. 2003;19(7):825-33.
10.
Gao X, Gulari E, Zhou X. In situ synthesis of oligonucleotide Microarrays. Biopolymers. 2004;73:579-96.
11.
Hartemink AJ, Gifford DK, Jaakkola TS, Young RA. Maximum likelihood estimation of optimal scaling factors for expression array normalization. In: Bittner ML, Chen Y, Dorsel AN, Dougherty ER, editors. Microarrays: Optical technologies and informatics. 20-26 January, San Jose, CA, USA, Proceedings of SPIE; 2001. p. 132-40.
12.
Li C, Wong WH. Model-based analysis of oligonucleotide arrays: Model validation, design issues and standard error application. Genome Biol. 2001;2(8):research-0032.1-0032.11.
13.
Lipshutz RJ, Fodor SPA, Gingeras TR, Lockhart DJ. High density synthetic oligonucleotide arrays. Nat Genet. 1999;21(1 suppl):20-4.
14.
Schadt EE, Li C, Ellis B, Wong WH. Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. J Cell Biochem. 2001;84(suppl 37) :120-5.
15.
Schadt EE, Li C, Su C, Wong WH. Analyzing high-density oligonucleotide gene expression array data. J Cell Biochem. 2000;80(2):192-202.
16.
Schena M, Shalon D, Davis RW, Brown PO. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science. 1995;270(5235):467-70.
17.
Simmonds P, Holmes EC, Cha TA, et al. Classification of hepatitis C virus into six major genotypes and a series of subtypes by phylogenetic analysis of the NS-5 region. J Gen Virol. 1993;74(11):2391-9.
18.
Yang YH, Dudoit S, Luu P, Lin DM. Normalization for cDNA microarray data: A robust composite method addressing single and multiple slide systematic variation. Nucl Acids Res. 2002;30(4):e15.
19.
Yang YH, Thorne NP. Normalization for two-color cDNA microarray data. In: Goldstein DR, editor. Science and Statistics: A Festschrift for Terry Speed. USA. 2003: p. 403-18.