Applied Biosystems™ Clariom™ S Assay, humanなどのDNAマイクロアレイで遺伝子発現解析を行ったときに得られる各遺伝子のシグナル強度とは、何を表しているのでしょうか。
本稿ではClariomアッセイを想定して、1色法のマイクロアレイとTAC(Applied Biosystems™ Transcriptome Analysis Console)ソフトウェアに実装されているRMAアルゴリズムにフォーカスして、簡単に解説いたします。
▼もくじ [非表示]
なぜ正規化が必要か?
マイクロアレイ実験は、1サンプルにつき1マイクロアレイを使用しデータを取得するため、各サンプルの遺伝子発現データが得られますが、データ解析の基本は、処理群と対照群(コントロール)との比較です。一つのマイクロアレイの値だけでは特段の意味はなさない、ということになります。
さて、一般的に実験においては、実験操作や機材の特性によって、バイアスが生じることは避けられません。そこで、バイアスの影響が軽減するように、得られた値に補正をかけることが必要です。
図1は、Clariom S Rat アッセイのデモデータのCELファイルのSignal Box Plotです。CELファイルは、ハイブリダイゼーション、洗浄、染色後のマイクロアレイをスキャンし、プローブセルごとの蛍光強度を求めたもので、グラフでは蛍光強度はLog2になっていますが、マイクロアレイごとに分布が異なります。もし、このままサンプル間の比較を行ってしまうと、大雑把な言い方にはなりますが、CELファイルの蛍光強度が高かったサンプルにおいて、遺伝子発現が高いという結果が得られ、間違った結論を導いてしまうことになると考えられます。
図1.Clariom S Rat Assayのデモデータ、CELファイルのSignal Box Plot
Clariom S Rat Assayのデモデータ:
Sample Data: Clariom S Assay Rat
バージョン: Jan. 2017, ファイルサイズ: 13.3 MB
https://sec-assets.thermofisher.com/TFS-Assets/LSG/Support-Files/Clariom-S-Rat-Tissue-Panel.zip
RMAアルゴリズム(Robust Multichip Analysisアルゴリズム)
DNAマイクロアレイ実験のバイアスを補正するアルゴリズムは数多く提唱されていますが、一般的に広く用いられているのは、Robust Multichip Analysis (RMA)というアルゴリズムです。RMAはTACソフトウェアにも実装されており、Clariomアレイを使用する場合でも、これで正規化を行ってプローブシグナルの比較を行います。
ただし、Clariomアレイは、旧アフィメトリクス社が開発したRMAアルゴリズムを改良したGCCN-SST-RMAのご利用をお勧めします(TACソフトウェア上ではSST-RMAと表示されます)。これは従来のRMAアルゴリズムでは低めに出ていたサンプル間の発現レベル解析におけるfold changeを改良したものです。
さて、オリジナルのRMAに戻ります。このアルゴリズムは3つのステップからなります。
1. Background adjustmentバックグラウンド補正
2. Quantile normalizationクオンタイル正規化
3. Summarizationサマライゼーション
1. Background Adjustmentバックグラウンド補正
バックグラウンド補正は、非特異的なハイブリダイゼーションに由来するシグナル強度を差し引くためのものです。RMAでは、以下のように仮定し、補正しています。
(1)観察されたシグナルの強度は、真のシグナルの強度と、バックグラウンドシグナルの強度とが合成されたものであると仮定します。また、一つのマイクロアレイで、真のシグナルの強度分布は指数分布、バックグラウンドの強度分布は正規分布となると仮定します。
(2)各マイクロアレイについて、上の仮定にもっとも合うパラメーターを推定します。
(3)推定したパラメーターを用いて、観察されたシグナル強度から真のシグナル強度を推定します。
図2. RMAのバックグラウンド補正
観察されたシグナル強度分布は、真のシグナル強度分布とバックグラウンドのシグナル強度が合成されたものであると仮定。
2. Quantile normalizationクオンタイル正規化
これは各マイクロアレイ間のデータを揃えるステップになり、狭義の正規化と言ってもいいかもしれません。ここでもある仮定をおいています。それは、「各サンプルの遺伝子発現の強度分布はほとんど変わらない」というものです。
クオンタイル正規化の手順としては以下になります。
(1)それぞれのマイクロアレイについて、プローブのシグナル値をシグナル強度の順に並べ替えます。
(2)並べ替えたデータセットで、マイクロアレイの枚数分ある同一順位のシグナル値の平均値を求めます。
(3) 上で求めた平均値を補正値とし、元のシグナル値と置き換えます。
上で述べた仮定は、順位が同じならシグナル強度も同じである、と言い換えられます。
図3-1.クオンタイル正規化(1)
模擬発現解析データ(正規化前のデータセット)
図3-2.クオンタイル正規化(2)
シグナル強度の順番に、シグナル値を並べ替える(サンプルごとに行う)。
図3-3.クオンタイル正規化(3)
各順位のシグナル値の平均を求める。
図3-4.クオンタイル正規化(4)
元のシグナル値を、3で求めた平均値に置き換える。
図3-5.クオンタイル正規化(5)
各サンプルのシグナル値の順番を元のプローブIDの順番に戻し、クオンタイル正規化後のデータセットとなる(サンプルが入れ替わる、または増減すると正規化後の結果も変わる)。
3. Summarizationサマライゼーション
Clariomマイクロアレイやその前身のApplied Biosystems™ GeneChip™マイクロアレイは、一つの遺伝子について複数のプローブが設計されています。そのため遺伝子の発現レベルを求めるには、複数のプローブのシグナル値をsummarizationし、一つの値にする必要があります。(アレイデザインの比較の図4を参照)
図4.アレイデザインの比較
Summarization は、RMAでは、median polishという手法で行っています。これは、外れ値の影響を受けにくい手法です。例えば、ハイブリダイゼーション、洗浄、染色のムラが生じたことで、ある一つのプローブのシグナル値が、同じ遺伝子の他のプローブと比べて高すぎたり、低すぎたりしても、最終的にsummarizationされた値への影響は小さくなります。また、サンプルの中でアウトライヤーとなるようなサンプルがあったとしても、その影響が大きく及ぶことがありません。
Median polishの手法について、以下に例をお示しします。Probe-id-001, Probe-id-002, Probe-id-003から構成されるプローブセットについて、この3つのプローブのシグナル値をSummarizeして、プローブセット(Probeset-id-X)のシグナル値を求めています。
図5-1.Median Polish(1)
Summarization前の模擬発現解析データ(3プローブ、6サンプル)
上の表の各行の中央値(median (raw))を求め、各項からmedian (raw)を引き、残差からなる新たな表を作成する。
図5-2.Median Polish(2)
新たな表の各列の中央値(median (column))を求め、各項からmedian(column)を引き、残差からなる新たな表を作成する。
図5-3.Median Polish(3)
新たな表の各行の中央値(median (raw))を求め、各項からmedian (raw)を引き、残差からなる新たな表を作成する。
図5-4.Median Polish(4)
新たな表の各列の中央値(median (column))を求めたところ、すべて0となった。そこで各行の中央値(median (raw))を求めると、こちらもすべて0であった。これでこの操作は終了となり次の操作へ進む。
図5-5.Median Polish(5)
元の表の各項から、各列各行のmedianがすべて0となった表の各項を引き、その残差からなる新しい表を求める。
図5-6.Median Polish(6)
以上で得られた表について、サンプル毎に3つのプローブの平均値を求める。これがこの3つのプローブからなるプローブセットのシグナル値となる。
まとめ
以上のRMAアルゴリズム(正確にはGCCN-SST-RMA)を適用した後のシグナル強度分布を、図6に示しました。
1. バックグラウンド補正
2. クオンタイル正規化
3. サマライゼーション
を経たもので、測定された生データそのものではなく、いくつかの仮定をもとに補正されたものになります。そのため、シグナル強度は数値として得られますが、リアルタイムPCRのような絶対定量の値ではなく、相対的なものであることに留意してください。
ここから、サンプル間での遺伝子発現を比較、発現変動がどの程度あったか等を解析することになります。
図6.Clariom S Rat Assayのデモデータ、TACソフトウェアでSST-RMA解析を行った後のSignal Box Plot
本件につきましてご意見、ご質問等ありましたら、弊社テクニカルサポートまでご連絡ください。
ホワイトペーパーの紹介
SST および GCCN を利用したマイクロアレイノーマライゼーション
参考文献
RMA原著論文:
Rafael A. Irizarry, Bridget Hobbs, Francois Collin, Yasmin D. Beazer‐Barclay, Kristen J. Antonellis, Uwe Scherf, Terence P. Speed (2003)
Exploration, Normalization,and Summaries of High Density Oligonucleotide Array Probe Level Data,
Biostatistics, April 2003; Vol. 4; Number 2: 249-264
doi:10.1093/biostatistics/4.2.249. PMID 12925520
GCCN-SST-RMA :
White Paper (原文・英語) Microarray normalization using Signal Space Transformation with probe Guanine Cytosine Count Correction
White Paper (日本語) GC含量補正を伴うシグナルスペース変換を用いたマイクロアレイの正規化
研究用にのみ使用できます。診断用には使用いただけません。