2019年末からの新型コロナウイルス(SARS-CoV-2)の流行では、研究の世界でも今までに無かった状況が生まれています。その一つが、膨大な量のウイルスのゲノム配列が世界中の研究者から驚異的なスピードで報告されていることです。そこで今回は、公開されているウイルスゲノム配列の取得と、アライメントなどの簡単な解析方法についてご紹介します。ここに記載するデータベース、ウェブサイト、ソフトウェアの情報は2020年5月の時点のものです。急速に増加するデータ量などに伴って状況がすぐに変化することもあり得ることをご了承ください。
▼こんな方におすすめです!
・自分の施設で解読したウイルスの配列と既報の配列を比較したい。
・ウイルスゲノム中の特定の領域の変異の頻度を調べたい。
なお、Ion Torrentシーケンサで新型コロナウイルスゲノムを解析できる、Ion AmpliSeq™ SARS-CoV-2 Research Panelの内容をAmpliSeq Designerサイトで確認できます。次世代シーケンサーで複数サンプルのゲノムを一度に解析できる製品です。また、次世代シーケンス(NGS)を使用したコロナウイルス研究についてはこちらを参照ください。
データソース
2020年5月の時点で、新型コロナウイルスのゲノム配列情報を入手できる主要な一次データソースとしてGISAID(Global initiative on sharing all influenza data)とNCBI Virusがあります。GISAIDは、インフルエンザウイルスのデータを共有するために組織されましたが、新型コロナウイルスのデータベースEpiCov™も公開しています。利用条件に同意してユーザ登録することにより、配列データ等を入手できます。2020年5月6日現在の配列数は16,987で、同年4月末からはマルチプルアライメントされたデータがfasta形式で提供されています。NCBI VirusはNCBIに登録されたウイルスデータのポータルサイトです。2020年5月6日現在の新型コロナウイルスの配列数は2,125です。多くの文献で参照配列として用いられているのは中国で初期に報告された長さ29,903塩基の配列で、NCBIではNC_045512、GISAIDではEPI_ISL_402125というAccession番号で登録されています。
NCBI Virusからのデータの取得
GISAIDの全件データは、一般的なPC環境では重複を除くといった簡単な操作でも何時間もかかるほどデータ量が増加しています。ここでは、NCBI Virusから配列データを取得してマルチプルアライメントを作成する手順を紹介します。手順の確認に使用したPCはごく一般的なもので、スペックを末尾に記載します。NCBI Virusサイトにアクセスし、新型コロナウイルスのTaxonomyID 2697049で検索します。部分配列が含まれるとマルチプルアライメントがうまく行かないことがあるので、全長配列だけを選択するためにRefine Resultsのメニューから「Nucleotide Completeness」を選び「complete」をチェックします。この条件で、作業時点の配列数は1,623でした。絞り込まれた配列を選択してDownloadします。
マルチプルアライメント
今回はUnipro UGENE(v33)というオープンソースのソフトウェアを使用しました。このソフトウェアを選んだ理由は、高速なマルチプルアライメントのツールであるMAFFT*1)のスタンドアロン版を、画面操作で実行できるからです。インストール方法などは提供元のwebサイトをご参照ください。
(1)対象とする配列データをfasta形式で用意します。NCBIからダウンロードしたファイルはそのまま使えます。新たに解読した配列をお持ちの場合は同じファイルに追記します。
(2)Unipro UGENEを起動し以下の順にメニューを選択します。
→Tools
→Multiple Sequence Alignment
→Align with MAFFT
(3)Input fileに(1)で用意したファイルを選択し、Output fileに出力先のファイル名を設定してAlignをクリックします。今回1,623配列を、約35分でアライメントすることができました。
なお、GISAIDから長さが29,000塩基以上の16,830配列をダウンロードして同じ操作をしたところ約49時間でアライメントの処理が終了しました。また、マルチプルアライメント済みのfastaファイルを入手した場合、Unipro UGENEに読み込むだけで利用できます。
UniproUGENEのウィンドウ下部のFind欄に既知の部分配列を入力して検索すると該当部分が表示されます。上部のグレーの棒グラフはメジャーな塩基の割合を示しており、ポイントすると塩基の割合が表示されます。また、Actions→Tree→Build Treeのメニューから系統樹を作成する操作も可能です。ただし系統樹の作成にはいろいろな方法があり、その選択やbootstrap testの回数により所要時間が大幅に異なります。
使用したPC
OS:Windows™ 10
CPU:Intel® Core™i5/1.60GHz/4cores
メモリ:8GB
*1) K.Katoh, K.Misawa, K.Kuma, T.Miyata, Nucleic Acids Res.,30:3059-3066(2002)
*ここに記載したソフトウェアやデータベースは、弊社の製品サポートの対象ではありません。
まとめ
・新型コロナウイルスのゲノム配列は急速に蓄積されています。
・解析対象の配列や使用するソフトウェアを適切に選べば、ごく一般的なWindows PCでも1000件を超える配列のマルチプルアライメントを実施でき、新規配列と既報の配列との比較や、変異頻度の確認などができます。
・配列解析以外にも新型コロナウイルスの各種ソリューションを提供しています。
・NGS等のデータ解析でお困りの方は、データ解析コンサルティングサービスをご検討ください。
次世代シーケンサ(NGS)入門
次世代シーケンスの原理や何ができるかがよくわからない、または自分の研究領域にどのように活用できるかわからないという方向けに、次世代シーケンスの基本や各研究領域に特化したアプリケーションをまとめました。リンク先から、それぞれの領域に応じたページをご覧いただけます。
次世代シーケンス データ解析オンライン個別相談
IonTorrentユーザでデータ解析に関する具体的な課題をお持ちの方には、無料の個別相談の時間を開設しています。
研究用にのみ使用できます。診断用には使用いただけません。