近年、次世代シーケンサ(NGS)を用いたゲノム解析がさまざまな領域で活用されていますが、「いまさら聞けないけど、これってどう考えたらいいの?」と悩まれている点は意外と多いのではないでしょうか。NGSを使用した解析において、実験を始める前に知っておくべきポイントがわかっていれば、実験やデータ解析におけるミスも低減させることができます。
今回は、NGSによる遺伝子変異解析のカバレッジの考え方ついて、動画で詳しくご紹介します。これまでにご紹介した基本原理や手法の選択基準などと合わせて、NGSの基本的な知識を習得しておきましょう。
▼こんな方におすすめです!
・NGS初心者
・自分の目的に合った次世代シーケンサの活用方法を模索している方
・次世代シーケンサの出力する膨大なデータの解析が不安な方
カバレッジ - 重なりあうデータ –
多くのNGS初心者の方が最初にぶつかる壁はNGSのデータ解析ではないでしょうか。これはNGSという実験系が他の系と異なり、データ量が非常に多いうえに情報処理プロセスで目に見えない部分が多く、データが得られるイメージを捉えることが難しいからだと考えられます。では、どのようことに気を付けて解析の準備を進めればよいのでしょうか。カバレッジという観点から解説します。
NGSでは一般的に、既知の遺伝情報を持つ生物を解析する場合、ある程度の長さの配列情報を取得した後、ゲノム上のどの位置に対応する配列かをリファレンス配列と照合します(マッピング)。また、一度のシーケンスで膨大な量のデータが得られるため、同じリファレンス配列上のポジションを別々のシーケンスリードがカバーし合ってシーケンスしている状態を作り出すことができます。したがって、これらのデータはマッピングすると、リファレンス配列上のさまざまな領域に積み重なることになります。このデータの重なりをカバレッジと呼びます。また、このカバレッジの厚みをcoverage depth、対象のゲノム領域上に対してのデータの均一性をuniformityと呼びます。
これらはNGSのデータの信頼性の指標となるため、非常に重要な項目となっています。しかし、NGSでは膨大な量のデータが得られるとはいえ、コスト等を考えるとサンプルあたりのデータ量(領域の長さ、coverage depthなど)を適切に設定する必要があり、それとともに一度にシーケンスできるサンプル数を概算しておく必要があります。
では、実際にさまざまな遺伝子変異解析を進めていくうえで、これらをどのように設定していく必要があるでしょうか。
下の動画では、カバレッジの概念と遺伝子変異解析における考え方をまとめておりますので、ぜひご視聴ください。
まとめ
・NGSにおけるデータの重なりをcoverage depth、均一性をuniformityという。
・データの信頼性のために遺伝子変異の種類によってカバレッジを考える必要がある。
・サンプルあたりの適切なカバレッジを設定すれば、シーケンスあたりの解析可能サンプル数も設定できる。
NGSの基本的なデータの取得の流れは、「今さら聞けない!Ion Torrentシステムの原理とは」や「知ってますか?全ゲノムリシーケンスとターゲットリシーケンス」の動画でも紹介しておりますので、ぜひ一度ご覧ください。
Ion Torrent™ NGSを用いた基本的な原理やアプリケーションに関する情報は以下のURLから確認いただくことができます。
https://www.thermofisher.com/jp/ja/home/life-science/sequencing/next-generation-sequencing/ngs-basics.html
次世代シーケンス データ解析オンライン個別相談
IonTorrentユーザでデータ解析に関する具体的な課題をお持ちの方には、無料の個別相談の時間を開設しています。
研究用にのみ使用できます。診断用には使用いただけません。