シーケンスカバレッジ

NGSのカバレッジとは?

次世代シーケンサー(NGS)カバレッジは、既知のリファレンス塩基にアライメントされる(塩基を「カバー」する)リードの平均値です。シーケンスカバレッジのレベルは多くの場合、特定の塩基配列において一定の信頼度を伴ってバリアントを発見できるかどうかを決定づけます。

下記の通り、シーケンスカバレッジはアプリケーションごとに要件が異なります。高レベルのカバレッジでは、各塩基はより多くの数のアライメントされたシーケンスリードによってカバーされ、ベースコールをより高い信頼度で行うことができます。

シーケンスカバレッジの推奨

必要なNGSカバレッジのレベルについて判断する際、研究者は一般的に自身が利用している手法に加えて、リファレンスゲノムのサイズ、遺伝子発現レベル、特定の関心のあるアプリケーション、既報文献、サイエンスコミュニティのベストプラクティスといったその他の要素を考慮します。下記に、一般的な手法向けのシーケンスカバレッジの推奨の例をご紹介します。

シーケンス法 推奨カバレッジ
全ゲノムシーケンス(WGS) ヒトWGS向けには30×から50×(アプリケーションと統計モデルに応じて)
全エクソームシーケンス 100×
RNAシーケンス 通常、サンプリングされる数百万リードの数で計算されます。発現が希少な遺伝子の検出には、一般的にカバレッジ深度を高める必要があります。
ChIP-Seq 100×
望ましいNGSカバレッジのレベルの判断と実現の方法

望ましいNGSカバレッジのレベルの判断と実現の方法

シーケンスランの判断:

Lander/Watermanの式1がゲノムカバレッジの計算手法です。一般公式: C = LN / G

  • Cはカバレッジ
  • Gは半数体ゲノム長
  • Lはリード長
  • Nはリード数

サイエンティストによるカバレッジ判断の一助として次のリソースを提供します:

シーケンスを強化する必要がある場合

データがさらに必要な場合にはカバレッジやシーケンスの深度を増やすことができます。必要に応じて、当初のサンプルとともに、さまざまなフローセルからのシーケンス出力を組み合わせます。当初判断したカバレッジ以上にシーケンスが必要となる理由は:

  • アッセイに統計力を付加するため
  • 非常に希少な事象を調査するため
  • ジャーナルや専門分野で提唱されている最低カバレッジ基準を満たすため
  • シーケンス困難領域または多倍体ゲノムのシーケンスのため
リード長に関するヒント

シーケンスラン向けに適切なリード長を計算する方法について、また、NGSカバレッジとリード長の関係の理解についてはこちらから

詳細はこちら

NGSカバレッジの範囲と均一性を説明するヒストグラム

カバレッジヒストグラムは、データセット全体のシーケンスカバレッジの範囲と均一性を表現するために一般的に使用されます。ヒストグラムは、さまざまな深度におけるマッピング済みシーケンスリードによってカバーされているリファレンス塩基数を表示することで全体的なカバレッジ分布が説明されています。マッピング済みの深度は、特定のリファレンス塩基配列におけるシーケンス済みかつアライメント済みの塩基の合計数のことです(「マッピング済み」や「アライメント済み」は、シーケンスの分野では同等の意味であることにご留意ください)。

シーケンスカバレッジのヒストグラムでは、リード深度はX軸にビニングかつ表示され、各リード深度ビンを占めるリファレンス塩基の総数はY軸に表示されます。これらはリファレンス塩基のパーセントとしても記入されることがあります。

カバレッジのヒストグラムの例

理想的には、このヒストグラム画像に示されているように、プロットは若干の標準偏差を伴ったポアソン近似の分布を示します。この分布は、リードがゲノム全体においてランダムに分布し、リード間の実際の重複を検出できる能力がシーケンスランにおいて一貫しているという想定の下で有効です。

ただし、さまざまな理由から、実際のカバレッジヒストグラムには大幅な開きがあるか(つまり、リード深度の範囲が広い)、ポアソンではない分布になる場合があります。右に示した不十分なシーケンスカバレッジのヒストグラムの例の通りです。

適切(左)と不十分(右)なシーケンスカバレッジのヒストグラム

次世代シーケンサー(NGS)カバレッジの評価

NGSカバレッジの評価について一般的には次のメトリクスが利用されています:

四分位数範囲(IQR)

IQRはヒストグラムの75パーセンタイルと25パーセンタイルの間のシーケンスカバレッジの差異です。この値は統計的ばらつきを測るもので、全データセットにわたるカバレッジの非均一性を反映しています。

IQR値が高いとゲノム全体のカバレッジのバリエーションが高いことを示し、IQR値が低いとシーケンスカバレッジの均一性が高いことを示します。上記のヒストグラムの例では、低めのIQR値によって左側のヒストグラムのシーケンスカバレッジの均一性が右側のものよりも高いことを示しています。

中央値(マッピング済み)リード深度

マッピング済み平均リード深度(または、平均リード深度)は、各リファレンス塩基配列におけるマップ済みリード深度の合計を、リファレンス内の既知の塩基数によって除した数

平均リード深度のメトリクスは、特定のリファレンス塩基配列においてアライメントされる可能性のある平均リード数を示します。

生リード深度

これは機器によって生成されたシーケンスデータの総数(アライメント前)をリファレンスゲノムのサイズで除したものです。多くの場合、生リード深度は仕様としてシーケンス機器ベンダーから提供されるものですが、アライメントプロセスの効率性は考慮されていません。

生シーケンスリードの大部分がアライメントプロセスの中で廃棄されると、アライメント後のマッピング済みリード深度は生リード深度よりも大幅に小さくなります。

参考文献
  1.  Lander ES、Waterman MS. Genomic mapping by fingerprinting random clones: a mathematical analysis. Genomics. 1988;2(3):231-239. doi:10.1016/0888-7543(88)90007-9