次世代シーケンサー(NGS)カバレッジは、既知のリファレンス塩基にアラインする、"または"カバーするリードの平均数を示します。シーケンスカバレッジレベルは、特定の塩基位置である程度の信頼度でバリアントの発見が可能かどうかを決定することがよくあります。
下記の通り、シーケンスカバレッジはアプリケーションごとに要件が異なります。カバレッジレベルが高いほど、各塩基はより多くのアライメントシーケンスリードでカバーされるため、塩基コールはより高い信頼度で行うことができます。
必要なNGSカバレッジのレベルについて判断する際、研究者は一般的に自身が利用している手法に加えて、リファレンスゲノムのサイズ、遺伝子発現レベル、特定の関心のあるアプリケーション、既報文献、サイエンスコミュニティのベストプラクティスといったその他の要素を考慮します。下記に、一般的な手法向けのシーケンスカバレッジの推奨の例をご紹介します。
シーケンス法 | 推奨カバレッジ |
---|---|
全ゲノムシーケンス(WGS) | ヒトWGS向けには30×から50×(アプリケーションと統計モデルに応じて) |
全エクソームシーケンス | 100× |
RNAシーケンス | 通常、サンプリングされる数百万リードの数で計算されます。発現が希少な遺伝子の検出には、一般的にカバレッジ深度を高める必要があります。 |
ChIP-Seq | 100× |
シーケンスランの判断:
Lander/Watermanの式1がゲノムカバレッジの計算手法です。一般的な方程式は次のとおりです。C = LN / G
サイエンティストによるカバレッジ判断の一助として次のリソースを提供します:
データがさらに必要な場合にはカバレッジやシーケンスの深度を増やすことができます。必要に応じて、当初のサンプルとともに、さまざまなフローセルからのシーケンス出力を組み合わせます。当初判断したカバレッジ以上にシーケンスが必要となる理由は:
カバレッジヒストグラムは通常、データセット全体のシーケンスカバレッジの範囲と均一性を示すために使用されます。マップされたシーケンスリードでカバーされるリファレンス塩基数をさまざまな深度で表示することで、全体的なカバレッジ分布を図示しています。マッピングされたリード深度とは、特定のリファレンス塩基位置でシーケンスおよびアライメントされた塩基の総数を指します("マッピング"および"アライメント"された塩基はシーケンスコミュニティで互換的に使用されます)。
シーケンスカバレッジヒストグラムでは、リード深度はX軸にビニングされ、表示されます。一方、各リード深度ビンを占有するリファレンス塩基の総数はY軸に表示されます。これらはリファレンス塩基のパーセンテージとして記述することもできます。
NGSカバレッジの評価について一般的には次のメトリクスが利用されています:
IQRは、ヒストグラムの75パーセンタイルと25パーセンタイルのシーケンスカバレッジの差です。この値は統計的変動の尺度であり、データセット全体のカバレッジの不均一性を反映しています。
高いIQRはゲノム全体のカバレッジのばらつきが大きいことを示し、低いIQRはより均一なシーケンスカバレッジを反映しています。上記のヒストグラムの例では、低いIQRは、左側のヒストグラムが右側のヒストグラムよりもシーケンスカバレッジの均一性が高いことを示しています。
マップされたリードの平均深度(または平均リード深度)は、各リファレンス塩基位置のマップされたリード深度の合計をリファレンスの既知の塩基数で割った値です。
平均リード深度メトリクスは、特定のリファレンスベース位置でアライメントされるリードの平均数を示します。
これは、装置が生成したシーケンスデータ(アライメント前)の合計量をリファレンスゲノムサイズで割った値です。生のリード深度は、シーケンス装置のベンダーによって仕様として提供されることがよくありますが、アライメントプロセスの効率は考慮されていません。
アライメントプロセス中にローシーケンスリードの大部分が廃棄された場合、アライメント後にマッピングされたリード深度はローリード深度よりも大幅に小さくなります。