次世代シーケンサー(NGS)カバレッジは、既知のリファレンス塩基にアライメントされる(塩基を「カバー」する)リードの平均値です。シーケンスカバレッジのレベルは多くの場合、特定の塩基配列において一定の信頼度を伴ってバリアントを発見できるかどうかを決定づけます。
下記の通り、シーケンスカバレッジはアプリケーションごとに要件が異なります。高レベルのカバレッジでは、各塩基はより多くの数のアライメントされたシーケンスリードによってカバーされ、ベースコールをより高い信頼度で行うことができます。
必要なNGSカバレッジのレベルについて判断する際、研究者は一般的に自身が利用している手法に加えて、リファレンスゲノムのサイズ、遺伝子発現レベル、特定の関心のあるアプリケーション、既報文献、サイエンスコミュニティのベストプラクティスといったその他の要素を考慮します。下記に、一般的な手法向けのシーケンスカバレッジの推奨の例をご紹介します。
シーケンス法 | 推奨カバレッジ |
---|---|
全ゲノムシーケンス(WGS) | ヒトWGS向けには30×から50×(アプリケーションと統計モデルに応じて) |
全エクソームシーケンス | 100× |
RNAシーケンス | 通常、サンプリングされる数百万リードの数で計算されます。発現が希少な遺伝子の検出には、一般的にカバレッジ深度を高める必要があります。 |
ChIP-Seq | 100× |
シーケンスランの判断:
Lander/Watermanの式1がゲノムカバレッジの計算手法です。一般公式: C = LN / G
サイエンティストによるカバレッジ判断の一助として次のリソースを提供します:
データがさらに必要な場合にはカバレッジやシーケンスの深度を増やすことができます。必要に応じて、当初のサンプルとともに、さまざまなフローセルからのシーケンス出力を組み合わせます。当初判断したカバレッジ以上にシーケンスが必要となる理由は:
カバレッジヒストグラムは、データセット全体のシーケンスカバレッジの範囲と均一性を表現するために一般的に使用されます。ヒストグラムは、さまざまな深度におけるマッピング済みシーケンスリードによってカバーされているリファレンス塩基数を表示することで全体的なカバレッジ分布が説明されています。マッピング済みの深度は、特定のリファレンス塩基配列におけるシーケンス済みかつアライメント済みの塩基の合計数のことです(「マッピング済み」や「アライメント済み」は、シーケンスの分野では同等の意味であることにご留意ください)。
シーケンスカバレッジのヒストグラムでは、リード深度はX軸にビニングかつ表示され、各リード深度ビンを占めるリファレンス塩基の総数はY軸に表示されます。これらはリファレンス塩基のパーセントとしても記入されることがあります。
NGSカバレッジの評価について一般的には次のメトリクスが利用されています:
IQRはヒストグラムの75パーセンタイルと25パーセンタイルの間のシーケンスカバレッジの差異です。この値は統計的ばらつきを測るもので、全データセットにわたるカバレッジの非均一性を反映しています。
IQR値が高いとゲノム全体のカバレッジのバリエーションが高いことを示し、IQR値が低いとシーケンスカバレッジの均一性が高いことを示します。上記のヒストグラムの例では、低めのIQR値によって左側のヒストグラムのシーケンスカバレッジの均一性が右側のものよりも高いことを示しています。
マッピング済み平均リード深度(または、平均リード深度)は、各リファレンス塩基配列におけるマップ済みリード深度の合計を、リファレンス内の既知の塩基数によって除した数
平均リード深度のメトリクスは、特定のリファレンス塩基配列においてアライメントされる可能性のある平均リード数を示します。
これは機器によって生成されたシーケンスデータの総数(アライメント前)をリファレンスゲノムのサイズで除したものです。多くの場合、生リード深度は仕様としてシーケンス機器ベンダーから提供されるものですが、アライメントプロセスの効率性は考慮されていません。
生シーケンスリードの大部分がアライメントプロセスの中で廃棄されると、アライメント後のマッピング済みリード深度は生リード深度よりも大幅に小さくなります。