推奨されるカバレッジ深度

シーケンスカバレッジ深度の向上は、ベースコールにおける信頼度の向上に相当します。

シーケンスカバレッジ

シーケンスカバレッジとは、既知のリファレンス塩基の位置にアライメントされる、または既知のリファレンス塩基の位置を「カバーする」リードの数の平均値のことです。 次世代シーケンサー(NGS)のカバレッジレベルは、多くの場合、特定の塩基位置での変異の発見が一定の信頼度を伴っているかどうかを判定する決め手となります。

後述のとおり、必要とされるシーケンスカバレッジはアプリケーションごとに異なります。 より高いカバレッジでは、各塩基がより多くのアライメントされたシーケンスリードでカバーされるため、ベースコールの信頼性はさらに高まります。

ほとんどのユーザーは、アプリケーションだけでなく、リファレンスゲノムサイズ、遺伝子発現レベル、公表文献、科学界が規定するベストプラクティスといったさまざまな要因に基づいて、必要なNGSカバレッジレベルを判断しています。

汎用されるアプリケーションに推奨されるシーケンスカバレッジの例を以下に挙げます。

  • ヒトゲノム変異、SNP、再構成の検出には、多くの文献で、アプリケーションや統計モデルに応じて10~30倍の深度のカバレッジが推奨されています。
  • RNAシーケンスの場合には、通常、サンプルするリード数を数百万個とみなします。 稀にしか発現しない遺伝子を検出するには、多くの場合、より高いカバレッジ深度が必要となります。
  • ChIP-Seq(クロマチン免疫沈降シーケンス)には、多くの文献で、約100倍のカバレッジが推奨されています。

一般的に、カバレッジヒストグラムは、データセット全体のシーケンスカバレッジの範囲と均一性を描出するのに用いられます。 マップされるシーケンスリードによってカバーされるリファレンス塩基の数を深度別に示すため、全体的なカバレッジ分布が明らかになります。 マップされるリードの深度とは、一定のリファレンス塩基位置でシーケンスされ、アラインされる塩基の総数のことです(注:シーケンスの分野では、「マップされる」と「アラインされる」は同じ意味で用いられています)。

シーケンスカバレッジのヒストグラムでは、リード深度がビンとしてx軸に示され、それぞれのリード深度のビンを占有するリファレンス塩基の総数がy軸に示されます。 これはリファレンス塩基の割合(%)として表すこともできます。

左側のグラフのように、標準偏差が小さく、プロットがポアソン分布のような形となるのが理想的です(左の図)。 このような分布が妥当であり、リードがゲノム全体にランダムに分布し、一定の検出力でシーケンスラン内の真のリード間重複を検出できると想定されます。 しかし、さまざまな理由によって、実際のカバレッジヒストグラムは、右側のグラフのように大きく広がり(つまり、リード深度が広範囲に及び)、ポアソン分布にはならないことがあります(左の図)。

良い(左)シーケンスカバレッジヒストグラムと悪い(右)シーケンスカバレッジヒストグラムの例

NGSカバレッジの評価には、以下の測定項目がよく用いられます。

四分位範囲(IQR)

IQRは、ヒストグラムのシーケンスカバレッジの第三四分位数と第一四分位数の差のことです。 この値は統計的ばらつきの測定値で、カバレッジがデータセット全体で均一でないことを表します。 IQRが高値であれば、ゲノム全体のカバレッジのばらつきが大きく、IQRが低値であれば、シーケンスカバレッジがより均一であることを意味します。 上のヒストグラムでは、左のヒストグラムのほうが右のヒストグラムよりもIQRが低く、シーケンスカバレッジの均一性が優れていることがわかります。

(マップされた)リードの平均深度

マップされたリードの平均深度(つまり平均リード深度)は、それぞれのリファレンス塩基位置でマップされたリードの深度の合計値を、リファレンス中の既知の塩基の数で割った値です。 平均リード深度は、一定のリファレンス塩基位置でアラインされる可能性のあるリード数の平均値を示す測定項目です。

生リード深度

これは、当該機器で得られたシーケンスデータの総量(アライメント前)を、リファレンスゲノムのサイズで割った値です。 生リード深度は、多くの場合、シーケンス機器業者が提供する仕様書に記載されていますが、アライメントプロセスの効率は考慮されていません。 アライメントプロセスにおいて生シーケンスリードの大部分が廃棄されると、アライメント後の、マップされたリードの深度は、生リード深度よりも大幅に低くなる可能性があります。

電子メールにて最新のニュース、事例研究、アプリケーション情報をご提供します。ぜひご登録ください。