テクニカルスポットライト:全ゲノムシーケンスによる小中長コピー数バリアントの検出

Published December 18, 2023

遺伝物質の増減は、1つの塩基対から数千万塩基対に及ぶ染色体全体まで、ほぼあらゆる大きさで発生する可能性があります。ゲノム解析技術が進化する中で、研究者たちは、医療的に関連性の高いこれらの変異を、そのサイズや検出方法に基づいてbinに分類しています。この記事で使用したサイズ範囲を表1に示します。
Table 1: Size categories of CNV used in this discussion, with example conditions and methods for detection. kb = kilobases (1000 bp).

従来なら、これらの異なるサイズのバリアントをすべて検出するには、複数の異なるテストを使用する必要があります。イルミナの全ゲノムシーケンス(WGS)とDRAGEN Bio-IT Platformに組み込まれた二次解析アルゴリズムを組み合わせることで、研究者はここで説明されるさまざまな手法を使用し、これらの異なるバリアントタイプを高感度で検出することができます。DRAGEN v4.2では、小規模および中規模のゲノムの増減イベントと損失イベントをより正確に解析するために、カバレッジベースのコピー数バリアント(CNV)コールをブレイクエンド構造多型(SV)結果と組み合わせてサポートするオプションを初めて提供しています。このクラスの変異は、従来のシーケンシング法とアレイベースの方法の中間に位置し、小規模および大規模の変異と比較して高度な技術的課題を伴います。

数学的観点から、カバレッジ深度は、ランダムな変動により、イベントサイズが小さいほどノイズが多くなります(図1)。100 kbを超える大規模なイベントの場合、ノイズはほとんど問題になりません。10~100 kbの範囲では、ノイズは存在しますが、通常は問題ありません。1~10 kbのスケールでは、ノイズが非常に高く、偽陰性および偽陽性の結果が出るリスクが高くなります。

Figure 1: Estimated ploidy status at different levels of granularity across a typical diploid human genome sequence at different resolutions

このノイズ問題に対処するために、DRAGEN v4.2は生殖系列CNVおよびSVコーラーからのシグナルを共同で解析し、推定上の一致を特定し、アノテーション、フィルター、スコアを更新し、精緻な記録を出力します。SVコーラーからの結合シグナルとCNVコーラーからの深度シグナルを活用することで、このアプローチは、1 kbまでの高感度CNV検出を可能にし、またすべての長さスケールでコール率と精度を向上させます。これは、複数のシグナルから証拠が見つかった場合に以前の低品質なコールを復元し、CNVのブレイクエンドをより精度の高いSVのブレイクエンドに調整することで実現されます。

WGSとDRAGENは、強力なコピー数と構造バリアント解析を可能にする主要な機能を統合しています。

  • PCRフリーのライブラリー調製を使用してゲノム全体の均一なカバレッジ深度により、1 kbのbinサイズでコントロールフリーのノーマライゼーションが可能です
  • イントロンと遺伝子間領域にまたがるシーケンスデータにより、ブレークポイントリードを直接観察できます
  • 大規模なデータセットを使用したアルゴリズムの最適化により、厳密なフィルタリングが可能
  • カバレッジベースとブレークポイントベースのコーラー間の相乗効果により、クオリティスコアの向上とイベントエンドの改良を実現

2023年11月に開催された分子病理学協会の会議で発表された論文に要約されているように、Tempus LabsのFrancisco De La Vega博士、Real Time GenomicsのSean Irvine博士、およびイルミナのSean Truong氏が、医療的に重要な遺伝子における小規模および中規模のコピー数バリアント(CNV)検出に挑む取り組みを主導しました。イルミナの全ゲノムシーケンスとDRAGENの組み合わせにより、すべてのバリアントが検出されました(図2)。

Figure 2: Fraction of 1–50 kb deletion/duplication events identified by the DRAGEN Joint CNV caller compared to other methods. Challenge variants included single-exon events in DMD, GAA, PLP1, GBA1, and two-exon events in CHEK2, CDKL5.

Broad Instituteの研究者は、DRAGEN 4.2がこのサイズ範囲の変異に対して正確なCNV検出を示していること、特に5~10 kbの欠失において高精度であることを発見しました。

これらの結果は、明確なストーリーを示しています。ゲノムシーケンスは、遺伝性がんの素因、心血管疾患、生殖キャリアのスクリーニングなどの研究や医療アプリケーションに不可欠なクラスである、中小規模のCNVを検出するための高感度プラットフォームです。これは、カバレッジベースとブレークエンドバリアントコールの両方の改善におけるDRAGENサイエンティストと共同研究者の長年の努力の集大成です。Illumina Communityがこの最新のテクノロジーを使用して開発するアプリケーションの可能性に期待しています。 

CNVおよびSVコールのさらなる使用について、より詳細に説明する今後の投稿にご期待ください。