コンステレーションマップリードテクノロジーのご紹介

Published December 20, 2024

Abstract

  • コンステレーションテクノロジーは、極めて簡素化されたNGSワークフローを採用しており、フローセル上でのライブラリ調製を行うことができるため、シーケンス前の標準的なライブラリー調製が一切不要になります。
  • 標準クラスター形成とSBSシーケンシングに加え、DRAGENアルゴリズムではクラスターの近接情報を活用することで、長距離の情報を解析することが可能になります。
  • 早期検査によれば、困難なゲノム領域のマッピングの強化、超長期フェージング、および大規模な構造的再構成の検出が改善されることが判明しています。
  • 最初の製品化は2026年に予定されており、既存のNovaSeq Xシステムで利用可能な、費用対効果の高い包括的なヒト全ゲノムシーケンス(WGS)を実現します。

はじめに 

次世代シーケンサー法、主にSequence by Synthesis(SBS)は、過去25年間で大幅に進歩しており、ゲノムアプリケーションにおいて広く利用される技術となっています。イルミナのショートリード全ゲノムシーケンス(srWGS)は、ほとんどのヒトゲノムに対して極めて正確なカバレッジを実現しますが1、ゲノムの特定の領域については依然として解決が困難です。さらに、大規模な構造再構成を含む一部のクラスのゲノム変異は、標準的なショートリードでは検出が困難です。リード長の長いものであれば、これらの課題の一部に対処する能力が実証されていますが、比較的コストが高く、スケールアップが難しく、大量のインプットと厳格なインプット要件があります。

ここでは、コンステレーションマップリードテクノロジーをご紹介します。 これは、フローセル上でのライブラリー調製と、隣接するナノウェルのクラスターから得られる近接情報を利用するインフォマティクスを活用し、標準的なSBSシーケンスを使用して長距離ゲノムの洞察を生成する革新的なアプローチです。コンステレーションテクノロジーは、標準的なSBSの精度、カバレッジの深度、およびスケーラビリティを維持しながら、ロングリード法に関連付けられることが多いフェージング、マッピング性の向上、および構造多型検出の改善を実現します。この新しいアプローチにより、包括的な全ゲノム解析のための強力でアクセスしやすいソリューションが実現します。

用語については、この投稿の最後にある用語集を参照してください。 

新しいテクノロジー 

コンステレーションテクノロジーは、標準的なショートリードシーケンス(Hi-Cやリンクリードなど)から長距離情報を生成する他の方法とは異なります。コンステレーションテクノロジーなら、抽出されたDNAをフローセル表面に直接適用することで、手動のライブラリー調製が不要になります。フローセル表面では、結合したトランスポソームがin situでタグメンテーションを実行します。このオンフローセルライブラリー調製により、サンプルゲノム内の隣接領域がフローセル上で物理的に近接したままになります。複雑なタグ付け、分子バーコード、または長い連続リードに依存するのではなく、コンステレーション技術は隣接するクラスターの空間的な近接性を活用し、標準的なSBSシーケンシングを用いてサンプルのゲノムから長距離のゲノム情報を取得します。その結果、次のような利点が得られます。

  • マッピングが困難な領域におけるマッピングとバリアントコーリングの改善
  • 最大数メガベースまでの超長フェージング
  • 大規模な(>50 bp)構造再構成のコーリング改善

仕組み

非常に簡素化された、フローセル上でのワークフロー

コンステレーションワークフローは、フローセル上でのライブラリー調製から始まります。この調製では、トランスポソームベースのライブラリー調製ワークフローに特徴的な低DNAインプットとNovaSeq™ Xシリーズの高いシーケンス品質を使用します。この実験ワークフローでは、シーケンス装置の変更は不要で、カスタムシーケンシングレシピのみを使用するため、既存の多数の設置済みシステムで利用可能です。

コンステレーションの実験ワークフロー:

  1. 抽出したDNAテンプレートをライブラリーストリップチューブに追加する
  2. シーケンスカートリッジのカスタムプライマーウェルに専用試薬を添加する
  3. 消耗品のロードとランを開始する
図1:コンステレーションワークフロー
カスタムレシピでは、トランスポソームがフローセルに結合した後、完全な二本鎖DNAがフローセル表面に流され、タグメンテーションが行われます。これにより、DNAがフローセル上のナノウェルに結合します。結合したDNAフラグメントは、標準的なクラスター形成プロセスを経て、2×150 bpのシーケンスランが実行されます。このin situタグメンテーションは、従来のライブラリー調製手法を不要にすることで、ワークフローを大幅に簡素化し、同一のDNAテンプレート分子に由来するクラスターがフローセル表面上で互いに近接して形成されるという利点をもたらします。(図2)
図2:同じテンプレート分子に由来する近くのクラスターからの近接情報を示すワークフローの概要

コンステレーションリードマッピングと近接解析

コンステレーションテクノロジーの利点は、ワークフローの簡素化にとどまりません。近接情報を使用して、隣接するクラスターからのリードをオリジナルのDNAテンプレート分子の散在バージョンに再構築します。これは図3に示されており、各ノードはフローセルクラスターから得られたリードペアを表し、それらの間の線は、フローセル上の空間的近接性とゲノム上の位置関係を組み合わせた予測された関連を示しています。図3は、この散在表現をさらに明示しており、300 kbを超えるテンプレート長で、元の同じテンプレート分子に由来するリード間のゲノム距離を示しています。これらの関連は、近接モデルに基づいて導き出されており、特定のフローセル上の位置ずれやゲノム上の距離内に偶然配置された確度を示すPhredスケールのクオリティスコアによって記述されます。スコアが高いほど、2つのリードが同じテンプレート分子に由来する可能性が高くなります。この特性はコンステレーションテクノロジーに固有のものであり、他のNGSアッセイでは観察されません。同じテンプレート分子に由来するリードは、同じハプロタイプも共有します。Phredスケールの近接品質と一般的な近接特性の組み合わせにより、DRAGENの二次解析を用いて、マッピングが困難な領域へのリードの割り当て、フェーズ情報の抽出、およびバリアントの検出が可能になります。  

図3a:フローセルから生成されたクラスターは、異なる色で視覚的に表現された、異なるテンプレートに編成されます。各テンプレート内では、クラスターはゲノム座標に基づいて順番に配置されます。ペアリード間の接続には、対応するゲノム距離の注釈が付けられます。

図3b:このボックスプロットは、標準抽出とHMW抽出からの99パーセンタイルのテンプレートサイズの範囲を示す

図4:ナノウェルを重ね合わせたフローセル上のDNAの蛍光画像

コンステレーションの利点 

マッピングが困難な領域での性能向上 

ゲノムの特定の領域では、高い相同性やその他の反復配列の影響により、標準的なショートリードの一意のマッピングが困難になります。これにより、複数の候補マッピング位置の中から正確な位置を特定することが難しくなります。コンステレーションリードマッピングでは、一意にマッピングする隣接するクラスターからの近接情報を使用して、リードを正しいゲノム位置に割り当てます。

近接情報の適用により、STRCやPMS2といったマッピングが困難な医学的に関連する遺伝子を含め、ゲノムのより確実なマッピングと包括的なカバレッジが実現します(図5 および図6)。

図5:コンステレーションテクノロジーによるSTRC遺伝子のカバレッジの回復。STRCには、99%超の配列同一性を持つ偽遺伝子STRCP1があり、標準の全ゲノムライブラリー調製ではマッピングが困難です。STRCのいくつかの変異は、小児の非症候群性難聴に関連しています。

図6:PMS2遺伝子のカバレッジの回復。PMS2は偽遺伝子であるPMS2CLを有し、99%を超える相同性を持つ部分があります。また、PMS2の一部の変異は、リンチ症候群、卵巣がん、その他の疾患に関連しています。
コンステレーションテクノロジーによるマッピング解像度の向上により、特にカバレッジが低くなりがちなゲノムのマッピングが困難な領域において、小規模バリアント検出の精度が向上します。コンステレーションテクノロジーを活用することで、偽陽性(FP)および偽陰性(FN)のバリアントコールが大幅に削減されます。このような事実は、主にゲノムのマッピングが困難な領域における性能の大幅な改善によって推進されています。コンステレーションテクノロジーは、標準的なSBSと比較して、偽のコールを40%削減します(図7)。

図7:SNPバリアントコールの精度は、コンステレーションリードマッピングによる11回のHG002ランを対象に、NIST Genome in a Bottle v4.2.1の真理値セットを用い、rtgevalを使用して評価されました。マッピングが困難な領域とマッピングが容易な領域の層別化はGenome in a Bottleのv3.3ゲノム層別化によってそれぞれGRCh38_alldifficultregions.bed.gzおよびGRCh38_notinalldifficultregions.bed.gzとして定義されています。

超長フェージング 

フェーズドシーケンスは、ハプロタイプを定義し、複合ヘテロ接合体の同定を可能にすることで、より深い情報を得ることができます。コンステレーションテクノロジーによるフェージングは非常に強力であり、その性能はリード長ではなく、フローセル上にキャプチャーされた元のDNAテンプレートの長さによって決まります。現在、このテクノロジーは数百キロベースから数メガベースにわたる長距離フェージングを実現しています。より大きなテンプレートを保持する高分子量(HMW)抽出法は、より大きなフェーズブロックに寄与することが判っています。

コンステレーションフェーズブロックNG50sは、標準DNA抽出では約715 kb、HMW DNA抽出では約5.7 Mbです(図8)。初期のテストによれば、コンステレーションテクノロジーは、標準DNA抽出で全遺伝子の中央値の約85%、HMW DNA抽出で遺伝子の約95%を完全にフェージングすることが判っています。さらに、コンステレーションテクノロジーは、標準DNA抽出とHMW DNA抽出の両方において、すべてのヘテロ接合SNVの約98%をフェージングしています。

図8:標準またはHMW DNA抽出によるコンステレーションマップリード用のフェーズブロックNG50。フェーズブロックNG50は、WhatsHap統計を用いて染色体20~22で測定されます。PacBio HiFiデータ(PB)データをヒト汎ゲノムリファレンスコンソーシアム(HPRC)から取得され、GRCh38を基準にpbmm2 v1.13、DeepVariant v1.6.0、およびWhatsHap v2.2を使用して処理しました。

構造多型コーリングの改善 

コンステレーションテクノロジーには、構造多型(> 50 bp)コーリングの改善という付加的な利点があります。DRAGEN v4.3の二次解析により、コンステレーションテクノロジーは、標準のSBSでの51.5%から87.8%(図9)へと、SVコール率の大幅な改善を示しています。

コンステレーションテクノロジーとカスタマイズされたバリアントコーリング手法のさらなる開発により、リードマッピングと小規模および大規模バリアントコーリングのいずれにおいてもさらなる改善が見込まれます。

図9:50×および100×のDRAGEN v4.3と比較したコンステレーションテクノロジーSVの性能。この解析では、SV信頼領域BEDファイルを含むGenome in a Bottle T2T-Q100 HG002 SV v1.1真理値セットを使用しています。ベンチマークには、Truvari v4.2.2の「bench」および「refine」コマンドを使用して、構造多型ベンチマークのGenome in a Bottleガイダンスに従って実行しました。

ゲノム構造の新たな視覚化 

コンステレーションマップリードテクノロジーは大規模な構造再構成を解決する能力を備えており、従来のバリアントコーリングの性能ベンチマークを超える新しい機能が搭載されています。ゲノムの任意のペア領域間における近接クラスターからリードに関する情報を抽出することで、「コロケーションプロット」と呼ばれるゲノム構造マップの高解像度の視覚的表現が実現します。

これらのマップは、ゲノムをビンに分割し、ゲノムビンの各ペア候補の隣接クラスター内におけるリード数を決定して生成されます。ビンのペアの隣接クラスターからのリード数が多くなるのは、それらのビンがゲノム上で近接している場合にほぼ限定されます。構造変異が存在しない領域では、リファレンスゲノム上で近接しているゲノム領域のビンは、サンプル内でも同様に近接しており、コロケーションプロット上で対角線として表れます。構造変異が特定の領域に存在すると、リファレンスゲノム上で近接しているゲノム領域のビンが、サンプル内では近接していない状態となり、その結果、さまざまな対角外のシグナルが現れます。

図10は、X染色体上のF8遺伝子に重なる領域のマップ例を示しています。図10aでは、構造変異(SV)が存在しないサンプルを示す一方、図10bではイントロン22逆位を有するサンプルを示しています。

図10a:HG002細胞株のX染色体上におけるF8遺伝子座位のコロケーションプロット

図10b:イントロン22逆位を持つDNAサンプルのX染色体上におけるF8遺伝子座位のコロケーションプロット F8エクソン23〜26とF8A3の上流領域、およびF8エクソン1〜22とF8A3の下流領域との間に非対角シグナルの蓄積が見られることは、イントロン22とF8A3を境界とする逆位の存在を示しています。

図10c:リファレンスゲノムおよび病原性逆位のサンプルにおけるF8遺伝子座位の構造を表す図。逆位が存在する場合、領域A(F8エクソン23〜26)と領域C(F8A3の上流)、および領域B(F8エクソン1〜22)と領域D(F8A3の下流)の間に新しいシグナルが見られます。

また、逆位を有するサンプルでは、対角線上のシグナルが欠如していることも確認されており、これは逆位の境界を挟んだ領域が、サンプル内において互いに遠く離れていることを示しています。 

図10bに示されている逆位イベントでは、F8イントロン22内のセグメント重複に1つの境界があり、もう1つの境界はF8A3の対応するセグメント重複(約500 kb離れた場所)にあります。セグメント重複の長さは約10 kbで、逆方向に配向しており、99.7%超の配列類似性があります。こうした特性のため、逆位は標準的なショートリードシーケンスでは検出不能になります。 

コロケーションプロットでは、複雑な平衡型および不平衡型の構造再構成を検出・視覚化することができます。これは、イベント境界がゲノムの解析が難しい領域で発生した場合でも同様です。

結論と次のステップ

これはほんの始まりに過ぎません 

コンステレーションマップリードテクノロジーは、幅広い機能を備えた強力な新しい基礎テクノロジーです。ここでは、ヒトゲノムシーケンスに対する利点をいくつか示しますが、将来的なアプリケーションについては現在評価中です。コンステレーションテクノロジーに基づく最初の市販製品は、2026年上半期に予定されており、既存のNovaSeq Xシステムを活用して、包括的なヒトWGSのためのアクセスしやすく費用対効果の高いソリューションを創出します。

このリンクから、Steve Barnard氏(イルミナ最高技術責任者)とBroad Niall Lennon氏(Clinical Labs最高科学責任者)によるASHG 2024のプレゼンテーションをご覧いただけます。

コンステレーションマップリードテクノロジーの今後の開発および将来の製品に関する最新情報を入手するには、以下からサインアップしてください。

参考文献

  1. Behera S, Catreux S, Rossi M, et al. Comprehensive genome analysis and variant detection at scale using DRAGEN. Nat Biotechnol. 2024年10月25日オンライン公開。doi:10.1038/s41587-024-02382-1

用語集

用語 定義

テンプレート分子 

サンプルから抽出された、長い連続した二本鎖DNA分子

標準WGS 

手動ライブラリー調製と標準SBSシーケンスで実施する全ゲノムシーケンス 

タグメンテーション 

トランスポソームを使用してDNA断片を切断し、アダプターシーケンスを追加(タグ付け)するプロセス 

トランスポソーム 

二量体として存在するDNAトランスポザーゼ複合体 

クラスター 

シーケンスされるフローセル上のDNAの増幅スポット 

近接クラスター 

フローセル上で物理的に互いに近接しているクラスター。 

フェーズブロックNG50 

対象領域(ゲノムなど)の50%がフェージングされた時点でのフェーズブロックの長さ。特定のターゲット領域の50%をフェージングできないテクノロジーでは、NG50はゼロbpになることに注意してください。 

完全にフェーズ化された遺伝子の割合 

単一のフェージングブロック内に完全に含まれる、特定のソース(たとえば、NCBI RefSeq、ENCODE、MANE)から得られた遺伝子領域の割合。 

フェーズ化されたヘテロ接合性バリアントの割合 

フェーズ化されたヘテロ接合性小規模バリアントの割合。フェーズ化されたSNVの数をヘテロ接合SNVの数で割って算出します。