Abstract
2020年夏、PrecisionFDA Truth Challenge V2では、ゲノミクスイノベーターにインフォマティクスワークフローを実証してもらい、困難なゲノム領域におけるDNAカバレッジと小さなバリアントコールの精度をどのように改善できるかを示しました。当時、イルミナのDRAGENのマッパー+バリアントコーラーは、マップ困難領域およびすべてのベンチマーク領域(全ゲノムの92%)カテゴリーにおけるイルミナリードの精度コンテストで優勝し、2番目に多いコンペティション者と比較してコールエラーがそれぞれ38%および28%減少しました。本日、DRAGENチームは強力な機械学習(ML)を導入し、さらにグラフゲノムマッピングを改善しました(DRAGEN v3.10リリースのベータ版として2022年初頭に利用可能になる予定です)。これらの新たな進歩により、DRAGENは、すべてのベンチマーク領域とMHC領域のすべてのリードテクノロジーで精度をリードしています。このブログでは、PrecisionFDA Truth Challenge V2で収集された結果を示し、すべてのリードテクノロジーで最新のDRAGEN精度をチャレンジ提出と比較し、高い精度レベルに達するために使用された方法を説明します。
PrecisionFDA Truth Challenge v2
PrecisionFDA Truth Challenge V2 は、複数のシーケンスプラットフォーム(約35X Illumina、約35X PacBio HiFi、および約50X Oxford Nanopore Technologies)によって生成されたリード全体のマップ困難な領域、セグメント重複、および主要組織適合性コンプレックス(MHC)領域におけるベンチマーク精度に重点を置き、共通のリファレンスフレームで、最新の小型バリアントコールを評価することを目的としています。参加者は、異なるテクノロジーを個別に、またはハイブリッドアプローチと組み合わせて使用することができます。図1に示すように、参加者はHG002 FASTQを入力として使用し、HG002高信頼コールセットに対するベンチマーキングを行い、HG002被験者に関する方法をトレーニングしました。その後、HG003およびHG004データセットおよび関連する高信頼度コールセットを使用して盲検下で評価しました。提出物は、新しいv.4.2.1 GIABベンチマークセットとゲノム層別化による小さなバリアントのベンチマーキングのベストプラクティスに従って評価されました。
DRAGEN 3.7バージョンはイルミナリードカテゴリーで競合し、3つのテスト領域(マップ困難領域、全ベンチマーク領域)のうち2つで1位にランクインしました。DRAGEN 3.7では、グラフを有効にした場合、以前のバージョンのDRAGENと比較して、偽陽性と偽陰性が大幅に減少しました。それ以来、DRAGENとその手法をさらに革新し、すべてのリードテクノロジーで一部のカテゴリーで優位に立つ精度の向上をもたらしました。以下に、さらなるグラフゲノムの改善と機械学習の組み合わせにより、オールベンチマーク領域とMHC領域におけるPrecisionFDA Truth Challenge V2で測定された最高精度が得られることを示しています。
DRAGENの精度向上
DRAGENチームは、ヒトゲノムのより大きな部分でバリアントコールの精度を向上させるためにいくつかの重要な変更を開発し、これらの改善が幅広いサンプル集団に一般化可能であることを確認しました。1つ目はグラフゲノムの改善、2つ目はアルトマスキングの開発、3つ目はリファレンスゲノムの更新、3つ目は機械学習を使用して小さなバリアントコーラーの改善です。
DRAGENグラフゲノムには、集団SNPと代替ハプロタイプが含まれており、より正確なリードマッピングを可能にします。DRAGENグラフゲノムにバリアントに寄与した集団には、PrecisionFDAの真相の被験者は含まれなかった。最近では、MHC領域で、より広い領域をカバーすることでグラフにいくつかの改善が見られ、集団ALTハプロタイプの多様性が増しました。
リファレンスゲノムのALTコンティグの一部は、一次染色体コンティグの一部と非常に似ており、リードマッピングの曖昧さやバリアントコーリングエラーを引き起こす可能性があります。この問題は、ALTマスキングによって対処されました。ALT領域を特定し、N塩基の連続した文字列に変換します。PrecisionFDAの真理値セットは、約1億MbのALTシーケンスをマスキングする主要なALTマスキング法では使用されませんでした。しかし、すべてのNISTの真性被験者(HG001-7)のデータセットでは、ALTマスキングによるバリアントコールエラーのクラスターがいくつか観察されました。これらのエラーを修正するためにALTマスクを調整した。
DRAGEN 3.9に初めて追加され、3.10でさらに改良されたMLモジュールは、DRAGENバリアントコーラーから抽出されたコンテキストおよびリードベースの機能を使用する教師ありモデルを採用しています。トレーニング中に使用されなかった他の集団からのテストデータを含め、すべての被験者で一貫して実質的な利益が示されました。
DRAGEN 3.10は、PrecisionFDA Truth Challenge V2のHG003およびHG004 FASTQのこれら3つのメソッドのアップデートを組み合わせて実行しました。得られたVCFをPrecisionFDAアプリにアップロードし、ベンチマークガイドラインに従って精度結果を生成しました。得られた精度は、チャレンジ提出結果と直接比較することができます。比較の結果、DRAGEN 3.10+graph+MLは、All-Benchmark RegionおよびMHC領域において、すべてのリードテクノロジー(Illumina、HiFi PacBio、およびONT)を上回る性能を示します。
図3は、全ベンチマーク領域におけるすべての提出物について、SNVとINDELを組み合わせた平均HG003/HG004 F1スコアを示しています。 オリジナルのDRAGEN提出物ではDRAGEN 3.7+graphを使用し、イルミナリードカテゴリーのチャレンジ時に1位となり、現在では全体で6位となっています。DRAGEN 3.10+グラフは、DRAGEN 3.7+グラフよりも改善を示しており、グラフとリファレンス/アルトコンティグ処理の改善により、DRAGEN 3.10+graph+MLは、HiFi PacBioのリード提出で上位にランクインしています。
DRAGENにおける機械学習
DRAGEN v3.9では、生殖細胞系列の小さなバリアントワークフローのオプションとして、強力で効率的な機械学習の再キャリブレーションパイプラインを追加しました。パイプラインは、有効な場合、標準バリアントコーリング後に機械学習モデルを実行します。MLステップは、最終VCFに出力されるQUALフィールドとGQフィールドを再キャリブレーションします。場合によっては、MLがGTを変えることがあります。これらのフィールドのプレML値は、DQUAL、DGT、およびDGQフィールドに保存されるため、情報が失われることはありません。
MLステップでは、標準ワークフローに30x WGS生殖細胞系列ランを約5分しか追加しないため、精度の向上は総ランタイムに限られた影響しか与えません。
MLモデルは、監督下のオフライントレーニングを使用して生成されます。このモデルは、リードベースおよびコンテキスト特徴量のセットを処理し、小さなバリアントのコーラー品質スコアの精度を向上させます。モデルのトレーニングに使用される機能には、Mappability、AF、VC-Qual、DP、GCコンテンツ、ミスマッチ、その他の内部マッピング、アライメント、VCメトリクスが含まれます。
以下の図6は、7名のNIST被験者HG001-7すべてについて、v.4.2.1 “All benchmark”領域で収集されたSNPエラー(FP+FN)の総数を示しています。結果は2つの重要な結果を示しています。DRAGENグラフは、7名の被験者すべてで一貫してSNPエラーを約50%減少させ、さまざまな祖先で頑健性を示しています(HG002-4はアシュケナジトリオ、HG005-7は中国トリオです)。さらに、DRAGEN MLは、7名の被験者すべてで一貫して、さらに20~30%のSNPエラー減少をもたらします。
DRAGENにおけるネイティブAltマスキング
DRAGEN 3.9では、ネイティブリファレンスのALTコンティグを処理するための新しいアプローチを導入しました。このアプローチでは、ALTコンティグの戦略的位置がマスクされ、精度が向上します。ALT-Maskingアプローチは、精度を向上させるALT-Awareアライメントリフトオーバー手順に代わるものとして導入されました。
リフトオーバーベースのALT認識により、DRAGENの大幅な精度向上を達成しましたが、時間の経過とともに、テストにより頑固な問題が明らかになりました。主に、5Mbpシーケンスの長いリフトオーバーアライメントは時に問題となることがあります。長いALTハプロタイプと一次アセンブリの間の"正しい"または最も有用なリフトオーバーが曖昧な場所が多数あります。不適切なリフトオーバーは、ミスマップされたリードや誤ったバリアントコールの密集を引き起こす可能性があります。時々、不良なリフトオーバーがマッピングやVCの問題を引き起こした別の場所が発見され、これは局所的ではあるが重度である傾向がありました。これらの問題を解決するために、ALTマスクベースのソリューションを導入しました。
ALTマスクベースのアプローチでは、一次アセンブリに似たセグメントはマスクされるため、アライメントを競合したり、MAPQを盗んだりすることはありません。非常に異なるセグメントは、本質的にデコイシーケンスとして機能するため、マスク化されません。PrecisionFDAの真理値セットは、約1億MbのALTシーケンスをマスキングする主要なALTマスキング法では使用されませんでした。しかし、すべてのNISTの真性被験者(HG001-7)のデータセットでは、ALTマスキングによるバリアントコールエラーのクラスターがいくつか観察されました。これらのエラーを修正するためにALTマスクを調整した。DRAGENのALTマスクリファレンスは、リフトオーバーベースのALTアウェアメソッドと比較して、バリアントコールの精度を向上させます。ベースマスキングアプローチには、マイナスの結果をもたらすことなくALTコンティグを使用する利点があります。また、定義、維持、改善も容易です。今後もマスクの改良を続けるでしょうが、すでにリフトオーバーベースの性能を上回っています。詳細については、DRAGEN 3のリファレンス改善に関する記事を参照してください。
MHC領域の改善
DRAGENは、3.7版以降、ML、ALTマスキング、およびグラフ参照の改善を組み合わせることで、MHC領域における小さなバリアントコールの精度を大幅に向上させました。グラフベースのリファレンスは、MHC領域などのゲノムのマッピングが難しい領域におけるマッピングとバリアントコーリングの精度を向上させます。MHC領域は多型性が高く、サンプルリードはリファレンスと大きく異なるため、マッパーが適切な一致を見つけることは困難です。マッピングは、相同領域を区別し、線形リファレンスに対して集団に既知の代替パスを提供するように慎重に選択された集団ハプロタイプセグメントを追加することで改善できます。
DRAGENは、MHC領域をカバーする集団ハプロタイプを濃縮することで、MHC領域のグラフリファレンスを改善しました。これにより、マッピング精度が向上し、バリアントコール精度が向上します。MLの追加により、DRAGENはPrecisionFDA Challenge v2の提出よりも高いF1スコアを得ることができます。 グラフリファレンスハッシュテーブルは、Illumina DRAGENサポートページ4からダウンロードできます。
ドレーゲン:継続的なイノベーションの推進 ゲノム解析の&推進
DRAGENは、NGSデータ処理のために、非常に正確で包括的で超高速な二次解析を大規模に提供するプラットフォームです。継続的な精度の向上とゲノムの困難な領域へのカバレッジの拡大は、包括的なゲノムソリューションにとって重要な資産であり、困難で医学的に関連するバリアントの検出を可能にします。
この記事では、今後のDRAGEN 3.10リリースの改善により、すべてのリードテクノロジーで競争力のある小さなバリアント精度が得られることが示されています。DRAGENは、他のDRAGENバリアントコーラースイート(SV、CNV、Expansion Hunter、およびSMN、CY2D6、HLAなどのターゲットコーラー)と組み合わせて、ゲノム全体のカバレッジを可能にし、ゲノム解析を促進します。
参考文献
- https://precision.fda.gov/challenges/10
- Olson et al. PrecisionFDA Truth Challenge V2:マッピングが困難な地域のショートリードとロングリードからバリアントを呼び出すBioRxiv。 (2020) doi:2020:11.13
- https://www.illumina.com/science/genomics-research/articles/dragen-demystifying-reference-genomes.html
- https://support.illumina.com/sequencing/sequencing_software/dragen-bio-it-platform/product_files.html