DRAGENは、PrecisionFDAベンチマークデータにおけるデータ精度の新しい基準を設定します。イルミナの機械学習とDRAGENグラフによるバリアントコールパフォーマンスの最適化。

Severine Catreux, Varun Jain, Lisa Murray, Rami Mehio, Gavin Parnaby, Cooper Roddey, Michael Ruehle, Wei-Ting Chen, Fan Zhang; published January 12, 2022

Abstract

2020年夏、PrecisionFDA Truth Challenge V2では、ゲノミクスイノベーターにインフォマティクスワークフローを実証してもらい、困難なゲノム領域におけるDNAカバレッジと小さなバリアントコールの精度をどのように改善できるかを示しました。当時、イルミナのDRAGENのマッパー+バリアントコーラーは、マップ困難領域およびすべてのベンチマーク領域(全ゲノムの92%)カテゴリーにおけるイルミナリードの精度コンテストで優勝し、2番目に多いコンペティション者と比較してコールエラーがそれぞれ38%および28%減少しました。本日、DRAGENチームは強力な機械学習(ML)を導入し、さらにグラフゲノムマッピングを改善しました(DRAGEN v3.10リリースのベータ版として2022年初頭に利用可能になる予定です)。これらの新たな進歩により、DRAGENは、すべてのベンチマーク領域とMHC領域のすべてのリードテクノロジーで精度をリードしています。このブログでは、PrecisionFDA Truth Challenge V2で収集された結果を示し、すべてのリードテクノロジーで最新のDRAGEN精度をチャレンジ提出と比較し、高い精度レベルに達するために使用された方法を説明します。

PrecisionFDA Truth Challenge v2

PrecisionFDA Truth Challenge V2 は、複数のシーケンスプラットフォーム(約35X Illumina、約35X PacBio HiFi、および約50X Oxford Nanopore Technologies)によって生成されたリード全体のマップ困難な領域、セグメント重複、および主要組織適合性コンプレックス(MHC)領域におけるベンチマーク精度に重点を置き、共通のリファレンスフレームで、最新の小型バリアントコールを評価することを目的としています。参加者は、異なるテクノロジーを個別に、またはハイブリッドアプローチと組み合わせて使用することができます。図1に示すように、参加者はHG002 FASTQを入力として使用し、HG002高信頼コールセットに対するベンチマーキングを行い、HG002被験者に関する方法をトレーニングしました。その後、HG003およびHG004データセットおよび関連する高信頼度コールセットを使用して盲検下で評価しました。提出物は、新しいv.4.2.1 GIABベンチマークセットとゲノム層別化による小さなバリアントのベンチマーキングのベストプラクティスに従って評価されました。

図1:PrecisionFDA Truth Challenge V2の概要1

表1:PrecisionFDA Truth Challenge V2で使用されるシーケンスデータセットの特性。リード長 - PacBioとONTリード長を要約するために使用するN50。カバレッジ - 常染色体全体のカバレッジ中央値。

図2:PrecisionFDA Challenge v2の結果 – 2020年夏 2
全体的なパフォーマンス(A)と提出ランク(B)は、テクノロジーと層別化(ログスケール)によって異なっていました。
一般的に、マルチテクノロジー(MULTI)を使用した提出物は、3つのゲノムコンテキストカテゴリーすべてにおいて1つのテクノロジーによる提出物を上回りました。パネルAは、評価した3つのゲノム層別化のF1%(高いほど良い)のヒストグラムを示しています。各テクノロジーのサブミッション数は、薄い灰色のバーで示され、個々のテクノロジーはカラーバーで示されます。パネルBは、個々の提出パフォーマンスを示します。データポイントは、3つの層別化(マッピングが難しい領域、すべてのベンチマーク領域、MHC)に対する提出パフォーマンスを表し、ラインは提出物を結び付けます。カテゴリーのトップパフォーマーは“W”のダイヤモンドで示され、チーム名でラベル付けされます。

DRAGEN 3.7バージョンはイルミナリードカテゴリーで競合し、3つのテスト領域(マップ困難領域、全ベンチマーク領域)のうち2つで1位にランクインしました。DRAGEN 3.7では、グラフを有効にした場合、以前のバージョンのDRAGENと比較して、偽陽性と偽陰性が大幅に減少しました。それ以来、DRAGENとその手法をさらに革新し、すべてのリードテクノロジーで一部のカテゴリーで優位に立つ精度の向上をもたらしました。以下に、さらなるグラフゲノムの改善と機械学習の組み合わせにより、オールベンチマーク領域とMHC領域におけるPrecisionFDA Truth Challenge V2で測定された最高精度が得られることを示しています。

DRAGENの精度向上

DRAGENチームは、ヒトゲノムのより大きな部分でバリアントコールの精度を向上させるためにいくつかの重要な変更を開発し、これらの改善が幅広いサンプル集団に一般化可能であることを確認しました。1つ目はグラフゲノムの改善、2つ目はアルトマスキングの開発、3つ目はリファレンスゲノムの更新、3つ目は機械学習を使用して小さなバリアントコーラーの改善です。

DRAGENグラフゲノムには、集団SNPと代替ハプロタイプが含まれており、より正確なリードマッピングを可能にします。DRAGENグラフゲノムにバリアントに寄与した集団には、PrecisionFDAの真相の被験者は含まれなかった。最近では、MHC領域で、より広い領域をカバーすることでグラフにいくつかの改善が見られ、集団ALTハプロタイプの多様性が増しました。

リファレンスゲノムのALTコンティグの一部は、一次染色体コンティグの一部と非常に似ており、リードマッピングの曖昧さやバリアントコーリングエラーを引き起こす可能性があります。この問題は、ALTマスキングによって対処されました。ALT領域を特定し、N塩基の連続した文字列に変換します。PrecisionFDAの真理値セットは、約1億MbのALTシーケンスをマスキングする主要なALTマスキング法では使用されませんでした。しかし、すべてのNISTの真性被験者(HG001-7)のデータセットでは、ALTマスキングによるバリアントコールエラーのクラスターがいくつか観察されました。これらのエラーを修正するためにALTマスクを調整した。

DRAGEN 3.9に初めて追加され、3.10でさらに改良されたMLモジュールは、DRAGENバリアントコーラーから抽出されたコンテキストおよびリードベースの機能を使用する教師ありモデルを採用しています。トレーニング中に使用されなかった他の集団からのテストデータを含め、すべての被験者で一貫して実質的な利益が示されました。

表2:メソッドの改善 PrecisionFDA Truth Challenge v2以降、DRAGENのVC精度はより小さくなっています。

DRAGEN 3.10は、PrecisionFDA Truth Challenge V2のHG003およびHG004 FASTQのこれら3つのメソッドのアップデートを組み合わせて実行しました。得られたVCFをPrecisionFDAアプリにアップロードし、ベンチマークガイドラインに従って精度結果を生成しました。得られた精度は、チャレンジ提出結果と直接比較することができます。比較の結果、DRAGEN 3.10+graph+MLは、All-Benchmark RegionおよびMHC領域において、すべてのリードテクノロジー(Illumina、HiFi PacBio、およびONT)を上回る性能を示します。 

図3は、全ベンチマーク領域におけるすべての提出物について、SNVとINDELを組み合わせた平均HG003/HG004 F1スコアを示しています。 オリジナルのDRAGEN提出物ではDRAGEN 3.7+graphを使用し、イルミナリードカテゴリーのチャレンジ時に1位となり、現在では全体で6位となっています。DRAGEN 3.10+グラフは、DRAGEN 3.7+グラフよりも改善を示しており、グラフとリファレンス/アルトコンティグ処理の改善により、DRAGEN 3.10+graph+MLは、HiFi PacBioのリード提出で上位にランクインしています。

図3:“All benchmark regions”におけるPrecisionFDA Truth Challenge v2提出物と比較したDRAGEN 3.10 GraphおよびMLの精度。

表3:“All benchmark region”のすべてのリードテクノロジーにおけるF1スコアの上位6位。DRAGEN 3.10+graph+MLは、HiFi PACBIOと結ばれて1位にランクインしています。

MHC地域では、DRAGEN 3.10の以前のDRAGENバージョンやその他のリードテクノロジーに対する利益は、All-Benchmark Regionsよりもさらに顕著です。DRAGEN 3.10のF1スコアは、このチャレンジでDRAGENが行った前回の提出と比較して大幅に上昇しました。DRAGEN 3.10は、HiFi PACBIOおよびONTを含む他のすべての提出物よりも高いF1スコアを示します(図4参照)。

図4:MHC領域におけるプレシジョンFDA v2提出と比較したDRAGEN 3.10 GraphおよびMLの精度。

表4:“MHC地域”のすべてのリードテクノロジーにおけるF1スコアの上位6位。DRAGEN 3.10+graph+MLは、HiFi PacBioに先駆けて第1位となりました。

DRAGENにおける機械学習

DRAGEN v3.9では、生殖細胞系列の小さなバリアントワークフローのオプションとして、強力で効率的な機械学習の再キャリブレーションパイプラインを追加しました。パイプラインは、有効な場合、標準バリアントコーリング後に機械学習モデルを実行します。MLステップは、最終VCFに出力されるQUALフィールドとGQフィールドを再キャリブレーションします。場合によっては、MLがGTを変えることがあります。これらのフィールドのプレML値は、DQUAL、DGT、およびDGQフィールドに保存されるため、情報が失われることはありません。

MLステップでは、標準ワークフローに30x WGS生殖細胞系列ランを約5分しか追加しないため、精度の向上は総ランタイムに限られた影響しか与えません。 

図5:MLを有効にしたDRAGEN生殖細胞系ワークフロー。

MLモデルは、監督下のオフライントレーニングを使用して生成されます。このモデルは、リードベースおよびコンテキスト特徴量のセットを処理し、小さなバリアントのコーラー品質スコアの精度を向上させます。モデルのトレーニングに使用される機能には、Mappability、AF、VC-Qual、DP、GCコンテンツ、ミスマッチ、その他の内部マッピング、アライメント、VCメトリクスが含まれます。

以下の図6は、7名のNIST被験者HG001-7すべてについて、v.4.2.1 “All benchmark”領域で収集されたSNPエラー(FP+FN)の総数を示しています。結果は2つの重要な結果を示しています。DRAGENグラフは、7名の被験者すべてで一貫してSNPエラーを約50%減少させ、さまざまな祖先で頑健性を示しています(HG002-4はアシュケナジトリオ、HG005-7は中国トリオです)。さらに、DRAGEN MLは、7名の被験者すべてで一貫して、さらに20~30%のSNPエラー減少をもたらします。

図6:HG001~HG007 SNPの精度 拡張真度セット(v4.2.1 VCFおよびBED)の結果。

以下の図7は、7名のNIST被験者HG001-7すべてについて、v.4.2.1 "All-Benchmark”領域で収集されたINDELエラー(FP+FN)の総数を示しています。結果はSNPと同様の傾向を示しています。DRAGENグラフは、祖先に関係なく、7名の被験者すべてで一貫してINDELエラーを約30%減少させます(HG002-4はアシュケナジトリオ、HG005-7は中国トリオです)。さらに、DRAGEN MLは、さらに5~20%のINDELエラー減少をもたらし、7名の被験者すべてで一貫して減少します。

図7:HG001~HG007 INDELの精度 拡張真度セット(v4.2.1 VCFおよびBED)の結果。

DRAGENにおけるネイティブAltマスキング

DRAGEN 3.9では、ネイティブリファレンスのALTコンティグを処理するための新しいアプローチを導入しました。このアプローチでは、ALTコンティグの戦略的位置がマスクされ、精度が向上します。ALT-Maskingアプローチは、精度を向上させるALT-Awareアライメントリフトオーバー手順に代わるものとして導入されました。

リフトオーバーベースのALT認識により、DRAGENの大幅な精度向上を達成しましたが、時間の経過とともに、テストにより頑固な問題が明らかになりました。主に、5Mbpシーケンスの長いリフトオーバーアライメントは時に問題となることがあります。長いALTハプロタイプと一次アセンブリの間の"正しい"または最も有用なリフトオーバーが曖昧な場所が多数あります。不適切なリフトオーバーは、ミスマップされたリードや誤ったバリアントコールの密集を引き起こす可能性があります。時々、不良なリフトオーバーがマッピングやVCの問題を引き起こした別の場所が発見され、これは局所的ではあるが重度である傾向がありました。これらの問題を解決するために、ALTマスクベースのソリューションを導入しました。

ALTマスクベースのアプローチでは、一次アセンブリに似たセグメントはマスクされるため、アライメントを競合したり、MAPQを盗んだりすることはありません。非常に異なるセグメントは、本質的にデコイシーケンスとして機能するため、マスク化されません。PrecisionFDAの真理値セットは、約1億MbのALTシーケンスをマスキングする主要なALTマスキング法では使用されませんでした。しかし、すべてのNISTの真性被験者(HG001-7)のデータセットでは、ALTマスキングによるバリアントコールエラーのクラスターがいくつか観察されました。これらのエラーを修正するためにALTマスクを調整した。DRAGENのALTマスクリファレンスは、リフトオーバーベースのALTアウェアメソッドと比較して、バリアントコールの精度を向上させます。ベースマスキングアプローチには、マイナスの結果をもたらすことなくALTコンティグを使用する利点があります。また、定義、維持、改善も容易です。今後もマスクの改良を続けるでしょうが、すでにリフトオーバーベースの性能を上回っています。詳細については、DRAGEN 3のリファレンス改善に関する記事を参照してください

MHC領域の改善

DRAGENは、3.7版以降、ML、ALTマスキング、およびグラフ参照の改善を組み合わせることで、MHC領域における小さなバリアントコールの精度を大幅に向上させました。グラフベースのリファレンスは、MHC領域などのゲノムのマッピングが難しい領域におけるマッピングとバリアントコーリングの精度を向上させます。MHC領域は多型性が高く、サンプルリードはリファレンスと大きく異なるため、マッパーが適切な一致を見つけることは困難です。マッピングは、相同領域を区別し、線形リファレンスに対して集団に既知の代替パスを提供するように慎重に選択された集団ハプロタイプセグメントを追加することで改善できます。

DRAGENは、MHC領域をカバーする集団ハプロタイプを濃縮することで、MHC領域のグラフリファレンスを改善しました。これにより、マッピング精度が向上し、バリアントコール精度が向上します。MLの追加により、DRAGENはPrecisionFDA Challenge v2の提出よりも高いF1スコアを得ることができます。 グラフリファレンスハッシュテーブルは、Illumina DRAGENサポートページ4からダウンロードできます

図8:HG001~HG007のSNP精度MHCの真相(v4.2.1 VCFおよびBED)の結果。

図9:HG001~HG007 INDELの精度 MHCの真相(v4.2.1 VCFおよびBED)。

ドレーゲン:継続的なイノベーションの推進 ゲノム解析の&推進 

DRAGENは、NGSデータ処理のために、非常に正確で包括的で超高速な二次解析を大規模に提供するプラットフォームです。継続的な精度の向上とゲノムの困難な領域へのカバレッジの拡大は、包括的なゲノムソリューションにとって重要な資産であり、困難で医学的に関連するバリアントの検出を可能にします。

この記事では、今後のDRAGEN 3.10リリースの改善により、すべてのリードテクノロジーで競争力のある小さなバリアント精度が得られることが示されています。DRAGENは、他のDRAGENバリアントコーラースイート(SV、CNV、Expansion Hunter、およびSMN、CY2D6、HLAなどのターゲットコーラー)と組み合わせて、ゲノム全体のカバレッジを可能にし、ゲノム解析を促進します。