Abstract
2020年の夏、PrecisionFDA Truth Challenge V2は、ゲノミクスのイノベーターを招待し、インフォマティクスワークフローのデモンストレーションと技術的に困難なゲノム領域におけるDNAカバレッジと小規模バリアントコールの精度を向上させる方法を実証する課題を提供しました。ここで、Illumina DRAGENのマッパーとバリアントコーラーの組み合わせは、イルミナリードの精度コンテストにおいてマッピングが困難な領域と全ベンチマーク領域(全ゲノムの92%)のカテゴリーで優勝することができました。その記録は、2番目に優秀な競争相手よりもコールエラーがそれぞれ38%および28%少ないという結果でした。今日、DRAGENチームは強力な機械学習(ML)を導入し、さらに改良されたグラフゲノムマッピング(DRAGEN v3.10リリースのベータ版として2022年初頭に発売予定です)を導入します。これらの新たな進歩により、DRAGENは全ベンチマーク領域とMHC領域におけるすべてのリード技術の精度についてトップに立つことができました。このブログでは、PrecisionFDA Truth Challenge V2で収集された結果をご紹介し、すべてのリードテクノロジーにわたって最新のDRAGENの精度をチャレンジ申請データと比較し、高精度レベルに達するために使用される方法について学びます。
PrecisionFDA Truth Challenge v2
PrecisionFDA Truth Challenge V2 は、複数のシーケンスプラットフォーム(約35Xイルミナ、約35X PacBio HiFi、約50X Oxford Nanopore Technologies)によって生成されたリード全体にわたり、マッピングが困難な領域、セグメント重複、および主要組織適合性複合体(MHC)領域におけるベンチマークの精度に焦点を当て、一般的リファレンスフレームを使用して最先端の小規模バリアントコールを評価することを目的としています。参加者は、異なるテクノロジーを個別に、またはハイブリッドアプローチと組み合わせて使用することができます。図1に示すように、参加者は、HG002 FASTQをインプットとして使用し、HG002高信頼度コールセットに対するベンチマーキングを行い、HG002を対象として自らの手法のトレーニングを実施しました。その後、HG003およびHG004データセットおよび関連する高信頼度コールセットを使用して盲検下で評価が行われました。提出物は、新しいv.4.2.1 GIABベンチマークセットとゲノム層別化による小さなバリアントのベンチマークを実施するためのベストプラクティスに従って評価されました。

図1:PrecisionFDA Truth Challenge V2の概要1

表1:PrecisionFDA Truth Challenge V2で使用されるシーケンスデータセットの特性。リード長 - PacBioとONTリード長をまとめるためにN50を使用する。カバレッジ - 常染色体全体のカバレッジ率の中央値。

図2:PrecisionFDA Challenge v2の結果 – 2020年夏2
全体的性能(A)と提出ランク(B)は、テクノロジーと層別化(ログスケール)に応じて異なっています。
一般的に、マルチテクノロジー(MULTI)を使用した提出は、3つのゲノムに関連する内容のカテゴリーすべてにおいて、単一のテクノロジーを使用した提出よりも優れていました。パネルAは、評価した3つのゲノム層別化においてF1%(高いほど良い)のヒストグラムを示しています。各テクノロジーのサブミッション数は薄い灰色のバーで示され、個々のテクノロジーは色付きのバーで示されています。パネルBは個々の提出の性能を示しています。データポイントは、3つの層別化(マッピング困難領域、全ベンチマーク領域、MHC)における提出の性能を表し、提出はラインで繋がっています。カテゴリーのトップパフォーマーはダイヤモンドと「W」で示され、チーム名が付されています。
DRAGEN 3.7バージョンはIlluminaリードのカテゴリーで競合し、テストの3領域(マッピング困難領域、全ベンチマーク領域)のうちの2領域で1位にランクインしました。DRAGEN 3.7では、グラフを有効にした場合、以前のバージョンのDRAGENと比較して、偽陽性と偽陰性が大幅に減少しました。それ以来、当社はDRAGENとその手法をさらに革新され、すべてのリードテクノロジー全体のうちの一部のカテゴリーにおいて、他に並ぶ者のいない精度の得点を獲得しました。以下は、さらなるグラフゲノムの改善と機械学習の組み合わせは、オールベンチマーク領域とMHC領域においてPrecisionFDA Truth Challenge V2が測定した値は最高の精度であることを示しています。
DRAGENの精度向上
DRAGENチームは、ヒトゲノムの大部分にわたってバリアントコールの精度を向上させるために、いくつかの重要な変更を開発し、これらの改善が幅広いサンプル集団に一般化可能であることを確認しました。1つ目はグラフゲノムの改善、2つ目はALTマスキングの開発とリファレンスゲノムの更新、3つ目は機械学習を使用した小規模バリアントコーラーの改善です。
DRAGENグラフゲノムには、より精確なリードマッピングを可能にする集団SNPと代替ハプロタイプが含まれています。DRAGENグラフゲノムにバリアントを提供した集団は、PrecisionFDAの真の被験者に含まれませんでした。最近では、MHC領域のより広い領域をカバーすることでグラフにいくつかの改善が見られ、集団ALTハプロタイプの多様性が増しました。
リファレンスゲノムのALTコンティグの一部は、一次染色体コンティグの一部と非常に似ている可能性があり、リードマッピングに曖昧さやバリアントコールエラーを引き起こす可能性があります。この問題はALTマスキングによって対処されました。すなわち、ALT領域を同定し、N塩基の連続した文字列に変換されました。PrecisionFDAの真理値セットは、約100 MbのALTシーケンスをマスキングする主要なALTマスキング法には使用されませんでした。しかし、すべてのNISTの真の被験者(HG001-7)からのデータセットでは、ALTマスキングによって誘発されたバリアントコールエラーのクラスターがいくつか観察されました。これらのエラーを修正するためにALTマスクを調整しました。
MLモジュールは、DRAGEN 3.9に初めて追加され、3.10でさらに改良され、DRAGENバリアントコーラーから抽出されたコンテキストおよびリードベースの機能を使用する監視モデルを採用しています。トレーニング中に使用されなかったその他の集団からのテストデータを含め、すべての被験者で一貫して相当な得点を獲得しました。

表2:PrecisionFDA Truth Challenge v2以降の手法の改善によりDRAGENで認められたスモールVCの精度向上
DRAGEN 3.10のランは、PrecisionFDA Truth Challenge V2からのHG003およびHG004 FASTQに、これら3手法の更新を組み合わせて実行しました。得られたVCFをPrecisionFDAアプリにアップロードし、ベンチマークガイドラインに従って精度結果を生成しました。得られた精度は、チャレンジの提出結果と直接比較することができました。比較の結果、DRAGEN 3.10+グラフ+MLの性能は、全ベンチマーク領域およびMHC領域において、すべてのリードテクノロジー(イルミナ、HiFi PacBio、およびONT)を上回っています。
図3は、全ベンチマーク領域におけるすべての提出物について、SNVとIndelを組み合わせた平均HG003/HG004 F1スコアを示しています。 旧版のDRAGENの提出ではDRAGEN 3.7+グラフを使用し、イルミナリードカテゴリーのチャレンジ時に1位となり、現在では全体で6位となっています。DRAGEN 3.10+グラフでは、グラフとリファレンス/altコンティグの取り扱いの改善のおかげでDRAGEN 3.7+グラフよりも改善がみられ、DRAGEN 3.10+グラフ+MLは、HiFi PacBioのリードの提出とタイで1位にランクインしています。

図3:「全ベンチマーク領域」におけるPrecisionFDA Truth Challenge v2での提出物と比較したDRAGEN 3.10グラフおよびMLの精度。

表3:「全ベンチマーク領域」におけるすべてのリードテクノロジーの提出上位6位のF1スコア。DRAGEN 3.10+グラフ+MLは、HiFi PACBIOとタイで1位を獲得しました。

図4:「MHC領域」におけるPrecisionFDA v2での提出物と比較したDRAGEN 3.10グラフおよびMLの精度。

表4:「MHC領域」におけるすべてのリードテクノロジーの提出上位6位のF1スコア。DRAGEN 3.10+グラフ+MLは、HiFi PACBIOを引き離して1位を獲得しました。
DRAGENの機械学習
DRAGEN v3.9では、生殖系列の小規模バリアントワークフローのオプションとして、強力かつ効率的なMachine Learning再キャリブレーションパイプラインを追加しました。パイプラインは有効化されると、標準バリアントコール後にMachine Learningモデルを実行します。MLステップは、最終VCFで出力されるQUALフィールドとGQフィールドを再キャリブレーションします。場合によっては、MLはGTを変更することができます。これらのフィールドのML前の値は、DQUAL、DGT、およびDGQフィールドに保存されるため、情報が失われることはありません。
MLステップは、Standardワークフローによる30x WGS生殖系列ランでは約5分しか延長されないため、精度の向上による合計ランタイムへの影響は限定的です。

図5:MLを有効化したDRAGEN Germlineワークフロー。
MLモデルは、監督下のオフライントレーニングを使用して生成されています。このモデルは、リードベースおよびコンテキスト特性のセットを処理し、小規模バリアントコーラーのクオリティスコアの精度を向上させます。モデルのトレーニングに使用される機能には、Mappability、AF、VC-Qual、DP、GC含有率、ミスマッチ、その他の内部マッピング、アライメント、VCメトリクスが含まれます。
以下の図6は、7例のNIST被験者HG001-7すべてについて、v.4.2.1 「全ベンチマーク」領域で収集されたSNPエラー(FP+FN)の合計数を示しています。結果は2つの重要な所見を示しています。DRAGENグラフは、7例の被験者すべてで一貫してSNPエラーを約50%減少させ、さまざまな祖先系統でロバストネスを示しています(HG002-4はアシュケナジトリオ、HG005-7は中国トリオ)。さらに、DRAGEN MLはさらに20~30%のSNPエラーの減少をもたらし、これは7例の被験者すべてで一貫しています。

図6:拡張真理値セットにおけるHG001~HG007のSNP精度(v4.2.1 VCFおよびBED)の結果。

図7:拡張真理値セットにおけるHG001~HG007のINDEL精度 (v4.2.1 VCFおよびBED)の結果。
DRAGENにおけるネイティブALTマスキング
DRAGEN 3.9では、ネイティブリファレンスのALTコンティグを処理するための新しいアプローチが導入されました。このアプローチでは、ALTコンティグの戦略的位置がマスキングされ、精度が向上します。ALTマスキングアプローチは、精度を向上させるALT認識アライメントリフトオーバー手順に代わるものとして導入されました。
リフトオーバーベースのALT認識により、DRAGENの大幅な精度向上を達成しましたが、時間の経過とともに検査によっては、頑固な問題が明らかになりました。主に、5 Mbpシーケンスの長いリフトオーバーアラインメントは時に問題となることがあります。長いALTハプロタイプと一次アセンブルの間の「正しい」リフトオーバーまたは最も有用なリフトオーバーが曖昧な箇所が多数存在します。不適切なリフトオーバーは、ミスマップされたリードや誤ったバリアントコールの密集クラスターを引き起こす可能性があります。時々、不良なリフトオーバーがマッピングやVCの問題を引き起こした他の箇所が発見され、これは局所的ではあるが重度である傾向がありました。これらの問題を解決するために、ALTマスクベースのソリューションが導入されました。
ALTマスクベースのアプローチでは、一次アセンブルに似たセグメントはマスクされるため、アライメントの競合や置き換わり、MAPQが押しつぶされたりすることはありません。非常に異なるセグメントはマスクされずに残り、基本的にデコイシーケンスとして機能します。PrecisionFDAの真理値セットは、約100 MbのALTシーケンスをマスキングする主要なALTマスキング法には使用されませんでした。しかし、すべてのNISTの真の被験者(HG001-7)からのデータセットでは、ALTマスキングによって誘発されたバリアントコールエラーのクラスターがいくつか観察されました。これらのエラーを修正するためにALTマスクを調整しました。DRAGENのALTマスクリファレンスは、リフトオーバーベースのALT認識法と比較して、バリアントコールの精度を向上させます。塩基マスキングアプローチには、マイナスの結果をもたらすことなくALTコンティグを使用できる利点があります。また、定義、維持、改善も容易です。当社では、今後もマスクの改良を続けられるでしょうが、すでにリフトオーバーベースの性能を上回っています。詳細については、DRAGEN3のリファレンスの改善に関する記事を参照してください。
MHC領域の改善
DRAGENは、ML、ALTマスキング、およびグラフ参照の改善を組み合わせることで、3.7バージョン以降、MHC領域の小さなバリアントコール精度を大幅に向上させてきました。グラフベースのリファレンスは、MHC領域などのマッピングが困難なゲノム領域におけるマッピングとバリアントコーリングの精度を向上させます。MHC領域は多型性が高く、サンプルリードはリファレンスと大きく異なるため、マッパーが適切な一致を見つけることが困難です。マッピングは、相同領域を便利に区別し、線形リファレンスに対して集団に既知の代替パスを提供するように慎重に選ばれた集団ハプロタイプのセグメントを追加することで改善できます。
DRAGENでは、MHC領域をカバーする集団ハプロタイプを濃縮することで、MHC領域のグラフリファレンスが改善されました。これにより、マッピング精度が向上することで、バリアントコール精度を向上させます。また、MLの追加により、DRAGENはPrecisionFDA Challenge v2の提出よりも高いF1スコアを得ることができるようになりました。 グラフリファレンスハッシュテーブルは、Illumina DRAGENサポートページ4からダウンロードできます。

図8:MHC真理値セット(v4.2.1 VCFおよびBED)におけるHG001~HG007のSNP精度の結果。

図9:MHC真理値セット(v4.2.1 VCFおよびBED)におけるHG001~HG007のINDEL精度の結果。
DRAGEN:継続的なイノベーションの推進と進歩するゲノム解析
DRAGENは、非常に精確で包括的かつ超高速の二次解析を大規模に提供してNGSデータ処理を行うプラットフォームです。継続的な精度の向上とゲノムの技術的に困難な領域へのカバレッジの拡大は、包括的なゲノムソリューションにとって重要な資産であり、困難かつ医学的に重要なバリアントの検出を可能にします。
本稿では、近く発売されるDRAGEN 3.10に加えられた改善点が、小規模バリアント検出精度において、あらゆるリードテクノロジーの中で特に競争力があることについてご紹介します。他のDRAGENバリアントコーラースイート(SV、CNV、Expansion Hunter、およびSMN、CY2D6、HLAなどのターゲットコーラー)と組み合わせると、DRAGENはゲノム全体のカバレッジが可能になり、ゲノム解析を飛躍的に促進します。
学術用途向けの詳細情報またはDRAGEN試用版ライセンスについては、dragen-info@illumina.comまでお問い合わせください。
注釈
- https://precision.fda.gov/challenges/10
- Olson et al. PrecisionFDA Truth Challenge V2: Calling variants from short- and long-reads in difficult-to-map regions BioRxiv. (2020) doi:2020:11.13
- https://www.illumina.com/science/genomics-research/articles/dragen-demystifying-reference-genomes.html
- https://support.illumina.com/sequencing/sequencing_software/dragen-bio-it-platform/product_files.html