Abstract
PrecisionFDAは最近、リンクさせたロングリードシーケンス由来の新しい真理値セットに依拠して、マッピング困難領域のマッピングとバリアントコーリングアルゴリズムの精度を比較するTruth Challenge V2を企画しました。PrecisionFDAは8月3日にこのチャレンジの結果を発表し、DRAGENのマッパーとバリアントコーラーが、マッピング困難領域と全ベンチマーク領域のカテゴリーにおいて、イルミナのリードの精度コンテストで勝利を収めたことを発表しました。コンテストの2位の競争相手と比べて、コールエラーがそれぞれ38%および28%少ないという結果でした。このチャレンジにおけるDRAGENの性能は、DRAGENの以前のリリースより50%近くも優れており、さらに1台の20コアサーバー + 1 FPGAで25分未満で全ゲノムを解析できます。これらの結果を達成するために、DRAGENのalt-awareマッピング機能を使用し、フェージングを行った集団のハプロタイプから得た数十万の短い代替コンティグをhg38リファレンスに追加し、hg38をグラフリファレンスへと効果的に進化させました。さらに、DRAGENバリアントコーラーは、新しい手法を使用して、リードのパイルアップで重複するバリアントをよりよく同定し、処理しました。
はじめに
ヒトゲノムの推定99.9%は個人間で共通しています。つまり、がんリスクの上昇、特定の薬物の代謝不能の予測、遺伝性疾患の病因に寄与するものはわずか0.1%であることを意味します。個人間の遺伝的バリアントを正確に同定することは、プレシジョンメディシン、疾患診断、疾患の遺伝的起源の研究、および創薬にとって不可欠です。Genome In a Bottle(GiaB)コンソーシアムと米国立標準技術研究所(NIST)は、ゲノムの大部分をカバーするNA12878などの選択したテーマについて真理値セットを提供しており、バイオインフォマティシャンがバリアントの同定におけるツールの精度を測定することを可能にしています。特に重要なのは、マッピングとバリアントコールの手順です。
GiABコンソーシアムとNISTは最近、リンクリードとロングリードを使用して、ゲノムの92%(以前の85%から増加)をカバーする拡張した真理値セットV4.2をリリースし、193の臨床的に意義のある遺伝子を含む相同領域とマッピング困難領域のカバレッジを大幅に改善しました。これらの真理値セットは、二次解析法を開発し、以前はより不透明であったゲノム領域にベンチマークするための貴重なリソースであり、重要なイネーブラーです。NIST真理値セットは、通常アクセスが困難な領域を特徴づけるためにロングリードテクノロジーを活用して開発されましたが、ここでは、DRAGENマッピング機能と小規模バリアントコーリングの両方の画期的な改善により、DRAGENがイルミナリードでゲノムのマッピング困難領域においてはるかに優れた精度を提供することを実証しています。これらの結果は、2つの重要なポイントを示しています。
- DRAGENマッパーは、フェージングしたバリアントの集団ハプロタイプを活用し、集団由来の代替コンティグでリファレンスインデックスを増強することで、グラフゲノムに対して効果的にマッピングし、これらの困難な領域におけるイルミナリードのマッピングを改善することができます。この新機能は、イルミナリードの適用範囲を効果的に拡張し、これまでアクセスできなかった領域での正確なマッピングとバリアントコーリングを可能にします。
- 今回の達成内容が特に重要である理由は、このマッピング困難領域には193の臨床的に意義のある遺伝子が含まれており、その遺伝子のバリアントはこれまで特定のターゲットアッセイと特殊なインフォマティクスがなければ容易に同定できなかったためです。これらの最近の改善により、DRAGENは、通常のWGS/WESランからこれらの遺伝子のバリアントコーリングの精度を大幅に向上させることができます。その結果、臨床検査室での診断の向上につながります。
イルミナのリードは、その精度と費用対効果により、最も広く使用されているシーケンステクノロジーです。多くの臨床的に意義のある遺伝子を含むゲノムのマッピング困難領域をショートリードで解決できるようにすることで、診断決定をさらに加速し、患者の疾患原因バリアントの同定を引き続き支援する機会が得られます。
PrecisionFDAチャレンジの概要
PrecisionFDA Truth Challenge V2は、PrecisionFDAとNISTによるGIABコンソーシアムによって主催されました。このチャレンジは、マッピング困難領域、セグメント重複、および主要組織適合性複合体(MHC)におけるベンチマーキングに重点を置いた、共通のリファレンスフレームにおける小規模バリアントコールパイプラインの性能を評価するために開始されました。
Genome in a Bottle(GIAB)コンソーシアムは最近、リンクリードとロングリードを使用して、特定のトリオに対する信頼度の高い真理値コールの拡張セットを開発しました。通常、高品質なロングリードはマッピング困難領域で信頼度のより高いコールを生成します。この能力により、GIABの拡張された真理値セットは、多くの医学的に重要な遺伝子を含む、以前の真理値セットを超えるゲノムの7%をカバーできるようになりました。拡大した真理値の領域では、低マッピング可能領域とセグメント重複領域に、2億7,000万を超える塩基が存在します1。

A) 信頼度の高い真理値セットでカバーされたゲノムは85%から92%に増加。B)193の臨床的に重要な遺伝子について、以前の真理値セットと拡張された真理値セット間のカバレッジ率の比較。青色のバーは、拡張された真理値セットを使ったカバレッジ率を示します。

出典:https://precision.fda.gov/challenges/10
PrecisionFDAチャレンジの結果
DRAGENはイルミナリードのカテゴリーに参加し、3つのテスト領域のうちの2つの領域(マッピング困難領域、全ベンチマーク領域)で1位となりました。図3の棒グラフにおいて、y軸はSNVとIndelの組み合わせのFP+FNのエラーの総数を示し、x軸はさまざまな提出物の結果を示しています。DRAGENの提出物は、全ベンチマーク領域とマッピング困難領域について、エラーが2位と比べてそれぞれ28%と38%少ないという大差をつけて優勝しました。

DRAGENの提出物は、イルミナのシーケンスデータにおいて、3つのテスト領域のうち2つ(マッピング困難領域、全ベンチマーク領域)でベスト性能賞を受賞し、その他の提出物と比較しても抜群の成績でした。

拡張されたv.4.2の真理値セット(VCFおよびBED)を設定すると、DRAGENグラフは従来のDRAGENと比較してSNPエラーを約48%、Indelエラーを約27%減少させます。*HT:ハッシュテーブル
ユーザーへの重要な注意事項
DRAGENグラフからの総エラーの50%減少は、拡張真理値セットv4.2を使用した場合に測定可能です。この性能の向上は、旧版のv3.3.2の真理値セットに対するベンチマークでは明らかとはなりません。これは、v3.3.2の真理値セットにはマッピング困難領域が含まれていないことや、v4.2の基準値セットがv3.3.2に存在するエラーを修正しているためです。実際、古い真理値セットv3.3.2を使用した場合、DRAGENグラフは従来のDRAGENと比較して、追加のSNPおよびIndel偽陽性(FP)をもたらす傾向があります。しかし、追加されるFPコールの大部分は、v3.3.2の真理値VCFが不完全であることによるものです。v4.2の真理値VCFでは、同じFPバリアントが真陽性とマークされています。
DRAGENグラフがイルミナリードの適用範囲を効果的に拡張することを示すために、拡張版真理値セット(V4.2)におけるDRAGENの精度と、PacBio HiFiロングリード + DeepVariantコーラーで達成可能な精度を比較しました。
PrecisionFDA Truth Challenge V2の一部として提供されるPacBio HiFiリード2はPBMM2 v1.3を使用してアライメントされ、DeepVariant v1.0.0およびWhatsHap v1.0を使用して処理されました。これは3 に示されているdeepvariant-pacbio-model-case-studyで概説されているとおりです。このケーススタディでは、2ステップのバリアントコールプロセスが含まれます。初回のコールの後、SNVはフェージングされ、インプットBAMにハプロタグを付けるために使用されます。次に、ハプロタグを付けたBAMをDeepVariantへのインプットとして再度使用し、バリアントをコールし、再度フェージングします。最終的なフェーズ2のVCFが、すべての比較に使用されました。
図5に示すように、DRAGENグラフは、以前のDRAGENバージョンよりもロングリードのSNP精度に大幅に近づきます。DRAGENの両バージョンとも、ロングリードパイプラインよりも優れたIndel精度が得られます。

従来のDRAGEN、DRAGENグラフ、PacBio + DVの比較

この比較は、マッピングが困難な領域において収集されたデータに基づいています。DRAGENグラフを使用することで、SNPとIndelの両方について2つのパイプライン間の一致が約5~6%改善され、この改善は検討されたすべての集団にわたって維持されます。
DRAGENグラフ:下位互換性とランタイム
DRAGENグラフのもう1つの魅力的な点は、拡張真理値セットにおけるエラーの総数が大幅に減少することに加えて、標準BAMおよびVCFファイル形式、ならびに既存のリファレンスゲノムとの完全な互換性があることです。DRAGENグラフを有効化するには、グラフハッシュテーブル(HT)を更新するだけです。この操作はDRAGENのコマンドラインから実行可能です。このHTでマッピングすると、標準hg38 BAMが得られ、グラフアライメントは自動的にプライマリアセンブリに投影されます。現在、DRAGENグラフHTはhg38ドメインで利用可能ですが、GRCh37ドメイン用のバージョンも間もなく利用可能になります。さらに、グラフ機能はランタイムに余分な負担をかけないというメリットもあります。

DRAGENグラフHTとDRAGEN Standard HTの比較。ランタイムはほぼ同じであり、グラフゲノム機能の追加はランタイムに影響しないことを示しています。
次に、PrecisionFDA Truth V2チャレンジで勝利を収めた精度結果を生み出した、新しいDRAGENマッピング機能とバリアントコーリングの改善点についてさらに掘り下げます。
DRAGENイノベーション:グラフゲノムのサポート
PrecisionFDA Truth V2チャレンジは、「マッピング困難領域」に焦点を当てました。これは、GIABコンソーシアムがベンチマークを拡張した主な領域です。これらの領域では、ショートリードデータによる精確なバリアントコールは非常に困難でエラーが発生しやすくなります。当然のことながら、「マッピング困難領域」で精確な解析を行う上での主な障害は、ショートリードをこれらの領域に精確にマッピングするにあたっての難しさです。バリアントコーラーは、特定の座位にマッピングされたリードのパイルアップを解析し、最も確率の高い元の配列内容を決定します。ただし、パイルアップに存在するべきエビデンスリードの多くが欠落している場合、マッピングミスによる関係のないリードが混入している場合、またはアライメントのマッピング信頼度(MAPQ)が極めて低い場合は、これを精確に行うことはできません。
領域(MHCなど)が高度に多型的である場合、サンプルリードがリファレンスゲノムと大きく異なるため、マッパーは適切な一致を見つけたり認識することができず、マッピングが困難になる可能性があります。しかし、より多いケースは、サンプルリードが領域と合理的に一致するものの、その他の領域にもほぼ同程度または完全に一致してしまう場合に、マッピングが困難になる可能性があります。これは、リファレンスゲノムの複数の場所に類似のコピーが存在する場合(セグメントの重複)、または一般的な非常に反復性の高いシーケンスの場合に起こります。
多くの場合、このようなマッピングの難しさは、単一のリファレンスゲノムだけでなく、集団内の既知のバリエーションパターンを利用することで克服できます。ショートリード(またはリードペア)が、AとBの2つの領域に同等レベルで一致しているが、それぞれの一致が不完全であり、各領域においてリファレンスゲノムと2つの塩基の違いがあると仮定します。リファレンスの情報のみに基づく場合、マッパーはAまたはBのどちらかをランダムに選択し、MAPQ(マッピング品質スコア)0でアラインメントすることになります。しかし、リードとA領域との2つの違いは集団で一般的に発生するのに対し、B領域との2つの違いは集団では観察されていないことが分かっていると仮定します。この知識をガイドとして使用して、リードを領域Aに合理的に高い信頼度でマッピングすることができます。
グラフリファレンスは、長年提唱されてきた集団データを使ってマッピングを支援するアプローチです。グラフリファレンスでは、集団で観察される代替シーケンスのコンテンツは、さまざまな分岐パスと収束パスとして表されます。図8Aは、いくつかのタイプのバリエーションをどのように表すことができるかを示しています。サンプルリードは、リファレンスグラフの最もマッチングするパスであればどのパスにもアラインすることが許可されます。


A)グラフゲノムの概要:グラフリファレンスでは、集団で観察される代替シーケンスのコンテンツは、さまざまな分岐パスと収束パスとして表されます。B)セグメント重複のある所与の領域と重複する複数のフェージングされた代替コンティグの例。
DRAGEN Mapperは、一般的に使用されるその他のマッパーと同様に、ベースラインとして線形リファレンスを使用します。しかし、DRAGEN Mapperには、線形リファレンスを有効なグラフに拡張すること、また、リードを最初にその潜在的なグラフにアライメントし、次にそうしたアライメントを線形リファレンスパスに投影するのと同じ方法でマッピングすることをサポートする2つの機能があります。
まず、DRAGEN Mapperは、集団ヌクレオチド置換をマルチ塩基IUPAC-IUBコードとして、リファレンスシーケンスに注入することができます。例えば、集団内でときに“G”であることが知られているリファレンスの“A”ヌクレオチドは、“R”としてコードすることができます。“R”位置にまたがるリードをアライメントする際、リード中の“A”または“G”はいずれも一致としてスコアされます。これは、リードを等価グラフ構造にアライメントするのと同じ動作です。線形パスは“A”パスと“G”パスに分岐し、すぐに再び収束します。また、DRAGENのシードマッピングを強化し、リファレンス塩基または代替塩基のいずれにも一致するシードK-merをマッピングハッシュテーブルに格納できるようにしました。これにより、そのような座位へのマッピング感度の低下を防ぐことができます。
次に、DRAGEN Mapperには高度な“alt awareness”機能が備わっており、「代替コンティグ」でリファレンスを補強することができます。代替コンティグにより、グラフ内の代替パスが表現され、それぞれについてリニアリファレンスへの既定のリフトオーバーアライメントが実行されます。サンプルのリードがいずれかの代替コンティグに最も適切にアライメントされる場合、リフトオーバー情報を活用し、そのアラインメントをリニアリファレンス上の対応する位置に投影して報告します。この際、代替コンティグのアライメントはリニアリファレンスの投影と競合するものとして扱われるのではなく、投影アラインメントを導く指標として機能するため、高い信頼度(MAPQ)でのアライメントが可能になります。繰り返しになりますが、これはリードを同等のグラフ構造にアライメントする場合と同じ動作です。しかし、この場合、グラフリファレンス構造は、理論的には適切なリフトオーバーを伴う1つ以上の代替コンティグとして表すことができます。
DRAGENチームは、これら2つの機能を使用して、マッピング困難領域で観察された集団の小規模バリアントでhg38を増強しました。このチャレンジでは、集団のソースを16のロングリード(PacBio HiFi)欧州サンプルからコールされたフェージング済みのバリアントに限定しました。孤立した集団特有の一塩基置換(SNV)をマルチベースコードとして挿入し、より複雑な集団変異については代替コンティグとして追加しました。この代替コンティグには、挿入、欠失、複雑な塩基置換、単一のハプロタイプ上でフェージングされた小規模変異クラスターのような多様な変異パターンが含まれます。
図8Bは、UCSCブラウザビューの下部に見られるように、その他のいくつかのセグメントコピーが重複しているため、マッピングが難しいと分類された1番染色体領域を示しています。この領域に3つの代替コンティグを追加しました。図8Bの下部にあるピンク色のトラックには、それぞれ少数のフェージングされた小規模バリアントが含まれています。多くのリードを正しいセグメントの重複コピーに導くには、これらの少数の集団標識があるだけで十分です。
当社のアプローチの利点は、このように集団バリアントでリファレンスを増強したため、リファレンスがhg38だけのときのようにマッピングが正常に動作することでした。DRAGEN Mapperは、マルチ塩基コードと代替コンティグを使用して、サンプルリードが集団ハプロタイプと一致する際のアライメントスコアを向上させ、バリアントコールで使用するために線形hg38リファレンスに最良のアライメントを投影する作業を行いました。拡張リファレンスへのマッピングにより、バリアントコーラーを変更することなく、より正確なhg38 BAMが得られ、バリアントコーリングの精度が劇的に向上しました。
Ashkenaziトリオで観察されたDRAGENグラフの精度向上がその他の個人へ一般化できることを検証するため、当社は真理値セットに依存しない方法を見つける必要がありました。NIST v4.2の真理値セットは現在AshkenaziトリオHG002/3/4でのみ利用できるためです。代わりに、1000 Genome Projectの欧州系コホートから9名の参加者を無作為に選択し、アライメントされたリードを従来のDRAGENおよびDRAGENグラフをリファレンスとして使用して比較しました。DRAGENグラフは、解析されたすべてのサンプルにおいて、塩基置換率(アライメントされたリード塩基と対応するリファレンスシーケンス間のミスマッチ率)を大幅に低下させることがわかりました(図9. アライメントされたリードとGRCh38の塩基置換率は左側に、DRAGEN_GRCh38_graphは右側に表示)。9名のデータはいずれも、グラフリファレンスの構築に使用されていません。塩基置換率は、フェージングされたハプロタイプがカバーするGRCh38の領域(約110Mb)に対して計算されました。塩基置換率が低いと、リードマッピングが改善され、バリアントコールの精度が向上します。この結果は、DRAGENグラフによる精度向上がその他の個人にも及ぶことを示しています。

従来のGRCh38ハッシュテーブルと、集団代替コンティグを追加したhg38ハッシュテーブルを活用するDRAGEN_GRCh38_graphの比較。
また、DRAGENグラフによってリファレンスバイアスが修正される可能性があることも観察されました。図10は、従来のDRAGENおよびDRAGENグラフで得られたVCFからのヘテロ接合バリアントコールのバリアントアリル頻度(VAF)分布を低マッピング可能領域と交差させて示しています。低マッピング可能領域では、グラフベースの分布は理論上予想されるものに近くなっています(すなわち、グラフのVAF分布はより中央に集まり、0.5を中心により対称性が高い)。
代替コンティグは、特定の座位において代替アリルを含むリードを適切なパイルアップに引き寄せる効果が強く、一方でリファレンス(REF)アリルを支持するリードを引き寄せる効果は比較的弱いため、VAFの分布が高くなる可能性があります。しかし、分布が50%中心にさらに集まっているため、代替コンティグの偏った作用は実際には修正になります。また、代替コンティグがない場合、マッピング困難座位では、代替アリルをサポートするリードがパイルアップから欠落している可能性が高いことや、MAPQが非常に低いことも理に適っています。したがって、代替コンティグの主な影響は、リファレンスバイアスを軽減し、結果としてVAF分布をより正確に補正することであると仮説を立てました。

グラフモードはリファレンスバイアスを補正し、VAFの平均、中央値、歪度の各統計値を予測値に近づけます。
DRAGENイノベーション:重複バリアントのジョイント検出
さらなる精度向上のため、小規模バリアントコールでもう1つ簡単に達成できる課題に取り組みました。従来のバリアントコーラーのジェノタイピング計算は、ジェノタイピングイベントが一度に1つの座位を考慮するように設計されています。これは、イベントが分離され独立している場合にはうまく機能しますが、重複イベント(SNPとIndel間)またはショートタンデムリピート(STR)領域で分離されたイベントは正確にコールでできません。当社は、近傍の遺伝子座位を1つの領域にマージし、イベントペアではなくハプロタイプのペアをジェノタイピングすることで、バリアントコールの精度を向上させることができると仮定しました。
以下の基準に基づいて複数の座位におけるバリアントのジョイント検出(JD)領域を特定します。座位が互いに重複するアレルを持つ、座位がSTR領域内またはSTR領域から10塩基未満の距離にある、座位同士の距離が10塩基未満である。STR領域は、ジョイント検出の適用に適した候補となります。その理由は以下の通りです。1) PCRによるIndelエラーが発生し、これが真のSNPバリアントと重複する可能性がある。2) 真のIndelバリアントが発生し、互いに重複する、またはSNPと重複する可能性がある。3) ホモ接合性のIndelがある場合、半数のリードが誤ってアライメントされ、ホモポリマーの末端でIndelを表現してしまうことがある(本来の変異位置は、ホモポリマーの先頭または中央であるべき)。JDは、これらすべての場合において真のバリアントの回収に効果的です。
次に、バリアントコーラーアルゴリズムを修正して、JD領域内にあるアリルのすべての可能な組み合わせを示す完全なハプロタイプリストを生成します。そして、ジェノタイピングのステップで、観察されたリードのパイルアップから各ハプロタイプペアの可能性を計算します。最後に、ハプロタイプとアリルのマッピングを使用して、イベントペアの遺伝型の事後確率を計算し、事後確率で最大となる遺伝型を報告します。
その結果、偽陰性が著しく減少し、特にIndelで顕著でした(図11)。JDは(信頼度スコアが低すぎるために)以前に検出されなかったバリアントコールを救済するために役立ち、遺伝型エラーの修正(ヘテロ接合性コールをホモ接合性コールに変換するなど)にも役立ち、どちらも感度を向上させます。JDが特にIndelに利益をもたらす理由は、Indel(SNPと重複しているIndel、STR領域のIndel)が関係する状況を解決するためです。これらは、これまでの単純な列単位のイベントジェノタイピングで適切に処理されていませんでした。

- JDでFP+FNが改善し、特にIndelで顕著でした。また、感度が向上しています。
- 棒グラフは、DRAGEN v.3.6、JD実施v.3.7とJD実施なしのv.3.7の比較を示しています。
DRAGENグラフは拡張された真理値セットにおける総エラー数を大幅に削減
図12は、従来のパイプライン(DRAGEN 3.6およびBWA-MEM)では、以前の真理値セット(v.3.3.2)から拡張真理値セット(v.4.1)に切り替えた場合、エラーの総数が大幅に増加することを示しています。総エラー数の増加は、従来のショートリードパイプラインでは容易にアクセスできない領域にある拡張真理値セットに存在するバリアントのFNが追加されたためです。DRAGENグラフ(DRAGEN 3.7として表示)では、FP+FNの総エラー数が大幅に減少します。

A) SNP FP+FN B) Indel FP+FN
PrecisionFDAチャレンジの結果の概要とその後の結果の適用性
このチャレンジは、参加者全員にとって、そして間違いなくイルミナのDRAGENチームにとって、イノベーションの新たな分野に焦点を合わせる機会となりました。その成果は、2020年10月26日にリリースされるDRAGEN 3.7から始まるDRAGENの今後のいくつかのリリースで発表されます。このチャレンジに用いられた手法は、DRAGENにおける主要な新機能の始まりであり、構造多型、コピー数バリエーション、およびリピート伸長を含むように改善され、一般化されます。DRAGENグラフは、リファレンスにおける複数の祖先ハプロタイプを表し、全体の精度を向上させ、線形リファレンスからのバイアスを軽減します。これらの機能により、2 × 150 bpのロングリードペアを使用しても、マッピングが困難な領域におけるバリアントコールの精度が、従来の予想を超えて大幅に向上することがすでに示されています。この経験を活かして、残りの領域における解析の完璧化と拡張に向け、絶え間なく取り組んでいきます。
学術用途向けの詳細情報またはDRAGEN試用版ライセンスについては、dragen-info@illumina.comまでお問い合わせください。