Abstract
PrecisionFDAは最近、Truth Challenge V2を組織し、リンクされたロングリードシーケンスから派生した新しいトゥルースセットに依存して、マッピングが困難な領域のマッピングとバリアントコーリングアルゴリズムの精度を比較しました。PrecisionFDAは8月3日にチャレンジ結果を発表しました。DRAGENマッパー+バリアントコーラーは、難易度の高いマップ領域およびすべてのベンチマーク領域カテゴリーのイルミナリードの精度コンテストで優勝し、2番目に優れたコンペティション者よりもコールエラーがそれぞれ38%および28%少なくなりました。この課題におけるDRAGENのパフォーマンスは、DRAGENの以前のリリースの約50%を上回っていますが、1台の20コアサーバー +1 FPGAで25分未満で全ゲノムを解析できます。これらの結果を達成するために、DRAGEN alt-awareマッピング機能を使用し、段階的な集団ハプロタイプから派生した数百万の短い代替コンティグをhg38リファレンスに追加し、グラフリファレンスに向けて効果的に進化させました。さらに、DRAGENバリアントコーラーは、リードの蓄積における重複バリアントの同定と処理を改善するために新しい手法を使用しました。
はじめに
ヒトゲノムの推定99.9%は個人全体で保存されています。つまり、がんリスクの上昇、特定の薬物の代謝不能の予測、遺伝性疾患の病因の説明に寄与するのはわずか0.1%です。個人間の遺伝的バリアントを正確に同定することは、プレシジョンメディシン、疾患診断、疾患の遺伝的起源の研究、および創薬に不可欠です。Genome In a Bottle(GiaB)コンソーシアムとNational Institute of Standards and Technology(NIST)は、ゲノムの大部分をカバーするNA12878などの厳選されたテーマの真実のセットを提供しており、バイオインフォマティクスがバリアントの同定におけるツールの精度を測定することを可能にしています。特に重要なのは、マッピングとバリアントコールの手順です。
GiABコンソーシアムとNISTは最近、リンクリードとロングリードを使用して、ゲノムの92%(以前の85%から増加)をカバーする拡張トゥルースセットV4.2をリリースし、193の臨床的に意義のある遺伝子を含む相同領域とマップが難しい領域のカバレッジを大幅に改善しました。これらの真理値セットは、二次解析法を開発し、以前はより不透明であったゲノム領域にベンチマークするための貴重なリソースであり、重要なイネーブラーです。NISTトゥルースセットは、一般的にアクセスが困難な領域を特徴づけるためにロングリードテクノロジーを活用して開発されましたが、ここでは、DRAGENマッピング機能と小さなバリアントコールの両方の画期的な改善により、DRAGENがイルミナのリードでゲノムのマッピングが困難な領域においてはるかに優れた精度を提供することを実証しています。これらの結果は、2つの重要なポイントを強調しています。
- DRAGENマッパーは、段階的バリアントの集団ハプロタイプを活用し、集団由来の代替コンティグでリファレンスインデックスを増強することで、グラフゲノムに対して効果的にマッピングし、これらの困難な領域におけるイルミナリードのマッピングを改善することができます。この新機能は、イルミナのリードのリーチを効果的に拡大し、これまでアクセスできなかった領域での正確なマッピングとバリアントコーリングを可能にします。
- この達成が特に重要なのは、マッピングが困難な領域に193の臨床的に意義のある遺伝子が含まれていることです。この遺伝子には、特定のターゲットアッセイと特殊なインフォマティクスがなければ、バリアントを簡単に同定することはできませんでした。これらの最近の改善により、DRAGENは、通常のWGS/WESランからこれらの遺伝子 のバリアントコール精度を大幅に改善することができ、その結果、臨床検査室でより良い診断につながります。
イルミナのリードは、その精度と費用対効果により、最も広く使用されているシーケンス技術です。多くの臨床的に意義のある遺伝子を含むゲノムのマッピングが難しい領域をショートリードで解決できるようにすることで、診断決定をさらに加速し、患者の疾患原因バリアントの同定を引き続き支援する機会が得られます。
PrecisionFDAチャレンジの概要
PrecisionFDA Truth Challenge V2は、PrecisionFDAとNISTとのGIABコンソーシアムによってスポンサーされました。この課題は、マップが困難な領域、セグメント重複、および主要組織適合性複合体(MHC)におけるベンチマークに焦点を当てた、共通の参照フレームにおける小さなバリアントコールパイプラインのパフォーマンスを評価するために開始されました。
Genome in a Bottle(GIAB)コンソーシアムは最近、リンクリードとロングリードを使用して、特定のトリオを必要とする信頼性の高い真実の拡張セットを開発しました。高品質のロングリードは、通常、マッピングが困難な領域でより高い信頼コールを生成します。この能力により、GIABの拡張トゥルースセットは、多くの医学的に関連する遺伝子を含む、以前のトゥルースセットを超えるゲノムの7%をカバーするようになりました。真の領域の範囲は、低結合性領域とセグメント重複に2億7,000万を超える塩基を有しています。1
PrecisionFDAチャレンジ結果
DRAGENはイルミナのリードカテゴリーで競合し、3つのテスト領域のうち2つ(マッピング困難領域、すべてのベンチマーク領域)で1位にランクインしました。図3のバーは、y軸上のSNVとINDELの組み合わせ、FP+FNのエラーの総数と、x軸上のさまざまな提出結果を示しています。DRAGENの提出は、All Benchmark RegionsおよびDifficult-to-Map Regionsにおいて、2番目に優れた提出と比較して、エラーが約28%および38%少ないという安心の余裕をもって行われました。
ユーザーへの重要な注意事項
DRAGENグラフからの総エラーの50%減少は、拡張真理値セットv4.2で測定可能です。このパフォーマンスの向上は、古いv3.3.2の真相セットに対するベンチマークでは明らかではありません。これは、v3.3.2の真理値セットにはマップが難しい領域が含まれていないためだけでなく、v4.2の真理値セットがv3.3.2に存在するエラーを修正するためでもあります。実際、古い真理値セットv3.3.2を使用した場合、DRAGENグラフは従来のDRAGENと比較して、追加のSNPおよびINDEL偽陽性(FP)をもたらすように見えます。しかし、追加のFPコールの大部分は、v3.3.2の真性VCFが不完全であることによるものです。v4.2の真性VCFでは、同じFPバリアントが真陽性とマークされています。
DRAGENグラフがイルミナのリードのリーチを効果的に拡大することを示すため、DRAGENの精度を、Expended TRUthics V4.2の真実と、PacBio HiFiロングリードがDeepVariantの発信者と達成可能な真実と比較します。
PrecisionFDA Truth Challenge V22の一部として提供されるPacBio HiFiリードは、PBMM2 v1.3を使用してアライメントされ、DeepVariant v1.0.0およびWhatsHap v1.0を使用して処理されました。これは、に示されているディープバリアント-pacbio-model-case-studyで概説されているとおりです。3 このケーススタディでは、バリアントコールの2ステップのプロセスが用いられています。最初のコールの後、SNVはフェーズ化され、入力BAMにハプロタグが付けられます。次に、ハプロタグBAMがDeepVariantへの入力として再び使用され、バリアントが呼び出され、再度フェーズされます。最終フェーズ2のVCFをすべての比較に用いました。
図5に示すように、DRAGENグラフは、以前のDRAGENバージョンよりもロングリードのSNP精度に大幅に近づきます。DRAGENの両バージョンとも、ロングリードパイプラインよりも優れたINDEL精度が得られます。
DRAGENグラフ:後方互換性とランタイム
DRAGENグラフのもう1つの魅力的な点は、拡張真理値セットにおけるエラーの総数が大幅に減少することに加えて、標準BAMおよびVCFファイル形式、および既存のリファレンスゲノムとの完全な互換性があることです。DRAGENグラフを有効にするには、ユーザーはハッシュテーブルをグラフハッシュテーブル(HT)で更新するだけで、これはDRAGENコマンドラインを介して行うことができます。このHTでマッピングすると、標準hg38 BAMが得られ、グラフアライメントは自動的に一次アセンブリに投影されます。現在、DRAGENグラフHTはhg38ドメインで利用可能ですが、GRCh37ドメインのバージョンは間もなく利用可能になります。さらに、グラフ機能はランタイムに余分なコストがかからないというメリットもあります。
次に、PrecisionFDA Truth V2チャレンジで勝利を収めた精度結果をもたらした新しいDRAGENマッピング機能とバリアントコーリングの改善についてさらに詳しく見ていきます。
DRAGENイノベーション:グラフゲノムのサポート
PrecisionFDA Truth V2チャレンジは、GIAB Consortiumがベンチマークを拡大した主要地域である、マッピング""が難しい地域に焦点を当てました。 これらの地域では、ショートリードデータによる正確なバリアントコールは非常に困難で、エラーが発生しやすくなります。おそらく当然のことながら、マッピング""が難しい領域で正確な解析を行う上での主な障害は、ショートリードをこれらの領域に正確にマッピングすることが難しいことです。バリアントコーラーは、特定の遺伝子座にマッピングされたリードのパイルアップを分析して、そこで最も可能性の高いオリジナルシーケンスのコンテンツを決定しますが、パイルアップに存在するべき多くのエビデンスリードが欠落している場合、またはマッピングミスのある外国のリードや最小限のマッピング信頼度(MAPQ)のアライメントで汚染されている場合、正確にこれを行うことはできません。
領域(MHCなど)は多型性が高く、サンプルリードはリファレンスゲノムと大きく異なるため、マッピングが困難になるため、マッパーが適切な一致を見つけられない、または認識できない場合があります。しかし、より一般的には、サンプルリードが領域と合理的に一致し、他の領域とほぼ同じか同じである場合、マッピングが困難になります。これは、リファレンスゲノムの複数の場所(セグメント重複)に領域の近接コピーが現れた場合、または一般的な非常に反復性の高いシーケンスの場合に起こります。
多くの場合、このようなマッピングの難しさは、単一の参照ゲノムではなく、集団で既知のバリエーションパターンを利用することで克服できます。ショートリード(またはリードペア)が、AとBの2つの領域に等しく一致しているが不完全であり、各領域のリファレンスゲノムと2つのヌクレオチドの違いがあると仮定します。リファレンスのみに基づいて、マッパーはAまたはBをランダムに選択し、0 MAPQに合わせることができます。しかし、リードのA領域との2つの違いは集団で一般的に発生するのに対し、B領域との2つの違いは集団で観察されていないことが分かっていると仮定します。この知識をガイドとして使用して、リードを領域Aに合理的に高い信頼性でマッピングすることができます。
グラフ参照は、長年提唱されてきた集団データのマッピングを支援するアプローチです。グラフリファレンスでは、集団で観察される代替シーケンスのコンテンツは、さまざまな分岐および収束パスとして表されます。図8Aは、いくつかのタイプのバリエーションをどのように表すことができるかを示しています。サンプルリードは、リファレンスグラフのどのパスにも一致させることができます。
DRAGEN Mapperは、他の一般的に使用されているマッパーと同様に、ベースラインとして線形リファレンスを使用します。しかし、直線的リファレンスを有効なグラフに拡張し、リードを最初に暗黙的なグラフに整列させてから、それらのアライメントを直線的リファレンスパスに投影するのと同じ方法でリードをマッピングする2つの機能があります。
まず、DRAGEN Mapperは、リファレンスシーケンスにおけるマルチ塩基IUPAC-IUBコードとして集団ヌクレオチド置換の注入をサポートします。例えば、集団内でときに“G”であることが知られているリファレンスの“A”ヌクレオチドは、“R”としてコードすることができます。リードを“R”の位置で整列させる場合、リードの“A”または“G”は両方とも一致としてスコアします。これは、リードを等価グラフ構造にアライメントするのと同じ動作です。直線経路はAパスとGパスに分岐し、すぐに再び収束します。また、DRAGENシードマッピングをアップグレードし、リファレンスまたは代替ベースのいずれかに一致するシードK-merをマッピングハッシュテーブルに投入しました。そのため、このような位置への感度損失マッピングはありません。
第二に、DRAGEN Mapperには高度な\\"alt awareness\\"機能があり、グラフ内の代替パスを表す\\"alt contigs\\"でリファレンスを増強できます。各パスは、リニアリファレンスに事前に定義されたリフトオーバーアライメントを備えています。 サンプルのリードがアルトコンティグの1つと最も良く合う場合、リフトオーバーの知識は、線形リファレンスの投影位置へのアライメントを報告するために使用されます。アルトコンティグアライメントは、その線形リファレンスプロジェクションと競合するものとして扱われず、その投影アライメントのガイドとして扱われるため、潜在的に高い信頼度(MAPQ)が伴います。繰り返しになりますが、これはリードを同等のグラフ構造にアライメントするのと同じ動作です。しかし、この場合、理論的には、任意のグラフ参照構築物は、適切なリフトオーバーを伴う1つ以上の代替コンティグとして表すことができます。
DRAGENチームは、これら2つの機能を使用して、マップが難しい領域で観察された集団の小さなバリアントでhg38を増強しました。この課題では、集団のソースを16のロングリード(PacBio HiFi)欧州サンプルから呼び出された段階的バリアントに限定しました。マルチベースコードとして単離集団ヌクレオチド置換(SNV)を注入し、挿入と欠失、複雑な置換、1つのハプロタイプに段階的な小さなバリアントのクラスターなど、さらに複雑な集団バリエーションを追加しました。
図8Bは、UCSCブラウザビューの下部に見られるように、他のいくつかのセグメント重複コピーによりマップ困難に分類される染色体1領域を示しています。この領域に3つの代替コンティグを追加しました。図7Bの下部にあるピンク色のトラックには、それぞれ少数の段階的な小さなバリアントが含まれています。これらの少数のポピュレーションランドマークだけで、多くのリードを正しいセグメントの重複コピーに導くのに十分です。
そのため、集団バリアントでリファレンスを増強したため、当社のアプローチの美しさは、リファレンスがhg38に過ぎないようなマッピングが正常に動作することでした。DRAGEN Mapperは、マルチベースコードとaltコンティグを使用して、サンプルリードが集団ハプロタイプと一致するアライメントスコアを改善し、バリアントコーリングで使用するために線形hg38リファレンスに最良のアライメントを投影する作業を行いました。拡張リファレンスへのマッピングにより、より正確なhg38 BAMが得られ、バリアントコーラーを変更することなくバリアントコーリングの精度が劇的に向上しました。
アシュケナジトリオで観察されたDRAGENグラフの精度向上が他の個人に一般化することを検証するには、NIST v4.2の真理値セットは現在アシュケナジトリオHG002/3/4でのみ利用できるため、真理値セットに依存しない方法を見つける必要がありました。代わりに、1000 Genomes Projectの欧州系コホートから9名の参加者を無作為に選択し、アライメントされたリードをDRAGENレガシーおよびDRAGENグラフと比較しました。DRAGENグラフは、解析されたすべてのサンプルにおいて、塩基置換率(アライメントされたリード塩基と対応するリファレンスシーケンス間のミスマッチ率)を大幅に低下させることがわかりました(図9. アライメントされたリード対GRCh38の塩基置換率は左側に、DRAGEN_GRCh38_graphは右側に示されています。 9名はいずれも、グラフリファレンスの構築には使用されませんでした。 段階的ハプロタイプ(約110Mb)にまたがるGRCh38の部分について塩基置換率を算出した。塩基置換率が低いとリードマッピングが改善され、バリアントコールの精度が向上します。この結果は、DRAGENグラフのゲインが他の個人にも及ぶことを示しています。
また、DRAGENグラフによってリファレンスバイアスが修正される可能性があることも観察されました。図10は、DRAGENレガシーおよびDRAGENグラフで得られたVCFからのヘテロ接合バリアントコールのバリアントアリル頻度(VAF)分布を、低結合性のベッドと交差させて示しています。低マッピング性領域では、グラフベースの分布は理論で予想されるものに近い(すなわち、グラフのVAF分布は0.5前後でより中央に位置し、より対称性が高い)。
アルトコンティグは、特定の位置にアルトアリルを含むリードを正しいパイルアップに引き込むのよりも、リファレンスサポートリードを引き込むのにより強く作用するため、グラフはVAF分布を高く歪めると推測できます。しかし、分布が50%を中心になっているため、アルトコンティグの偏った作用は実際には修正になります。 また、マップが困難な遺伝子座にaltコンティグがない場合、altアリルをサポートするリードは、山から欠損している可能性が高く、MAPQが非常に低いことも理由です。この点におけるaltコンティグの主な影響は、リファレンスバイアスを軽減し、VAF分布を修正することにあると仮定します。
DRAGENイノベーション:重複バリアントの関節検出
さらなる精度向上のために、小さなバリアントコールでもう1つのローハングフルーツに取り組みました。従来のバリアントコーラーの ジェノタイピング計算は、ジェノタイピングイベント時に一度に1つの座位を考慮するように設計されています。 これは、イベントが分離され独立しているが、オーバーラップイベント(SNPとINDEL間)または短いタンデムリピート(STR)領域で分離されたイベントを正確に呼び出すことができない場合にうまく機能します。我々は、近傍の遺伝子座を1つの領域に統合し、ハプロタイプのペアをイベントペアの代わりにジェノタイピングすることで、バリアントコールの精度を向上させることができると仮定しました。
以下の基準を用いて、複数の遺伝子座における複数のバリアントの関節検出(JD)領域を同定します:遺伝子座は互いに重複する対立遺伝子を持つ、遺伝子座はSTR領域にあるかSTR領域から10塩基未満離れた場所にある、または遺伝子座は互いに10塩基未満離れた場所にある。STR領域は、1)真のバリアントSNPと重複する可能性のある、PCRによって誘発されるINDELエラーが発生する場所、2)真のINDELバリアントが発生する場所、互いにまたはSNPと重複する可能性のある場所、3)ホモ接合性INDELのリードの半分が、真の位置(ホモポリマーの最初または中央など)ではなくホモポリマーの末端でINDELを表すようにずれている状況があるため、関節検出に適した候補です。JDは、これらすべての場合において真のバリアントの回収に効果的です。
次に、バリアントコーラーアルゴリズムを修正して、JD領域内のアリルのすべての可能な組み合わせが表される完全なハプロタイプリストを生成します。次に、ジェノタイピングのステップで、観察されたリードの蓄積から各ハプロタイプペアの可能性を計算します。 最後に、ハプロタイプとアレルのマッピングを使用して、イベントペアの遺伝子型事後確率を計算し、 最大事後確率で遺伝子型を報告します。
その結果、偽陰性が著しく減少し、特にINDELで顕著になりました(図11)。JDは、(信頼性スコアが低すぎるために)以前は検出されなかったバリアントコールのレスキューに役立ち、遺伝子型エラーの是正(ヘテロ接合コールをホモ接合コールに変換するなど)にも役立ち、どちらも感度を向上させます。JDが特にINDELに利益をもたらすのは、INDEL(INDEL重複SNP、STR領域のINDEL)が関与する状況を解決するためです。INDELはこれまで、単純な列単位のイベントジェノタイピングで適切に処理されていなかったためです。
DRAGENグラフは、拡張された真理値セットの総エラー数を大幅に削減します
図12は、従来のパイプライン(DRAGEN 3.6およびBWA-MEM)では、以前の真理値セット(v.3.3.2)から拡張真理値セット(v.4.1)に切り替えた場合、エラーの総数が大幅に増加することを示しています。 トータルエラーの増加は、従来のショートリードパイプラインでは容易にアクセスできない領域にある拡張トゥルースセットに存在するバリアントのFNが追加されたためです。DRAGENグラフ(DRAGEN 3.7として表示)では、FP+FNのエラーの総数が大幅に減少します。
PrecisionFDAの課題を超える結果&の適用可能性に関する結果の要約
この課題は、参加者にとって一般的であり、イルミナのDRAGENチームがイノベーションの新たな分野に焦点を合わせる機会となりました。その成果は、2020年10月26日にリリースされたDRAGEN 3.7から始まるDRAGENの次のいくつかのリリースで発表されます。この課題に使用される方法は、DRAGENにおける主要な新機能の始まりであり、構造バリアント、コピー数バリエーション、および反復拡張を含むように改善および一般化されると考えています。DRAGEN Graphは、リファレンスにおける複数の祖先ハプロタイプを表し、ボード全体の精度を向上させ、線形リファレンスからのバイアスを軽減します。これらの機能はすでに、2つの× 150ロングリードペアでも、マッピングが難しい領域で考えられていたよりもはるかに高い精度でバリアントを呼び出すことができることを示しています。この経験を活かして、残りの地域での解析の完璧化と拡大に絶え間なく取り組んでいきます。