GRCh38/hg38リファレンスゲノムのバージョン、DRAGENにおける使用法、および精度への影響を解明する

Serverine Catreux, Fred Farrell, Rami Mehio, Lisa Murray, Gavin Parnaby, Cooper Roddey, Mike Ruehle; published December 9, 2021

Abstract

マッピングとバリアントコーリングのためのヒトリファレンスゲノムの選択は、精度に直接影響を与えます。この選択肢は、GRCh37/hg19またはGRCh38/hg38という単純な決定を超えたものです。各リファレンスには複数のバージョンがあり、一部にはALTおよび/またはデコイコンティグが含まれ、その他には含まれず、一部には他のバージョンでカバーされていないゲノムの一部が含まれます。最終的な選択は、バリアントを呼び出す能力に影響を与える可能性があります。これは、CBS、CRYAA、KCNE1遺伝子に関する最近の更新によって説明できます。GRCh37/hg19には遺伝子のコピーが1つあるが、GRCh38/hg38には偽の重複があり、GRCh38/hg38にのみ曖昧なマッピングを効果的に導くことが指摘されました。2021年、Genome in a Bottle(GIAB)は、重複領域のマスキングを使用して、関連する遺伝子セットの偽重複を効果的に除去し、それによってバリアントコールの精度を向上させることを提案しました[1]。 

2020年、DRAGENチームは、精度を向上させるための個別で補完的なアプローチを採用しました。DRAGENは、ゲノムの“Difficult-to-Map Regions”におけるイルミナリードのマッピング精度を向上させるために、グラフベースのゲノムを開発しました。この改善はバリアントコーリングレベルで確認され、PrecisionFDA Truth Challenge v2の‘Difficult to Map Regions’と“All Benchmark Regions”で最高の成功精度を示しました[2]。グラフゲノムには、GRCh38/hg38リファレンスに追加された段階的な集団ハプロタイプに由来する数百万の短い代替コンティグが含まれます。これにより、GRCh38/hg38ヒトリファレンスのさらに別のバージョンが効果的に作成されます。

下流のアノテーションに影響を与えずにリファレンスを強化することで、バリアントコールをさらに改善する多くの利点があります。特に、医学的に関連する遺伝子を網羅する領域におけるリファレンスの改善に関して。しかし、新たに導入されたリファレンスのフレーバーはすべて、ユーザーにとって混乱を招く可能性があることを認識しています。これは、GRCh38/hg38という用語は、解析で使用されるリファレンスを完全に説明するために使用できないためです。この記事では、GRCh38/hg38リファレンスのさまざまなフレーバーを明確にし、DRAGENで使用する現在の推奨リファレンスを記述し、さらに計画されている改善点について議論します。 

推奨GRCh38/hg38リファレンスバージョン

DRAGEN 3.9、hg38-alt-masked(非グラフ)およびhg38-alt-masked-graphで使用するには、現在、GRCh38/hg38のハイレベルな2つのバージョンが推奨されています。どちらもダウンロード可能です[3]。これらのリファレンスはいずれも、DRAGEN v3.9で導入されたalt-masked機能を含んでおり、以下に詳しく説明します。この新しいalt-masked機能により、以前に推奨されていたリフトオーバーベースのALT-awareリファレンスであるhg38-alt-aware(非グラフ)およびhg38-alt-aware-graphと比較して、以下の表1に示すようなわずかな精度の向上が実現します。

Recommended GRCh38/hg38 reference versions for use in DRAGEN

表1:DRAGENで使用する、グラフ以外のランおよびグラフラン用の推奨GRCh38/hg38リファレンスバージョン。これらのすべてのリファレンスのベースラインアセンブリは[4]からダウンロードされたことに注意してください。

hg38-alt-maskedリファレンスをダウンロードすることができます[3]。次のコマンドを使用して、ハッシュテーブルを作成することもできます。

dragen --ht-reference hg38.fa --ht-alt-aware-validate=true --ht-num-threads=40 --build-hash-table=true --ht-build-rna-hashtable=true --enable-cnv=true --ht-mask-bed /opt/edico/fasta_mask/hg38_alt_mask.bed --output-directory hg38_alt_masked

Alt-maskedハッシュテーブルの作成はDRAGEN 3.9以降でサポートされていますが、3.9 Alt-maskedハッシュテーブルは古いバージョンのDRAGENで使用できます。

hg38-alt-masked-graphゲノムハッシュテーブルはダウンロード可能です[3]。hg38-alt-masked-graphハッシュテーブルは、DRAGENの3.9以前のバージョンと互換性があります。DRAGENは、ユーザーが独自のカスタムグラフゲノムを構築するのをサポートしていません。これは、新しいハプロタイプがゲノムの他の領域と競合する場合、集団のハプロタイプを変更すると精度の回帰を引き起こす可能性があるためです。グラフゲノムの構築には細心の注意が必要です。そのため、現在、DRAGENでは完全に自動化されたアプローチをサポートしていません。

以前に構築されたBAMと新しいバリアントコーリングランの互換性に関する注意:マッピング/アライメントステージとバリアントコーリングステージの間で同じリファレンスを維持することが重要です。したがって、BAMが“*alt-aware”でマッピングされた場合、バリアントコーリングもalt-awareを使用し、alt-maskedにも同じように適用する必要があります。ユーザーがalt-maskedで結果を更新したい場合、alt-maskedでバリアントコールを行う前に、alt-maskedでBAMを再マッピングすることをお勧めします。

すべてのGRCh38/hg38バージョンのベースラインとしての共通リファレンスアセンブリ

DRAGENでの使用が推奨されるGRCh38/hg38リファレンスの全バージョン(表1参照)では、[4]からダウンロードした共通のFASTAアセンブリをベースラインとして使用します。次に、FASTAアセンブリが一連の集団SNPおよび/または一連の集団由来ハプロタイプの段階的バリアントによって増強されるかどうかによってバージョンが区別され、線形リファレンスへの代替パスを提供します。これにより、グラフベースのバージョンが生成されます。詳細については[2]を参照してください。さらに、ベースラインアセンブリに含まれるネイティブのGRCh38/hg38 ALTコンティグは、DRAGENマッパーの\\"alt awareness\\"機能(alt-awareバージョン)または新しいalt-masked機能(alt-maskedバージョン)のいずれかで処理できます。

FASTAアセンブリのコマンドには、以下の表2に説明されている3366種類のコンティグが含まれます。

Components of the common FASTA assembly

表2:[4]からダウンロードした一般的なFASTAアセンブリのコンポーネント。

天然GRCh38/hg38 ALTコンティグの取り扱い:ALT認識対ALTマスキング

3.9リリース以前は、DRAGENは、一部のhg19およびhg38 FASTAファイルに存在する代替(ALT)コンティグを活用するために、ALT対応のアライメントリフトオーバー手順を採用していました。この方法では、一次染色体コンティグに対するALTのアライメントを含むリフトオーバーSAMファイルを使用します。これらのアライメントはGenome Reference Consortiumによって作成されました。ALTコンティグ領域に最も適しており、有効なリフトオーバーのあるリードは、対応する染色体の位置まで持ち上げられます。 有効なリフトオーバーのないALT領域に最も適したリードは、ALTコンティグにマッピングされたままになります。

Example of a correct liftover between alt region and main reference.

図1:アルト領域とメインリファレンス間の正しいリフトオーバーの例。

DRAGENは、リフトオーバーベースのALT認識により大幅な精度向上を達成しましたが、時間の経過とともにテストにより、頑固な問題が明らかになりました。主に、5Mbpシーケンスの長いリフトオーバーアライメントは、どこにいても信頼できません。長いALTハプロタイプと一次アセンブリの間の"正しい"または最も有用なリフトオーバーが曖昧な場所が多数あります。不適切なリフトオーバーは、ミスマップされたリードや誤ったバリアントコールの密集を引き起こす可能性があります。時には、不良なリフトオーバーがマッピングやVCの問題を引き起こし、局所的ではあるが深刻な傾向にある別の場所が発見されることもあります。このような問題を診断し、適切なリフトオーバーパッチを決定するのは手間のかかるプロセスです。ALT認識システムにおけるこれらの問題を考慮し、いくつかの重要な点で優れた代替ソリューションを開発しました。
Incorrect Liftover alignments can create extra FPs

図2:リフトオーバーアライメントが正しくない場合、余分なFPが発生する可能性があります。 

DRAGENは、ネイティブリファレンスのALTコンティグを処理するための新しいアプローチを採用しました。このアプローチでは、ALTコンティグの戦略的位置がマスクされ、精度が向上します。一次アセンブリに似たセグメントはマスクされているため、競合してアライメントを盗んだり、MAPQをスクワッシュしたりすることはありません。非常に異なるセグメントは、本質的にデコイシーケンスとして機能するため、マスク化されません。いくつかの辺縁領域のマスキングステータスは、マッピング精度とバリアントコーリングに対する経験的影響に基づいて割り当てられます。結果セクションの図3に示されているように、DRAGENのALTマスク化リファレンスは、リフトオーバーベースのALT認識法と比較して、バリアントコールの精度を向上させます。ベースマスキングアプローチには、マイナスの結果をもたらすことなくALTコンティグを使用する利点があります。また、定義、維持、改善も容易です。マスクは時が経つにつれて改良され続けるでしょうが、すでにリフトオーバーベースの性能を上回っています。

DRAGMAPは、Broad (https://github.com/Illumina/DRAGMAP)とのコラボレーションによりリリースされたDRAGENマッパーのオープンソース版であり、リフトオーバーベースのALT認識をサポートしていません[5]。代わりに、DRAGMAPは、DRAGENの最新バージョンで使用されているのと同じ推奨代替マスクアプローチを使用します。つまり、従来のリフトオーバーアプローチと比較してマスキングアプローチの精度も向上しており、DRAGMAPではリフトオーバーサポートは必要ありません。 

グラフベースのリファレンス

前述のように、DRAGENは、ゲノムのマップが難しい領域におけるイルミナリードのマッピング精度を向上させるグラフベースのリファレンスもサポートしています。グラフ機能は、ネイティブのGRCh38/hg38 ALTコンティグを使用しませんが、相同領域を区別し、線形リファレンスに対して集団に既知の代替パスを提供する、慎重に選択された集団ハプロタイプセグメントを使用します。

領域(MHCなど)は多型性が高く、サンプルリードはリファレンスゲノムと大きく異なるため、マッピングが困難になるため、マッパーが適切な一致を見つけたり認識したりすることはできません。しかし、サンプルリードが領域と合理的に一致し、他の領域とほぼ同じか同じである場合、マッピングが困難になるのがはるかに一般的です。これは、リファレンスゲノムの複数の場所(セグメントの重複)に領域の近接コピーが現れた場合、または一般的な非常に反復性の高いシーケンスの場合に起こります。

多くの場合、このようなマッピングの難しさは、単一の参照ゲノムではなく、集団で既知のバリエーションパターンを利用することで克服できます。ショートリード(またはリードペア)が、AとBの2つの領域に等しく一致しているが不完全であり、各領域のリファレンスゲノムと2つのヌクレオチドの違いがあると仮定します。リファレンスのみに基づいて、マッパーはAまたはBをランダムに選択し、0 MAPQに合わせることができます。しかし、リードのA領域との2つの違いは集団で一般的に発生するのに対し、Bとの2つの違いは集団では観察されていないことが分かっていると仮定します。 この知識をガイドとして使用して、リードを領域Aに合理的に高い信頼性でマッピングすることができます。

集団ハプロタイプセグメントの選択は、ゲノムの難しい部分のマッピングを改善する上で重要です。数と集団の多様性を増やすことで、精度をさらに向上させることができますが、ハプロタイプが互いに競合しあいまいなリードマッピングにつながった場合、マイナスの影響が生じる可能性があります。マスクベースのhg38 ALT認識は、グラフ参照でも優れた性能を発揮し、干渉なしにグラフパスのリフトオーバーがマッピングを導くことを妨げません。

グラフリファレンスは現在、ハードウェアアクセラレーションバージョンのDRAGENでのみサポートされているため、DRAGMAPではサポートされません。 

リファレンスのパフォーマンスの測定

NIST v.4.2.1の真理値セットを使用した、グラフ以外の参照バージョンとグラフ参照バージョンの両方について、リフトオーバーベースのアルトアウェアネスと比較したアルトマスクアプローチの影響を以下の図3に示します[6]。アルトマスキングアプローチは、snpsとindelの両方、およびグラフと非グラフゲノムの両方のFP+FN数の減少につながります。

Comparison of alt-masked vs alt-aware accuracy, using NIST 4.2.1 truth set

図3:NIST 4.2.1の真理値セットを使用した、alt-maskedとalt-awareの精度の比較。

グラフとグラフ以外のリファレンスの精度比較を、SNPについては図4に、INDELについては図5に示します。PrecisionFDA v2チャレンジ[2]の時点ですでに実証されたように、拡張v.4.2.1の真理値(VCFおよびBED)を設定することで、DRAGENグラフはグラフ以外のDRAGENと比較してSNPエラーを約50%、INDELエラーを約27%減少させます。チャレンジ以降、HG001-007試験の被験者7名すべてについて、拡張V4.2.1の真理値セットがリリースされ、グラフから得られる利益は全被験者にわたって維持されることを確認しました。 HG001-007 更新されたリファレンスで小さなバリアントコーラーで機械学習を使用することにより、FP + FNをさらに削減することができます。これは嬉しいニュースであり、DRAGENグラフゲノムから得られる利益はサンプルに特有ではなく、より多くのサンプルや集団に拡大する可能性があることを示しています。
SNP FP+FN NIST v.4.2.1, hg38 alt-masked

図4:HG001~HG007 SNPの精度 拡張真度セット(v4.2.1 VCFおよびBED)の結果。

INDEL FP+FN NIST v.4.2.1, hg38 alt-masked

図5:HG001~HG007 INDELの精度 拡張真度セット(v4.2.1 VCFおよびBED)の結果。

グラフ参照(またはその他の参照改善)の影響を測定する際は、最新かつ最も包括的な真実セットを使用することが重要です。例えば、DRAGENグラフからの総エラーの50%減少は、拡張真理値セットv4.2で測定可能です。このパフォーマンスの向上は、古いv3.3.2の真相セットに対するベンチマークでは明らかではありません。これは、v3.3.2の真理値セットにマップが難しい領域が含まれていないためだけでなく、v4.2の真理値セットがv3.3.2に存在するエラーを修正するためでもあります。実際、DRAGENグラフは、古い真理値セットv3.3.2を使用した場合、従来のDRAGENと比較して、追加のSNPおよびINDEL偽陽性(FP)をもたらすように見えます。ただし、追加のFPコールの大部分は、v3.3.2の真性VCFが不完全であることに起因しています。v4.2の真性VCFでは、同じFPバリアントが真陽性としてマークされています。

GRCh38/hg38のさらなるリファレンス改良(3.9リリース以降はDRAGENにより採用)

ゲノムマスキングとグラフの両方の可能性は、精度の点でまだ十分ではありません。Genome in a Bottle(GIAB)コンソーシアム、Genome Reference Consortium(GRC)、およびTelomere-to-Telomere(T2T)コンソーシアムは、GRCh38/hg38リファレンスゲノム[1]の改善にも貢献し、次の2つのタイプの改善を行いました:1)偽の重複を除去するための一次アセンブリのマスクされた塩基、2)新しいDecoyコントリグが含まれます。DRAGENチームは現在、これらの変更を評価し、最新のリファレンスバージョンに取り入れるプロセスを進めています。表3は、今後のDRAGENリリースでリファレンスアップデートをリリースする計画のロードマップを示しています。新たにマスクされた塩基が最初に組み込まれ、更新された参照は名前*alt-masked-V2*になります。新しいデコイはまだ完全には完成しておらず、今後のリリースに組み込まれる予定です。

Recommended GRCh38/hg38 reference versions for use in DRAGEN

表3:DRAGENで使用する、グラフ以外のランおよびグラフラン用の推奨GRCh38/hg38リファレンスバージョン。これらのすべてのリファレンスのベースラインアセンブリは[4]からダウンロードされたことに注意してください。

新たにマスクされた塩基の詳細:alt-masked-V2に向けて

GIABコンソーシアムは最近、GRCh38/hg38の偽重複を隠す新しいリファレンスを発表しました[1]。GIABはGRCと協力して、誤って重複したシーケンスやコンタミネーションであったため、座標を変更したりバリアントコーリングを害することなくマスクできるGRCh38の領域のリストを作成しました。これらの重複領域はT2Tによって同定されました[7]。新たにマスクされた塩基にはchr21の一部が含まれており、いくつかの主要な医療遺伝子CBS、CRYAA、KCNE1のマッピングが改善されました。

以下の図6は、[1]の補足資料から抜粋したものです。GRCh37には偽の重複が含まれていないため、GRCh37リファレンスではテクノロジー間のバリアントコールがどのように一貫しているかを示しています。GRCh38には遺伝子の一部の偽重複が含まれているため、多くのリードが遺伝子の偽コピーであるKCNE1Bに誤ってマッピングされています。

Two examples of KCNE coverage across different technologies

図6:GRCh37およびGRCh38(新たにマスクされた塩基なし)によるさまざまなテクノロジーのKCNEカバレッジ[1]。

以下の図7および8は、SNPおよびインデルについて、hgGRCh38hg38-alt-masked-V2化ゲノム改善の評価を示しています。 
SNP FP+FN NIST v.4.2.1, hg38 alt-masked v2

図7:SNPについて、V.4.2.1 NISTの真理値セットを用いて全ゲノムにわたって評価されたGIABマスクリファレンスを使用した精度改善。hg38-alt-masked対hg38-alt-masked-V2。

INDEL FP+FN NIST v.4.2.1, hg38 alt-masked v2

図8:全ゲノムにわたって評価されたGIABマスクリファレンスを用いた精度改善。V.4.2.1 NISTの真理値セットを使用。インデルではhg38-alt-masked対hg38-alt-masked-V2。

以下の表4は、[1]で説明した最近リリースされた難易度の高い医学的関連遺伝子(CMRG)ベンチマークを使用した、GIABマスキングの影響を受ける3つの医学的関連遺伝子のSNPコールパフォーマンスを示しています。これらの遺伝子の呼び出しは大幅に改善され、すべてのFPとFNを回復します。
HG002 SNP accuracy improvement on genes affected by the GIAB masking

表4:CMRG v.1.0.0の真理値セットを用いて、hg38-alt-maskedとhg38-alt-masked-V2を比較し、GIABマスキングの影響を受ける遺伝子のHG002 HG002SNP精度を改善。

今後の新しいデコイコンティグの詳細:alt-masked-V3に向けて

マッピングとバリアントコーリングの精度を向上させることができる2番目のアプローチは、デコイシーケンスの使用です。GIABとBaylor College of Medicineの共同の取り組み[8]では、現在、GRCh38/hg38リファレンスを新しいデコイで拡張して、リファレンスで誤って折り畳まれた領域を補正しています。たとえば、リファレンスには領域の単一コピーが含まれているのに対し、2番目の相同領域が含まれている必要があります。デコイは類似しているが同一ではないため、リードを誤ったシーケンスコピーにマッピングする代わりに代替マッピングロケーションを提供することで、偽陽性バリアントを削除します。

参考文献に対する3番目の改善計画は、集団ハプロタイプの拡張セットに基づく新しいグラフ代替コンティグの導入です。DRAGENが現在使用しているグラフゲノムは、精度を向上させる優れた能力が既に示されています。集団ベースのハプロタイプのリストをさらに拡大して、より多様なゲノム領域や民族を網羅する機会があります。目標は、すべての集団で精度を最大化できる単一のグラフゲノムを構築することです。これにより、個人に適さないグラフを使用するか、集団に固有のグラフリファレンスを生成する必要がなくなります。

カスタムマスクリファレンスの作成

hg38-alt-maskedリファレンスをダウンロードすることができます[3]。次のコマンドを使用して、ハッシュテーブルを作成することもできます。

dragen --ht-reference hg38.fa --ht-alt-aware-validate=true --ht-num-threads=40 --build-hash-table=true --ht-build-rna-hashtable=true --enable-cnv=true --ht-mask-bed /opt/edico/fasta_mask/hg38_alt_mask.bed --output-directory hg38_alt_masked

DRAGEN 3.9以降、HT建物のコマンドラインにリフトオーバーまたはマスクベッドが指定されていない場合、DRAGENのデフォルトの動作は、デフォルトでhg38-alt-masked(またはhg19-alt-masked)リファレンスを生成するために、alt-maskedベッドを自動的に適用することです。アルトマスキングは、GRCH37またはhs37d5には適用されません。これらの参照にはALTコンティグがネイティブに含まれないためです。

DRAGENは、DRAGENにパッケージ化されたhg38_alt_mask.bedファイルを修正するか、ユーザーが作成することで、カスタムマスクされたゲノムを作成する機能を提供します。DRAGENは、マッピングの目的でFASTQのNとしてベッドファイルに含まれる任意の位置を処理することにより、ハッシュテーブルを作成します。これにより、リファレンスを直接修正するのと同じハッシュテーブルが作成されます。FASTAにないコンティグがベッドファイルにある場合、DRAGEN 3.9は中止されます。今後のバージョンでは、DRAGENは中止せず、存在する領域のみをマスクします。

hg19に関する注記:
hg19には一連のネイティブALTコンティグも含まれているため、alt-awareとalt-maskedの比較は、上記でhg38について説明したのと同じ方法でhg19に適用されます。

結果の概要と確認

さまざまなリードテクノロジーのマッピングと小さなバリアントコーリング精度の評価がゲノムのより複雑な領域にまで拡大するにつれ、発見や改善分野に遅れを取らないように、新しい改良版を用いてリファレンスゲノムを維持および更新することが重要です。ここでは、過去のDRAGENリリース(3.9以前)の一部として既にリリースされているリファレンスゲノムのさまざまな改善について説明し、今後のDRAGENリリースに含まれる今後のさらなる改善について明らかにしました。

Genome in a Bottle(GIAB)コンソーシアム、Genome Reference Consortium(GRC)、およびTelomere-to-Telomere(T2T)コンソーシアムの、参照ゲノムの改善への継続的な貢献に感謝したいと思います。これは、マッピングとバリアントコールの精度向上につながります。これは、バリアントの発見に役立ち、ヒトの健康を改善するための医療上の決定をサポートするため、医学的に関連する遺伝子の課題において特に重要です。

本製品の使用目的は研究に限定されます。診断での使用はできません。