Abstract
マッピングとバリアントコーリングのためのヒトリファレンスゲノムの選択は、精度に直接影響を与えます。この選択肢は、GRCh37/hg19またはGRCh38/hg38という単純な決定を超えたものです。各リファレンスには複数のバージョンがあり、一部にはALTおよび/またはデコイコンティグが含まれ、その他には含まれず、一部には他のバージョンでカバーされていないゲノムの一部が含まれます。最終的な選択は、バリアントを呼び出す能力に影響を与える可能性があります。これは、CBS、CRYAA、KCNE1遺伝子に関する最近の更新によって説明できます。GRCh37/hg19には遺伝子のコピーが1つあるが、GRCh38/hg38には偽の重複があり、GRCh38/hg38にのみ曖昧なマッピングを効果的に導くことが指摘されました。2021年、Genome in a Bottle(GIAB)は、重複領域のマスキングを使用して、関連する遺伝子セットの偽重複を効果的に除去し、それによってバリアントコールの精度を向上させることを提案しました[1]。
2020年、DRAGENチームは、精度を向上させるための個別で補完的なアプローチを採用しました。DRAGENは、ゲノムの“Difficult-to-Map Regions”におけるイルミナリードのマッピング精度を向上させるために、グラフベースのゲノムを開発しました。この改善はバリアントコーリングレベルで確認され、PrecisionFDA Truth Challenge v2の‘Difficult to Map Regions’と“All Benchmark Regions”で最高の成功精度を示しました[2]。グラフゲノムには、GRCh38/hg38リファレンスに追加された段階的な集団ハプロタイプに由来する数百万の短い代替コンティグが含まれます。これにより、GRCh38/hg38ヒトリファレンスのさらに別のバージョンが効果的に作成されます。
下流のアノテーションに影響を与えずにリファレンスを強化することで、バリアントコールをさらに改善する多くの利点があります。特に、医学的に関連する遺伝子を網羅する領域におけるリファレンスの改善に関して。しかし、新たに導入されたリファレンスのフレーバーはすべて、ユーザーにとって混乱を招く可能性があることを認識しています。これは、GRCh38/hg38という用語は、解析で使用されるリファレンスを完全に説明するために使用できないためです。この記事では、GRCh38/hg38リファレンスのさまざまなフレーバーを明確にし、DRAGENで使用する現在の推奨リファレンスを記述し、さらに計画されている改善点について議論します。
推奨GRCh38/hg38リファレンスバージョン
DRAGEN 3.9、hg38-alt-masked(非グラフ)およびhg38-alt-masked-graphで使用するには、現在、GRCh38/hg38のハイレベルな2つのバージョンが推奨されています。どちらもダウンロード可能です[3]。これらのリファレンスはいずれも、DRAGEN v3.9で導入されたalt-masked機能を含んでおり、以下に詳しく説明します。この新しいalt-masked機能により、以前に推奨されていたリフトオーバーベースのALT-awareリファレンスであるhg38-alt-aware(非グラフ)およびhg38-alt-aware-graphと比較して、以下の表1に示すようなわずかな精度の向上が実現します。
hg38-alt-maskedリファレンスをダウンロードすることができます[3]。次のコマンドを使用して、ハッシュテーブルを作成することもできます。
dragen --ht-reference hg38.fa --ht-alt-aware-validate=true --ht-num-threads=40 --build-hash-table=true --ht-build-rna-hashtable=true --enable-cnv=true --ht-mask-bed /opt/edico/fasta_mask/hg38_alt_mask.bed --output-directory hg38_alt_masked
Alt-maskedハッシュテーブルの作成はDRAGEN 3.9以降でサポートされていますが、3.9 Alt-maskedハッシュテーブルは古いバージョンのDRAGENで使用できます。
hg38-alt-masked-graphゲノムハッシュテーブルはダウンロード可能です[3]。hg38-alt-masked-graphハッシュテーブルは、DRAGENの3.9以前のバージョンと互換性があります。DRAGENは、ユーザーが独自のカスタムグラフゲノムを構築するのをサポートしていません。これは、新しいハプロタイプがゲノムの他の領域と競合する場合、集団のハプロタイプを変更すると精度の回帰を引き起こす可能性があるためです。グラフゲノムの構築には細心の注意が必要です。そのため、現在、DRAGENでは完全に自動化されたアプローチをサポートしていません。
以前に構築されたBAMと新しいバリアントコーリングランの互換性に関する注意:マッピング/アライメントステージとバリアントコーリングステージの間で同じリファレンスを維持することが重要です。したがって、BAMが“*alt-aware”でマッピングされた場合、バリアントコーリングもalt-awareを使用し、alt-maskedにも同じように適用する必要があります。ユーザーがalt-maskedで結果を更新したい場合、alt-maskedでバリアントコールを行う前に、alt-maskedでBAMを再マッピングすることをお勧めします。
すべてのGRCh38/hg38バージョンのベースラインとしての共通リファレンスアセンブリ
DRAGENでの使用が推奨されるGRCh38/hg38リファレンスの全バージョン(表1参照)では、[4]からダウンロードした共通のFASTAアセンブリをベースラインとして使用します。次に、FASTAアセンブリが一連の集団SNPおよび/または一連の集団由来ハプロタイプの段階的バリアントによって増強されるかどうかによってバージョンが区別され、線形リファレンスへの代替パスを提供します。これにより、グラフベースのバージョンが生成されます。詳細については[2]を参照してください。さらに、ベースラインアセンブリに含まれるネイティブのGRCh38/hg38 ALTコンティグは、DRAGENマッパーの\\"alt awareness\\"機能(alt-awareバージョン)または新しいalt-masked機能(alt-maskedバージョン)のいずれかで処理できます。
FASTAアセンブリのコマンドには、以下の表2に説明されている3366種類のコンティグが含まれます。
天然GRCh38/hg38 ALTコンティグの取り扱い:ALT認識対ALTマスキング
3.9リリース以前は、DRAGENは、一部のhg19およびhg38 FASTAファイルに存在する代替(ALT)コンティグを活用するために、ALT対応のアライメントリフトオーバー手順を採用していました。この方法では、一次染色体コンティグに対するALTのアライメントを含むリフトオーバーSAMファイルを使用します。これらのアライメントはGenome Reference Consortiumによって作成されました。ALTコンティグ領域に最も適しており、有効なリフトオーバーのあるリードは、対応する染色体の位置まで持ち上げられます。 有効なリフトオーバーのないALT領域に最も適したリードは、ALTコンティグにマッピングされたままになります。
DRAGENは、ネイティブリファレンスのALTコンティグを処理するための新しいアプローチを採用しました。このアプローチでは、ALTコンティグの戦略的位置がマスクされ、精度が向上します。一次アセンブリに似たセグメントはマスクされているため、競合してアライメントを盗んだり、MAPQをスクワッシュしたりすることはありません。非常に異なるセグメントは、本質的にデコイシーケンスとして機能するため、マスク化されません。いくつかの辺縁領域のマスキングステータスは、マッピング精度とバリアントコーリングに対する経験的影響に基づいて割り当てられます。結果セクションの図3に示されているように、DRAGENのALTマスク化リファレンスは、リフトオーバーベースのALT認識法と比較して、バリアントコールの精度を向上させます。ベースマスキングアプローチには、マイナスの結果をもたらすことなくALTコンティグを使用する利点があります。また、定義、維持、改善も容易です。マスクは時が経つにつれて改良され続けるでしょうが、すでにリフトオーバーベースの性能を上回っています。
DRAGMAPは、Broad (https://github.com/Illumina/DRAGMAP)とのコラボレーションによりリリースされたDRAGENマッパーのオープンソース版であり、リフトオーバーベースのALT認識をサポートしていません[5]。代わりに、DRAGMAPは、DRAGENの最新バージョンで使用されているのと同じ推奨代替マスクアプローチを使用します。つまり、従来のリフトオーバーアプローチと比較してマスキングアプローチの精度も向上しており、DRAGMAPではリフトオーバーサポートは必要ありません。
グラフベースのリファレンス
前述のように、DRAGENは、ゲノムのマップが難しい領域におけるイルミナリードのマッピング精度を向上させるグラフベースのリファレンスもサポートしています。グラフ機能は、ネイティブのGRCh38/hg38 ALTコンティグを使用しませんが、相同領域を区別し、線形リファレンスに対して集団に既知の代替パスを提供する、慎重に選択された集団ハプロタイプセグメントを使用します。
領域(MHCなど)は多型性が高く、サンプルリードはリファレンスゲノムと大きく異なるため、マッピングが困難になるため、マッパーが適切な一致を見つけたり認識したりすることはできません。しかし、サンプルリードが領域と合理的に一致し、他の領域とほぼ同じか同じである場合、マッピングが困難になるのがはるかに一般的です。これは、リファレンスゲノムの複数の場所(セグメントの重複)に領域の近接コピーが現れた場合、または一般的な非常に反復性の高いシーケンスの場合に起こります。
多くの場合、このようなマッピングの難しさは、単一の参照ゲノムではなく、集団で既知のバリエーションパターンを利用することで克服できます。ショートリード(またはリードペア)が、AとBの2つの領域に等しく一致しているが不完全であり、各領域のリファレンスゲノムと2つのヌクレオチドの違いがあると仮定します。リファレンスのみに基づいて、マッパーはAまたはBをランダムに選択し、0 MAPQに合わせることができます。しかし、リードのA領域との2つの違いは集団で一般的に発生するのに対し、Bとの2つの違いは集団では観察されていないことが分かっていると仮定します。 この知識をガイドとして使用して、リードを領域Aに合理的に高い信頼性でマッピングすることができます。
集団ハプロタイプセグメントの選択は、ゲノムの難しい部分のマッピングを改善する上で重要です。数と集団の多様性を増やすことで、精度をさらに向上させることができますが、ハプロタイプが互いに競合しあいまいなリードマッピングにつながった場合、マイナスの影響が生じる可能性があります。マスクベースのhg38 ALT認識は、グラフ参照でも優れた性能を発揮し、干渉なしにグラフパスのリフトオーバーがマッピングを導くことを妨げません。
グラフリファレンスは現在、ハードウェアアクセラレーションバージョンのDRAGENでのみサポートされているため、DRAGMAPではサポートされません。
リファレンスのパフォーマンスの測定
NIST v.4.2.1の真理値セットを使用した、グラフ以外の参照バージョンとグラフ参照バージョンの両方について、リフトオーバーベースのアルトアウェアネスと比較したアルトマスクアプローチの影響を以下の図3に示します[6]。アルトマスキングアプローチは、snpsとindelの両方、およびグラフと非グラフゲノムの両方のFP+FN数の減少につながります。
グラフ参照(またはその他の参照改善)の影響を測定する際は、最新かつ最も包括的な真実セットを使用することが重要です。例えば、DRAGENグラフからの総エラーの50%減少は、拡張真理値セットv4.2で測定可能です。このパフォーマンスの向上は、古いv3.3.2の真相セットに対するベンチマークでは明らかではありません。これは、v3.3.2の真理値セットにマップが難しい領域が含まれていないためだけでなく、v4.2の真理値セットがv3.3.2に存在するエラーを修正するためでもあります。実際、DRAGENグラフは、古い真理値セットv3.3.2を使用した場合、従来のDRAGENと比較して、追加のSNPおよびINDEL偽陽性(FP)をもたらすように見えます。ただし、追加のFPコールの大部分は、v3.3.2の真性VCFが不完全であることに起因しています。v4.2の真性VCFでは、同じFPバリアントが真陽性としてマークされています。
GRCh38/hg38のさらなるリファレンス改良(3.9リリース以降はDRAGENにより採用)
ゲノムマスキングとグラフの両方の可能性は、精度の点でまだ十分ではありません。Genome in a Bottle(GIAB)コンソーシアム、Genome Reference Consortium(GRC)、およびTelomere-to-Telomere(T2T)コンソーシアムは、GRCh38/hg38リファレンスゲノム[1]の改善にも貢献し、次の2つのタイプの改善を行いました:1)偽の重複を除去するための一次アセンブリのマスクされた塩基、2)新しいDecoyコントリグが含まれます。DRAGENチームは現在、これらの変更を評価し、最新のリファレンスバージョンに取り入れるプロセスを進めています。表3は、今後のDRAGENリリースでリファレンスアップデートをリリースする計画のロードマップを示しています。新たにマスクされた塩基が最初に組み込まれ、更新された参照は名前*alt-masked-V2*になります。新しいデコイはまだ完全には完成しておらず、今後のリリースに組み込まれる予定です。
新たにマスクされた塩基の詳細:alt-masked-V2に向けて
GIABコンソーシアムは最近、GRCh38/hg38の偽重複を隠す新しいリファレンスを発表しました[1]。GIABはGRCと協力して、誤って重複したシーケンスやコンタミネーションであったため、座標を変更したりバリアントコーリングを害することなくマスクできるGRCh38の領域のリストを作成しました。これらの重複領域はT2Tによって同定されました[7]。新たにマスクされた塩基にはchr21の一部が含まれており、いくつかの主要な医療遺伝子CBS、CRYAA、KCNE1のマッピングが改善されました。
以下の図6は、[1]の補足資料から抜粋したものです。GRCh37には偽の重複が含まれていないため、GRCh37リファレンスではテクノロジー間のバリアントコールがどのように一貫しているかを示しています。GRCh38には遺伝子の一部の偽重複が含まれているため、多くのリードが遺伝子の偽コピーであるKCNE1Bに誤ってマッピングされています。
今後の新しいデコイコンティグの詳細:alt-masked-V3に向けて
マッピングとバリアントコーリングの精度を向上させることができる2番目のアプローチは、デコイシーケンスの使用です。GIABとBaylor College of Medicineの共同の取り組み[8]では、現在、GRCh38/hg38リファレンスを新しいデコイで拡張して、リファレンスで誤って折り畳まれた領域を補正しています。たとえば、リファレンスには領域の単一コピーが含まれているのに対し、2番目の相同領域が含まれている必要があります。デコイは類似しているが同一ではないため、リードを誤ったシーケンスコピーにマッピングする代わりに代替マッピングロケーションを提供することで、偽陽性バリアントを削除します。
参考文献に対する3番目の改善計画は、集団ハプロタイプの拡張セットに基づく新しいグラフ代替コンティグの導入です。DRAGENが現在使用しているグラフゲノムは、精度を向上させる優れた能力が既に示されています。集団ベースのハプロタイプのリストをさらに拡大して、より多様なゲノム領域や民族を網羅する機会があります。目標は、すべての集団で精度を最大化できる単一のグラフゲノムを構築することです。これにより、個人に適さないグラフを使用するか、集団に固有のグラフリファレンスを生成する必要がなくなります。
カスタムマスクリファレンスの作成
hg38-alt-maskedリファレンスをダウンロードすることができます[3]。次のコマンドを使用して、ハッシュテーブルを作成することもできます。
dragen --ht-reference hg38.fa --ht-alt-aware-validate=true --ht-num-threads=40 --build-hash-table=true --ht-build-rna-hashtable=true --enable-cnv=true --ht-mask-bed /opt/edico/fasta_mask/hg38_alt_mask.bed --output-directory hg38_alt_masked
DRAGEN 3.9以降、HT建物のコマンドラインにリフトオーバーまたはマスクベッドが指定されていない場合、DRAGENのデフォルトの動作は、デフォルトでhg38-alt-masked(またはhg19-alt-masked)リファレンスを生成するために、alt-maskedベッドを自動的に適用することです。アルトマスキングは、GRCH37またはhs37d5には適用されません。これらの参照にはALTコンティグがネイティブに含まれないためです。
DRAGENは、DRAGENにパッケージ化されたhg38_alt_mask.bedファイルを修正するか、ユーザーが作成することで、カスタムマスクされたゲノムを作成する機能を提供します。DRAGENは、マッピングの目的でFASTQのNとしてベッドファイルに含まれる任意の位置を処理することにより、ハッシュテーブルを作成します。これにより、リファレンスを直接修正するのと同じハッシュテーブルが作成されます。FASTAにないコンティグがベッドファイルにある場合、DRAGEN 3.9は中止されます。今後のバージョンでは、DRAGENは中止せず、存在する領域のみをマスクします。
hg19に関する注記:
hg19には一連のネイティブALTコンティグも含まれているため、alt-awareとalt-maskedの比較は、上記でhg38について説明したのと同じ方法でhg19に適用されます。
結果の概要と確認
さまざまなリードテクノロジーのマッピングと小さなバリアントコーリング精度の評価がゲノムのより複雑な領域にまで拡大するにつれ、発見や改善分野に遅れを取らないように、新しい改良版を用いてリファレンスゲノムを維持および更新することが重要です。ここでは、過去のDRAGENリリース(3.9以前)の一部として既にリリースされているリファレンスゲノムのさまざまな改善について説明し、今後のDRAGENリリースに含まれる今後のさらなる改善について明らかにしました。
Genome in a Bottle(GIAB)コンソーシアム、Genome Reference Consortium(GRC)、およびTelomere-to-Telomere(T2T)コンソーシアムの、参照ゲノムの改善への継続的な貢献に感謝したいと思います。これは、マッピングとバリアントコールの精度向上につながります。これは、バリアントの発見に役立ち、ヒトの健康を改善するための医療上の決定をサポートするため、医学的に関連する遺伝子の課題において特に重要です。
参考文献
- Wagner et al. 難易度の高い医学的に関連性のある常染色体遺伝子のための包括的なバリエーションベンチマークに向けて。 BioRxiv(2021)doi:2021:09.07
- PrecisionFDA Truth Challenge V2でDRAGENが勝利Alt-Aware MappingとGraph Reference Genomeによる精度向上を実証
- https://support.illumina.com/sequencing/sequencing_software/dragen-bio-it-platform/product_files.html
- http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/GRCh38_reference_genome/GRCh38_full_analysis_set_plus_decoy_hla.fa
- https://github.com/Illumina/DRAGMAP/
- Wagner et al. リンクリードとロングリードによる難易度の高い小型バリアントのベンチマーキング。 BioRxiv(2021)doi:2020:07.24
- Nurk et al. 完全なリファレンスゲノムは、ヒトの遺伝子変異の解析を改善します。 BioRxiv(2021年)doi:2021.05.26.445798
- 公開待ち。