ハイスループットシーケンスは、臨床診療や集団遺伝学(PopGen)研究にますます採用され、テクノロジーへのアクセスから、効率的かつ正確な方法で生成されたデータから最大限に抽出するという課題にシフトしています。イル ミナのDRAGEN(Dynamic Read Analysis for GENomics)Bio-ITプラットフォーム は、その包括的な製品により、小規模および大規模バリアントを高精度かつ高速で呼び出すことができるため、1つのプラットフォームで意味のある洞察を効率的に提供できます。
New York Genome Centerが発表した1000 Genomes Project 1のカバー範囲の広い全ゲノムシーケンスデータにより、代表的コホート内でこれらのさまざまな発信者をコンテキスト化することができます。これにより、多くの多様なサンプルからのバリアントコールを観察できるだけでなく、カバレッジデータが不均一であるか、またはバリアントコーラーの仮定に違反する地域でも観察 できます。
ここでは、DRAGENプラットフォームを1000ゲノムプロジェクトデータにデプロイし、以下を行いました。
- 小規模および大規模のバリアントを同定し、集約され、公開されています。2
- より大きなバリアントを調査するためにDRAGENが提供するさまざまな洞察を例で示しました。
- 潜在的なアーチファクトまたはメンデルの仮定に違反する小さなバリアントにフラグを立てるために、コホートサンプルにおけるDRAGENの高精度とフィルタリング機能を活用しました。フラグ付きバリアントも公開されています。3
I)1000ゲノムプロジェクトデータセットで使用されるDRAGENスピードとバリアントコーラー
DRAGENプラットフォームは、コホートサンプリングから小規模および大規模のバリアントを高精度に呼び出すために併用される複数のパイプライン を備えています。 表1 に、バリアントコール に使用できるDRAGEN パイプラインについて説明します。
表1 1000ゲノムプロジェクト解析に使用されるDRAGENパイプライン
1000 Genomes Projectのデータセット解析では、使用されたすべてのパイプラインが単一のDRAGENコマンドを介してオーケストレーションされ、各サンプルに対して1回のエンドツーエンドランで展開されました。DRAGENの高速処理の例を示すため、表2と図1に、f1.4xlarge AWSインスタンスを利用するIllumina Connected Analytics 8 クラウドコンピューティングプラットフォーム上でDRAGEN v3.5.7bで実施した解析から2504サンプルの平均ランタイムを示します。
表2. ICAにおけるDRAGEN v3.5.7bの平均ランタイム(f1.4xlargeインスタンス)
(n=2504、参照:hg38 alt aware)
II) 1000ゲノムプロジェクトデータにおける大規模バリアントコールに使用されるDRAGENパイプラインに関する追加の洞察
構造バリアント(SV)は、リファレンス配列と比較して個人のゲノムDNAに見られる大きなゲノムバリエーションです。 小さなヌクレオチドバリアント(SNV)よりも頻度は低いものの、これらの大きな変異は遺伝子の機能を妨げる可能性があり、疾患におけるその影響が実証されています。10
DRAGENプラットフォームには、さまざまなタイプの大きなバリアントをすべて特定するために、個人のゲノム構造に洞察を収集するために、並行して使用される複数のツールが組み込まれています。DRAGENは、既知のゲノム遺伝子座をターゲットとしたリード深度、スプリットリード、ペアリード情報、およびカスタムアルゴリズムを用いた補完的なアプローチを採用しています。
この記事では、コピー数変動(CNV)などのSVのサブタイプを呼び出すために、DRAGEN-SVコーラーが他のDRAGENパイプラインと組み合わせてどのように使用されているかを示します。また、DRAGENがコール困難な領域のバリアントをコールするためにターゲットアプローチをどのように展開するかについても説明します(例えば、STRにはExpansion Hunterを使用し、シトクロムP450 CYP2D62D6コーラーを使用し、脊髄性筋萎縮症に役割を果たす生存運動ニューロン遺伝子のバリアントにはSMN1と2コーラーを使用します)。
DRAGEN SVコーラー
DRAGEN SVコーラーはオープンソースのManta SVコーラーから派生します。11 Manta と同様に、分割とペアリードの両方のエビデンスを活用して、欠失、挿入、タンデム重複、ブレークエンドなどの構造バリアントを検出しスコアリングします。従来、構造バリアントは50bpのサイズまで報告されています。200塩基以上の欠失およびタンデム重複については、SVコーラーはさらに、バリアントとその隣接領域の間の深度変化がバリアントタイプと一致しており、これらのバリアントタイプの精度をさらに向上させることを主張します。
1,000ゲノムプロジェクトデータセット(n=2,504)では、DRAGEN-SVパイプラインは、図2に示すように、異なる周波数閾値に分散した36,961の一意の 欠失(1kb~20kb)と7,534の一意の タンデム重複(1kb~20kb)を呼び出すことができました。
DRAGEN CNV Caller
DRAGEN CNVコーラーは、深度ベースのアプローチを使用して、ゲノムを隣接する 生殖細胞系列コピー数の領域にセグメント化します。これは生殖細胞系列の仮定の下で動作するため、モザイクバリアントの検出には適していません(ただし、高純度のモザイクCNVはCNV発信者の出力VCFファイルによって報告される場合があります)。経験則として、この発呼者は30xゲノムの10kb以上のバリアントで非常に優れた性能を持っていますが、これはカバレッジの深さに合わせてほぼ拡大します。非常に大きいゲノムCNVは、CNVコーラーに表され、そのソース染色体上の倍数性の変化にも反映される可能性があります。さらに、深度ベースのサポートに加えて、分割またはペアリードサポートがある場合は、DRAGEN-CNVコーラーだけでなく、DRAGEN-CNVコーラーにもCNVが表示される場合があります。
1,000ゲノムプロジェクトデータセットでは、DRAGEN CNVパイプラインは、図3に説明される周波数分布で、10kbを超えるサイズの2,891の固有CNVを呼び出すことができました。
サンプル間でCNVを集約すると、サンプルごとに10kbを超えるサイズで約150コールが見られます。 小さなバリアントと同様に、多くのCNVは、1%の周波数閾値で残っている約25のバリアントと、サンプルあたり6のシングルトンバリアントで非常に一般的であることに注目しています。
DRAGEN ExpansionHunter
STR/リピート伸長は、挿入された配列が反復モチーフの追加コピーを含む特殊なクラスの挿入バリアントです。 SVコールの方法論(挿入されたシーケンスのde-novoアセンブリに依存している)により、これは依然としてコールが難しいバリアントクラスです。それにもかかわらず、DRAGENプラットフォームは、バリアント構造の事前知識を利用して、シーケンスグラフ(ExpansionHunter)を使用してリピート伸長を正確に呼び出すことができます。12,13,14 DRAGENチームは、遺伝学文献から臨床的に意義のあるリピート伸長をキュレーションし、このバリアントコーリングパッケージの一部として、既知のリピート伸長のほとんどを報告することを含めています。
1000 Genome Project のサンプル全体にわたり、一部のSTRのサイズ分布を生成しました(図5)。
DRAGEN Ploidy Caller
多くの病理学では、ベースライン倍数性からの変化が観察され、DRAGEN倍数性コーラーはすべての常染色体と性染色体の平均倍数性レベルを報告します。この発呼者は、生殖細胞系列の全染色体倍数性の変化またはモザイクバリアントを約15%のモザイク純度まで報告することができます。これらの変化はDNAコピー数によって観察され、狭い意味では構造的バリアントとみなされる場合とそうでない場合がありますが(多くの場合は体質的変化と呼ばれています)、実際の解釈の意味ではSVにたまる可能性があるため、この議論に含まれます。
1,000ゲノムデータを使用して、多様なサンプルアレイにわたる倍数性コールの分布を調べることができます(図6)。これにより、少数未満のサンプルで構成されることが多い従来のベンチマーキングデータセットでは実現不可能な方法で、全染色体倍数性変化の検出限界をよりよく理解することができます。このサンプルプール全体の染色体カバレッジの評価により、染色体の大部分が予想されるカバレッジの90%~110%であるのに対し、少数の異常値ではカバレッジが増加していることがわかります。
DRAGEN ROHコーラー
DRAGENは、ホモ接合性(ROH)の大規模ランの呼び出しもサポートしています。この呼び出し元は、小さなバリアント遺伝子型データで動作し、ヘテロ接合バリアントよりも多数のホモ接合バリアントが濃縮されているように見える領域を強調します。大きなROHコールは、片親のアイソダイソミーの存在や親の関連性を強調するために使用できます。集団全体でROHが自然に変動するため、1,000 Genomes Projectデータセットは、一般的な集団におけるROHブロックのベースライン予測値を設定する上で非常に有益であり、さらなる調査のために臨床症例を異常としてフラグ付けするためのヒューリスティック閾値を設定するために使用できます(図7)。
III)DRAGENプラットフォームを使用した複数のデータタイプの組み合わせ:不均衡な転座の例
1,000ゲノムプロジェクトデータセットの幅広さにより、標準的なベンチマークサンプルにはないさまざまな種類の希少なバリエーションを観察することができます。その一例として、NA20533に見られる不均衡な転座があります。このような大規模なゲノム再構成は極めてまれであり、臨床サンプルで観察されるとほぼ常に病原性を示します。この例では、不均衡な転座は体細胞系のアーチファクトであると考えられます。それでも、臨床的に意義のあるバリアントタイプの例として使用できます。
倍数性コーラーのアウトプットを見ると、さらなる調査が必要な異常染色体が見られます。
PLOIDY ESTIMATION,,常染色体カバレッジ 中央値,36.47
...
PLOIDY ESTIMATION,,13 中央値/常染色体中央値,1.24
...
この例では、DRAGENのtarget.counts.gc-correctedファイルを使用して、ゲノム全体のカバレッジを視覚化します(図8)。これを染色体カバレッジのバックグラウンド分布と比較すると、これは明確な 外れ値であることがわかります。
上の図8では、13番染色体の非常に大きな重複と17番染色体の大きな末端欠失が認められ、不均衡な転座が示唆されています。CNVコール(表3)に移ると、1回のLOSSコールで削除が表され、重複は5回の別々のコールに分割されます。この分割は、このような大規模なCNVで一般的なように、一般的なコピー数の変動またはバリアントコールを断片に分割するノイズの存在によるものです。
表3:不均衡転座に隣接するCNVに対応するNA20533のCNV.VCFファイルのサブセット。
このカバレッジデータを見ると、この不均衡な転座のブレークポイントが確実に推定できるという確信が持てます。最後に、これらの転座はゲノム再配列とコピー数の変化をもたらすことがわかっているため、ペアリードデータおよびスプリットリードデータを介して、このバリアントのエビデンスのためにCNVが定義したブレークポイントの近くにある構造バリアントコールファイル `.sv.vcf.gz`を調べることができます(表4)。
表4:NA20533における転座ブレークポイントのVCF記録。
この例では、DRAGENパイプラインが、多くのスケールで希少な大規模バリアントの観察を容易にし、リード深度と分割リードの両方の観点からゲノムを観察する方法を示しています。CNVコーラーと関連するカバレッジデータでは、非常に信頼性の高いコールとバリアントの明確な解釈が得られ、構造バリアントコーラーでは、ブレークポイントの解決と、この特定のゲノム再構成のメカニズムの形成についての理解が得られます。
IV)小型バリアントコーリングの精度
サンプル 間のバリアント表現を統一し、 コホート解析を可能にするために、 イルミナDRAGEN(Dynamic Read Analysis for GENomics)Bio-ITプラットフォーム 、 バージョン3.6.3 の gVCFGenotyperコンポーネントを使用 しました。
gVCF Genotyper は、コホート内の各サンプルから小さなバリアントコーラー出力を取得し、すべてのコホートメンバーの任意のサンプルに見られるすべてのバリアントをジェノタイズします。特定のバリアントを持たないサンプルは、小さなバリアントコーラー出力に存在する深度情報からホモ接合性リファレンス信頼度が推定されますが、 gVCF Genotyper は、集団からの情報に基づいて遺伝子型の調整を試みません。出力は標準マルチサンプルVCR 15形式で表示され、下流コホート解析に使用できます。
1,000ゲノム プロジェクトからの 2,5 04 サンプルからなる コホートコールセットの形式で出力 を リリース し、すべてのサンプルとアノテーション付き集団頻度にわたってバリアントをジェノタイピングします。このコールセットの構築 に使用されたサンプル ごとの 小さなバリアントコールは、 以前のリリースで利用可能になりました。16
生殖細胞系列の小さなバリアント に対して広く採用されているGATKベストプラクティスワークフロー17で独自に生成されたコールセットと比較することで、得られたデータセットの高品質を実証します。
1000ゲノムプロジェクトデータにおけるDRAGEN PopGen Pipelinesによるスケーラブルなコホートコール
DRAGENコホートのリリースは、各染色体のマルチサンプルVCFで構成され、2,504の無関係なサンプルが含まれています。全ゲノムにわたって、データセットには合計 1億5,100万のサイトが含まれ、1億3,800万のSNPと1,800万のINDELが含まれます。他のバリアントコーラーとは異なり、DRAGENはいくつかの エビデンスがあるが、十分な信頼度でコールされない候補アリルを出力します 。したがって、出力の部位の一部はアリルカウント(AC)が0 で、残りの部位の一部 は AC=0の両アリルを含み、 アリル と呼ばれています。これらの アリルの 潜在的な値を 以下の 図13に示します。必要に応じて、次のコマンドで削除できます。
bcftools view -a {in.vcf.gz} | bcftools filter -e 'ALT= ". "' -Oz -o {out.vcf.gz}
AC=0の記録を除き、1億2,70 0万のサイトがあり、 1億1,400万の SNP、1,500万の INDEL 、 800 万の多アレルバリアントがあります。比較すると、類似GATKコールセットには1億2,000万のサイトが含まれ、1億800万のSNP、1,200万のINDEL、900万の多アレルバリアントがあります。図10は、これらのバリアントのアリル周波数スペクトルにわたる分布を示しており、DRAGENコールが 特に 稀な バリアントであることを示しています。DRAGEN出力には、5%未満の周波数を持つバリアントが1,300万個多くあります。
DRAGENコホートコールの精度
DRAGENとGATKで得られた集団コールセットの精度を、バリアントトゥルースセットに対するエラー率、Hardy-Weinberg平衡からの逸脱、三者間のメンデル違反など、さまざまなメトリクスを使用してベンチマークしました。
エラー率
まず、NIST Genome In a Bottle(GIAB 18) コンソーシアムが発表した真実のバリアントを用いて、十分に特性化されたサンプルで偽陽性/偽陰性のカウントを計算しました。NA12878と呼ばれるこの真理値サンプルは、元の1000 Genomes Projectコホートの一部でした。NA12878を表す 列はマルチサンプルVCFから抽出され、バリアントはNISTデータセットのバージョン3.3.2の信頼性の高い領域 を使用して真理値セットと比較されました。図11は、DRAGENコール( DRAGEN-GG )および""GATK出力からの2つのコールセット の結果のエラー カウントを示しています。Joint Genotyping("GATK-JG")後のすべてのバリアントと、バリアント品質スコア再キャリブレーションのみに合格したバリアント("GATK-VQSR)です"。DRAGEN-GGは、SNPとINDELの両方において、偽陽性と偽陰性の数が最も少なくなっています。
Hardy-Weinberg Equilibriumからの逸脱
次に、Hardy-Weinberg平衡からの偏差を測定し、各コールセットでアーチファクトの兆候を示すサイトの割合を比較しました。GATK VariantAnnotatorを使用して、各部位 の ExcessHet メトリクス (過剰な ヘテロ接合性)を算出し、Hardy-Weinberg平衡検定の Phredスケールp値を表 しました。値が高いほど、技術的なアーチファクトが発生する可能性が高くなります。図 14は、DRAGEN データセットがHardy-Weinberg平衡に違反しないサイトの割合が最も高い ことを示しています。 コールの高精度を強調しています。 ExcessHet 28で サイトを>フィルタリングするフラグ を立てます。69、 そのp値は、ハーディ・ワインベルクの予測値から3標準偏差以上離れている ことを意味します。 その結果、0未満になります。 DRAGENサイトの05%にフラグが付けられています。 この情報は、DRAGENコホートコールに付随する治験実施施設専用のVCFファイルで提供されます。 これにはExcessHet メトリクス、 その他の一般的に計算される部位アノテーションと併せて使用します。 ユーザーがすべての情報を1つのファイルにまとめたい場合は、 次の コマンドを使用して、DRAGEN出力とサイトのみのVCFを マージできます。
bcftools アノテーション –a {sites.vcf.gz} -c INFO,+FILTER –Oz –o {output.vcf.gz} {dragen_calls.vcf.gz}
メンデルエラー
最後に、コホートの一部である、サンプルNA20891, NA20882 NA20900の隠されたトリオでメンデルエラー率を計算しました。家族関係の違反は、ゲノムの高信頼領域内のバリアントに限定されていないため、真理値セットよりも精度をより広く評価するための有用な指標です。 表 5は、3人組の1つ以上のメンバーのバリアントである部位の総数にわたるメンデルエラーの数 を示しています。DRAGEN-GGとGATK-VQSRは同様に機能しますが、GATK-VQSRは全体的に少ないコール数で有利です。
表5. パイプラインあたりのメンデルエラー率
確認事項:Shyamal Mehtalia、Egor Dolzhenko、Christopher Saunders、Heidi Norton、およびRami Mehioが、本論文で提示されたテストに関与し、データにアクセス可能にしてくれたことに感謝します。
外部リンク
https://github.com/Illumina/manta
https://github.com/Illumina/canvas
https://github.com/Illumina/ExpansionHunter
https://github.com/Illumina/SMNCopyNumberCaller
https://github.com/Illumina/gvcfgenotyper
https://github.com/Illumina/Cyrius
AWS上の1000ゲノムデータセットのDRAGEN再解析
データにアクセスするには、AWS CLIまたはAWS Management Consoleのいずれかの2つの方法があります。
- AWS CLIでは、ユーザーはaws s3 lsを入力し、以下のリンクをコピーペーストする必要があります。
- AWS Management Consoleでは、コンソールにサインインし、 https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen。
データセットリンク
小型バリアント2504サンプル:
小型バリアントNA12878の結果:
CNV/SV 2504サンプル頻度:
これらのデータセットについては、このAWSの記事で説明しています。
参考文献
- Marta Byrska-Bishop; et al. 602トリオを含む拡大1000ゲノムプロジェクトコホートのハイカバレッジ全ゲノムシーケンス。 bioRxiv 2021.02.06.430068
- 小型バリアント2504サンプル。
- 小さなバリアントNA12878の結果。
- Chen, X., Shen, F., Gonzaludo, N. et al. 。 Cyrius:全ゲノムシーケンスデータを用いた正確なCYP2D6ジェノタイピング。 ファーマコゲノミクスJ(2021年)。
- Cyriusの記事
- Chen, X., Sanchis-Juan, A., French, C.E. et al. Spinal muscular atrophy diagnosis and carrier screening from genome sequencing data. Genet Med 22, 945–953(2020)。
- SMA記事
- Illumina Connected Analytics
- 1,000ゲノムデータセットのドラゴン再解析がオープンデータのレジストリで利用可能になりました。 図3
- Medhat Mahmoud et al. 構造バリアントコーリング:ロングとショート。 ゲノム生物学(2019)20:246 doi: 10.1186/s13059-019-1828-7
- Xiaoyu Chen et al. Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications. Bioinformatics. 2016年4月15日;32(8):1220-2。Doi:10.1093/bioinformatics/btv710。Epub 2015年12月8日。PMID: 26647377.
- Egor Dolzhenko et al. Detection of long repeat expansions from PCR-free whole-genome sequence data. Genome Res, 2017 Nov; 27(11):1895-1903. doi: 10.1101/gr.225672.117.Epub 2017 Sep 8.
- Egor Dolzhenko et al. ExpansionHunter: a sequence-graph-based tool to analyze variation in short tandem repeat regions. Bioinformatics, Volume 35, Issue 22, 15 November 2019, Pages 4754–4756. doi: 10.1093/bioinformatics/btz431
- レビュアー/拡大ハンターの記事
- バリアントコールフォーマット(VCF)バージョン4.2仕様
- 1,000ゲノムデータセットのドラゴン再解析がオープンデータのレジストリで利用可能になりました。
- 1000ゲノムのデータ収集
- ボトルに入ったゲノム