DRAGEN Bio-ITプラットフォームを使用した、Popgenデータセットからの小規模および大規模バリアントの正確で効率的なコール

Andrew Gross, Sorina Maciuca, Anthony Cox, Duke Tran, Yunjiang Qiu, Zhuoyi Huang, Jennifer Del Giudice; published May 24, 2021

ハイスループットシーケンスは、臨床診療や集団遺伝学(PopGen)研究にますます採用され、テクノロジーへのアクセスから、効率的かつ正確な方法で生成されたデータから最大限に抽出するという課題にシフトしています。イル ミナのDRAGEN(Dynamic Read Analysis for  GENomics)Bio-ITプラットフォーム は、その包括的な製品により、小規模および大規模バリアントを高精度かつ高速で呼び出すことができるため、1つのプラットフォームで意味のある洞察を効率的に提供できます。 

New York Genome Centerが発表した1000 Genomes Project 1のカバー範囲の広い全ゲノムシーケンスデータにより、代表的コホート内でこれらのさまざまな発信者をコンテキスト化することができます。これにより、多くの多様なサンプルからのバリアントコールを観察できるだけでなく、カバレッジデータが不均一であるか、またはバリアントコーラーの仮定に違反する地域でも観察 できます。

ここでは、DRAGENプラットフォームを1000ゲノムプロジェクトデータにデプロイし、以下を行いました。

  1. 小規模および大規模のバリアントを同定し、集約され、公開されています。2
  2. より大きなバリアントを調査するためにDRAGENが提供するさまざまな洞察を例で示しました。
  3. 潜在的なアーチファクトまたはメンデルの仮定に違反する小さなバリアントにフラグを立てるために、コホートサンプルにおけるDRAGENの高精度とフィルタリング機能を活用しました。フラグ付きバリアントも公開されています。3

I)1000ゲノムプロジェクトデータセットで使用されるDRAGENスピードとバリアントコーラー

DRAGENプラットフォームは、コホートサンプリングから小規模および大規模のバリアントを高精度に呼び出すために併用される複数のパイプライン を備えています。 表1 に、バリアントコール に使用できるDRAGEN パイプラインについて説明します。

表1 1000ゲノムプロジェクト解析に使用されるDRAGENパイプライン

*CYP2D64,5およびSMN 1/2 6,7パイプラインは、v3.5.7bを使用した1000ゲノムプロジェクトデータセットの現在の解析に含まれていませんが、DRAGEN v.3.7(CYP2D6)およびDRAGEN v.3.8(SMN1/2)で利用可能です。

1000 Genomes Projectのデータセット解析では、使用されたすべてのパイプラインが単一のDRAGENコマンドを介してオーケストレーションされ、各サンプルに対して1回のエンドツーエンドランで展開されました。DRAGENの高速処理の例を示すため、表2と図1に、f1.4xlarge AWSインスタンスを利用するIllumina Connected Analytics 8 クラウドコンピューティングプラットフォーム上でDRAGEN v3.5.7bで実施した解析から2504サンプルの平均ランタイムを示します。 

表2. ICAにおけるDRAGEN v3.5.7bの平均ランタイム(f1.4xlargeインスタンス)
(n=2504、参照:hg38 alt aware)

Figure 1. Sample DRAGEN (v3.5.7b) Timing Comparisons

異なるゲノムリファレンス、より大きなAWSインスタンス(例:f1.16xlarge)、またはオンプレミスのDRAGENサーバーを使用してDRAGENランを実行すると、解析ランタイムが短縮されます。 ランタイムの改善は、新しいDRAGENソフトウェアバージョンでも得られます。9

II) 1000ゲノムプロジェクトデータにおける大規模バリアントコールに使用されるDRAGENパイプラインに関する追加の洞察 

構造バリアント(SV)は、リファレンス配列と比較して個人のゲノムDNAに見られる大きなゲノムバリエーションです。 小さなヌクレオチドバリアント(SNV)よりも頻度は低いものの、これらの大きな変異は遺伝子の機能を妨げる可能性があり、疾患におけるその影響が実証されています。10

DRAGENプラットフォームには、さまざまなタイプの大きなバリアントをすべて特定するために、個人のゲノム構造に洞察を収集するために、並行して使用される複数のツールが組み込まれています。DRAGENは、既知のゲノム遺伝子座をターゲットとしたリード深度、スプリットリード、ペアリード情報、およびカスタムアルゴリズムを用いた補完的なアプローチを採用しています。

この記事では、コピー数変動(CNV)などのSVのサブタイプを呼び出すために、DRAGEN-SVコーラーが他のDRAGENパイプラインと組み合わせてどのように使用されているかを示します。また、DRAGENがコール困難な領域のバリアントをコールするためにターゲットアプローチをどのように展開するかについても説明します(例えば、STRにはExpansion Hunterを使用し、シトクロムP450 CYP2D62D6コーラーを使用し、脊髄性筋萎縮症に役割を果たす生存運動ニューロン遺伝子のバリアントにはSMN1と2コーラーを使用します)。

DRAGEN SVコーラー 

DRAGEN SVコーラーはオープンソースのManta SVコーラーから派生します。11 Manta と同様に、分割とペアリードの両方のエビデンスを活用して、欠失、挿入、タンデム重複、ブレークエンドなどの構造バリアントを検出しスコアリングします。従来、構造バリアントは50bpのサイズまで報告されています。200塩基以上の欠失およびタンデム重複については、SVコーラーはさらに、バリアントとその隣接領域の間の深度変化がバリアントタイプと一致しており、これらのバリアントタイプの精度をさらに向上させることを主張します。

1,000ゲノムプロジェクトデータセット(n=2,504)では、DRAGEN-SVパイプラインは、図2に示すように、異なる周波数閾値に分散した36,961の一意の 欠失(1kb~20kb)と7,534の一意の タンデム重複(1kb~20kb)を呼び出すことができました。

Figure 2: Distribution of deletions and tandem-duplications called by DRAGEN-SV pipeline across different frequency thresholds.

DRAGEN CNV Caller

DRAGEN CNVコーラーは、深度ベースのアプローチを使用して、ゲノムを隣接する 生殖細胞系列コピー数の領域にセグメント化します。これは生殖細胞系列の仮定の下で動作するため、モザイクバリアントの検出には適していません(ただし、高純度のモザイクCNVはCNV発信者の出力VCFファイルによって報告される場合があります)。経験則として、この発呼者は30xゲノムの10kb以上のバリアントで非常に優れた性能を持っていますが、これはカバレッジの深さに合わせてほぼ拡大します。非常に大きいゲノムCNVは、CNVコーラーに表され、そのソース染色体上の倍数性の変化にも反映される可能性があります。さらに、深度ベースのサポートに加えて、分割またはペアリードサポートがある場合は、DRAGEN-CNVコーラーだけでなく、DRAGEN-CNVコーラーにもCNVが表示される場合があります。 

1,000ゲノムプロジェクトデータセットでは、DRAGEN CNVパイプラインは、図3に説明される周波数分布で、10kbを超えるサイズの2,891の固有CNVを呼び出すことができました。

サンプル間でCNVを集約すると、サンプルごとに10kbを超えるサイズで約150コールが見られます。 小さなバリアントと同様に、多くのCNVは、1%の周波数閾値で残っている約25のバリアントと、サンプルあたり6のシングルトンバリアントで非常に一般的であることに注目しています。

Figure 3: Distribution of CNVs greater than 1kb called by DRAGEN-CNV pipeline across different frequency thresholds.
DRAGEN-CNVコーラーの1つの特徴は、ゲノムがコマンドラインで指定されたカバレッジビンの規則に分割され、ランごとに一貫していることです。この程度に、複数のカバレッジファイル(*.target.counts.gc_normalizedで終わるDRAGEN出力)をテーブル構造に些細にマージして、集団規模でカバレッジの変更を効率的に保存およびクエリすることができます(図4)。
Figure 4: Cohort visualization of a common deletion.

ヒートマップの垂直スライスはカバレッジビンを表し、各スライスの色の強度は、その所定のビンの1000ゲノムコホート全体のサンプルカバレッジ深度の分布を表します。強調表示された領域は、一般的な欠失の座標を示します。

DRAGEN ExpansionHunter

STR/リピート伸長は、挿入された配列が反復モチーフの追加コピーを含む特殊なクラスの挿入バリアントです。 SVコールの方法論(挿入されたシーケンスのde-novoアセンブリに依存している)により、これは依然としてコールが難しいバリアントクラスです。それにもかかわらず、DRAGENプラットフォームは、バリアント構造の事前知識を利用して、シーケンスグラフ(ExpansionHunter)を使用してリピート伸長を正確に呼び出すことができます。12,13,14 DRAGENチームは、遺伝学文献から臨床的に意義のあるリピート伸長をキュレーションし、このバリアントコーリングパッケージの一部として、既知のリピート伸長のほとんどを報告することを含めています。

1000 Genome Project のサンプル全体にわたり、一部のSTRのサイズ分布を生成しました(図5)。

Figure 5: Allele frequencies for STRs in CSTB, AFF2, ATXN10, and JPH3 genes across samples from the 1000 Genome Project.

DRAGEN Ploidy Caller

多くの病理学では、ベースライン倍数性からの変化が観察され、DRAGEN倍数性コーラーはすべての常染色体と性染色体の平均倍数性レベルを報告します。この発呼者は、生殖細胞系列の全染色体倍数性の変化またはモザイクバリアントを約15%のモザイク純度まで報告することができます。これらの変化はDNAコピー数によって観察され、狭い意味では構造的バリアントとみなされる場合とそうでない場合がありますが(多くの場合は体質的変化と呼ばれています)、実際の解釈の意味ではSVにたまる可能性があるため、この議論に含まれます。 

1,000ゲノムデータを使用して、多様なサンプルアレイにわたる倍数性コールの分布を調べることができます(図6)。これにより、少数未満のサンプルで構成されることが多い従来のベンチマーキングデータセットでは実現不可能な方法で、全染色体倍数性変化の検出限界をよりよく理解することができます。このサンプルプール全体の染色体カバレッジの評価により、染色体の大部分が予想されるカバレッジの90%~110%であるのに対し、少数の異常値ではカバレッジが増加していることがわかります。 

Figure 6: Distribution of ploidy calls across samples of the 1000 Genomes Project dataset.

DRAGEN ROHコーラー

DRAGENは、ホモ接合性(ROH)の大規模ランの呼び出しもサポートしています。この呼び出し元は、小さなバリアント遺伝子型データで動作し、ヘテロ接合バリアントよりも多数のホモ接合バリアントが濃縮されているように見える領域を強調します。大きなROHコールは、片親のアイソダイソミーの存在や親の関連性を強調するために使用できます。集団全体でROHが自然に変動するため、1,000 Genomes Projectデータセットは、一般的な集団におけるROHブロックのベースライン予測値を設定する上で非常に有益であり、さらなる調査のために臨床症例を異常としてフラグ付けするためのヒューリスティック閾値を設定するために使用できます(図7)。

Figure 7: Distribution of the number of large ROH blocks as well as the fraction of SNVs in a large ROH block calls across the 1000 Genomes Project dataset.

III)DRAGENプラットフォームを使用した複数のデータタイプの組み合わせ:不均衡な転座の例

1,000ゲノムプロジェクトデータセットの幅広さにより、標準的なベンチマークサンプルにはないさまざまな種類の希少なバリエーションを観察することができます。その一例として、NA20533に見られる不均衡な転座があります。このような大規模なゲノム再構成は極めてまれであり、臨床サンプルで観察されるとほぼ常に病原性を示します。この例では、不均衡な転座は体細胞系のアーチファクトであると考えられます。それでも、臨床的に意義のあるバリアントタイプの例として使用できます。  

倍数性コーラーのアウトプットを見ると、さらなる調査が必要な異常染色体が見られます。 

PLOIDY  ESTIMATION,,常染色体カバレッジ 中央値,36.47 
... 
PLOIDY  ESTIMATION,,13 中央値/常染色体中央値,1.24 
... 

この例では、DRAGENのtarget.counts.gc-correctedファイルを使用して、ゲノム全体のカバレッジを視覚化します(図8)。これを染色体カバレッジのバックグラウンド分布と比較すると、これは明確な 外れ値であることがわかります。

Figure 8: Genome-wide visualization of coverage for NA20533.

データは 、100kbゲノム間隔での深度ビン( .target.counts.gc_normalized ファイルから)の分布を表す画像内のスライスを含むヒートマップとして表されます。

上の図8では、13番染色体の非常に大きな重複と17番染色体の大きな末端欠失が認められ、不均衡な転座が示唆されています。CNVコール(表3)に移ると、1回のLOSSコールで削除が表され、重複は5回の別々のコールに分割されます。この分割は、このような大規模なCNVで一般的なように、一般的なコピー数の変動またはバリアントコールを断片に分割するノイズの存在によるものです。

表3:不均衡転座に隣接するCNVに対応するNA20533のCNV.VCFファイルのサブセット。 

カバレッジデータに戻ると、これらのCNVの端を見て、CNVが提供するブレークポイントを信頼しているか、またはそれらを改良したいかを確認できます(図9)。
Figure 9: Coverage visualization of NA20533 at translocation breakpoint.

ドットは`.target.counts.gc_normalized`ファイルからのノーマライズされたビニングされたカバレッジデータを表します。

このカバレッジデータを見ると、この不均衡な転座のブレークポイントが確実に推定できるという確信が持てます。最後に、これらの転座はゲノム再配列とコピー数の変化をもたらすことがわかっているため、ペアリードデータおよびスプリットリードデータを介して、このバリアントのエビデンスのためにCNVが定義したブレークポイントの近くにある構造バリアントコールファイル `.sv.vcf.gz`を調べることができます(表4)。 

表4:NA20533における転座ブレークポイントのVCF記録。

この例では、DRAGENパイプラインが、多くのスケールで希少な大規模バリアントの観察を容易にし、リード深度と分割リードの両方の観点からゲノムを観察する方法を示しています。CNVコーラーと関連するカバレッジデータでは、非常に信頼性の高いコールとバリアントの明確な解釈が得られ、構造バリアントコーラーでは、ブレークポイントの解決と、この特定のゲノム再構成のメカニズムの形成についての理解が得られます。  

IV)小型バリアントコーリングの精度 

 サンプル 間のバリアント表現を統一し、 コホート解析を可能にするために、 イルミナDRAGEN(Dynamic Read Analysis for GENomics)Bio-ITプラットフォーム 、 バージョン3.6.3 の  gVCFGenotyperコンポーネントを使用 しました。 

gVCF Genotyper は、コホート内の各サンプルから小さなバリアントコーラー出力を取得し、すべてのコホートメンバーの任意のサンプルに見られるすべてのバリアントをジェノタイズします。特定のバリアントを持たないサンプルは、小さなバリアントコーラー出力に存在する深度情報からホモ接合性リファレンス信頼度が推定されますが、 gVCF Genotyper は、集団からの情報に基づいて遺伝子型の調整を試みません。出力は標準マルチサンプルVCR 15形式で表示され、下流コホート解析に使用できます。 

1,000ゲノム プロジェクトからの 2,5 04 サンプルからなる コホートコールセットの形式で出力 を リリース し、すべてのサンプルとアノテーション付き集団頻度にわたってバリアントをジェノタイピングします。このコールセットの構築 に使用されたサンプル  ごとの 小さなバリアントコールは、 以前のリリースで利用可能になりました。16

生殖細胞系列の小さなバリアント に対して広く採用されているGATKベストプラクティスワークフロー17で独自に生成されたコールセットと比較することで、得られたデータセットの高品質を実証します。 

1000ゲノムプロジェクトデータにおけるDRAGEN PopGen Pipelinesによるスケーラブルなコホートコール

DRAGENコホートのリリースは、各染色体のマルチサンプルVCFで構成され、2,504の無関係なサンプルが含まれています。全ゲノムにわたって、データセットには合計 1億5,100万のサイトが含まれ、1億3,800万のSNPと1,800万のINDELが含まれます。他のバリアントコーラーとは異なり、DRAGENはいくつかの エビデンスがあるが、十分な信頼度でコールされない候補アリルを出力します 。したがって、出力の部位の一部はアリルカウント(AC)が0 で、残りの部位の一部 は AC=0の両アリルを含み、 アリル と呼ばれています。これらの アリルの  潜在的な値を 以下の  図13に示します。必要に応じて、次のコマンドで削除できます。

bcftools view  -a {in.vcf.gz} |  bcftools filter -e 'ALT= ". "' -Oz -o {out.vcf.gz} 

AC=0の記録を除き、1億2,70 0万のサイトがあり、 1億1,400万の SNP、1,500万の INDEL 、 800 万の多アレルバリアントがあります。比較すると、類似GATKコールセットには1億2,000万のサイトが含まれ、1億800万のSNP、1,200万のINDEL、900万の多アレルバリアントがあります。図10は、これらのバリアントのアリル周波数スペクトルにわたる分布を示しており、DRAGENコールが 特に 稀な バリアントであることを示しています。DRAGEN出力には、5%未満の周波数を持つバリアントが1,300万個多くあります。

Figure 10: Distribution of called variants across the allele frequency spectrum.

この図では、完全なコールセットが使用されました。GATKでは、VQSR フィルタリング後のバリアントが少なくなります。

DRAGENコホートコールの精度

DRAGENとGATKで得られた集団コールセットの精度を、バリアントトゥルースセットに対するエラー率、Hardy-Weinberg平衡からの逸脱、三者間のメンデル違反など、さまざまなメトリクスを使用してベンチマークしました。

エラー率

まず、NIST Genome In a Bottle(GIAB 18) コンソーシアムが発表した真実のバリアントを用いて、十分に特性化されたサンプルで偽陽性/偽陰性のカウントを計算しました。NA12878と呼ばれるこの真理値サンプルは、元の1000 Genomes Projectコホートの一部でした。NA12878を表す 列はマルチサンプルVCFから抽出され、バリアントはNISTデータセットのバージョン3.3.2の信頼性の高い領域 を使用して真理値セットと比較されました。図11は、DRAGENコール( DRAGEN-GG )および""GATK出力からの2つのコールセット の結果のエラー カウントを示しています。Joint Genotyping("GATK-JG")後のすべてのバリアントと、バリアント品質スコア再キャリブレーションのみに合格したバリアント("GATK-VQSR)です"。DRAGEN-GGは、SNPとINDELの両方において、偽陽性と偽陰性の数が最も少なくなっています。

Figure 11 a,b: Error counts for 3 different variant caller pipelines: DRAGEN-GG, GATK-JG, GATK-VQSR for (a) SNP and (b) INDEL.
質問すべき公正な質問は、このサンプルが、他の集団における正確性のために真正なバリアントを持つものとして、どの程度代表的であるかということです。これは、より正確なデータがない場合に答えるのは困難ですが、コホートにおけるNA12878エラーの有病率を調べて、他のサンプルで何が起こっているかを知ることができます。図12は、DRAGEN偽陽性(図11aのFP)は、VQSRフィルタリング後でもGATKよりも一般的に一般的ではないことを示しています。
Figure 12: NA12878 SNP FP for each pipeline, with allele frequency across all 2,504 samples.
偽陰性の場合も同様に、NA12878で見落とされた真のバリアント(図11aのFNステータス)の何個が集団レベルで検出されなかったままかを確認し、他のサンプルで存在を探しました。残りのコホートではDRAGEN FNの15%とGATK FNの21% のみが検出されなかったままであり、単一の真正サンプルで集団の感度に関して表示できる限界に近づいていることを 示唆しています。コホートで検出されるFNについては、そのアリル頻度を計算できます。図13は、DRAGENによって発見された追加のバリアントはまれな頻度を持つ傾向があることを示唆しています。特に興味深いのは、アレル数が0で、裏付けとなる証拠はあるが、信頼度が十分でないというものです。この解析はSNPでのみ実施され、真理値とINDEL施設のコホートコールセット間のバリアント表現の違いによる混乱を回避したことに留意してください。
Figure 13: NA12878 SNP FN variants for each pipeline, with allele frequency across all 2,504 samples. VQSR not included since its FNs are a superset of unfiltered GATK.

Hardy-Weinberg Equilibriumからの逸脱

次に、Hardy-Weinberg平衡からの偏差を測定し、各コールセットでアーチファクトの兆候を示すサイトの割合を比較しました。GATK VariantAnnotatorを使用して、各部位 の ExcessHet メトリクス (過剰な ヘテロ接合性)を算出し、Hardy-Weinberg平衡検定の Phredスケールp値を表 しました。値が高いほど、技術的なアーチファクトが発生する可能性が高くなります。図 14は、DRAGEN データセットがHardy-Weinberg平衡に違反しないサイトの割合が最も高い ことを示しています。 コールの高精度を強調しています。  ExcessHet    28で サイトを>フィルタリングするフラグ を立てます。69、 そのp値は、ハーディ・ワインベルクの予測値から3標準偏差以上離れている ことを意味します。 その結果、0未満になります。 DRAGENサイトの05%にフラグが付けられています。 この情報は、DRAGENコホートコールに付随する治験実施施設専用のVCFファイルで提供されます。  これにはExcessHet メトリクス、 その他の一般的に計算される部位アノテーションと併せて使用します。 ユーザーがすべての情報を1つのファイルにまとめたい場合は、 次の コマンドを使用して、DRAGEN出力とサイトのみのVCFを マージできます。 

bcftools アノテーション –a {sites.vcf.gz}  -c INFO,+FILTER –Oz –o {output.vcf.gz} {dragen_calls.vcf.gz} 

Figure 14: Distribution of called sites according to their ExcessHet metric.

値が高いほど、サンプルが無関係である場合に技術的アーチファクトが発生する可能性が高くなります。

メンデルエラー

最後に、コホートの一部である、サンプルNA20891, NA20882 NA20900の隠されたトリオでメンデルエラー率を計算しました。家族関係の違反は、ゲノムの高信頼領域内のバリアントに限定されていないため、真理値セットよりも精度をより広く評価するための有用な指標です。 表 5は、3人組の1つ以上のメンバーのバリアントである部位の総数にわたるメンデルエラーの数 を示しています。DRAGEN-GGとGATK-VQSRは同様に機能しますが、GATK-VQSRは全体的に少ないコール数で有利です。

表5. パイプラインあたりのメンデルエラー率

確認事項:Shyamal Mehtalia、Egor Dolzhenko、Christopher Saunders、Heidi Norton、およびRami Mehioが、本論文で提示されたテストに関与し、データにアクセス可能にしてくれたことに感謝します。

外部リンク

https://github.com/Illumina/manta

https://github.com/Illumina/canvas

https://github.com/Illumina/ExpansionHunter

https://github.com/Illumina/SMNCopyNumberCaller

https://github.com/Illumina/gvcfgenotyper

https://github.com/Illumina/Cyrius

AWS上の1000ゲノムデータセットのDRAGEN再解析

データにアクセスするには、AWS CLIまたはAWS Management Consoleのいずれかの2つの方法があります。

  • AWS CLIでは、ユーザーはaws s3 lsを入力し、以下のリンクをコピーペーストする必要があります。
  • AWS Management Consoleでは、コンソールにサインインし、  https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen

データセットリンク

小型バリアント2504サンプル:

https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen?prefix=data/dragen-3.5.7b/hg38_altaware_nohla-cnv-anchored/gVCF-genotyper-3.6.3-2/hg38_alt_aware_nohla/2504samples/

小型バリアントNA12878の結果:

https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen?prefix=data/dragen-3.5.7b/hg38_altaware_nohla-cnv-anchored/gVCF-genotyper-3.6.3-2/hg38_alt_aware_nohla/NA12878_annotation/

CNV/SV 2504サンプル頻度:

https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen?region=us-west-2&prefix=data/dragen-3.5.7b/hg38_altaware_nohla-cnv-anchored/cnv-sv-frequency/2504samples/

これらのデータセットについては、このAWSの記事で説明しています。 

https://aws.amazon.com/blogs/industries/dragen-reanalysis-of-the-1000-genomes-dataset-now-available-on-the-registry-of-open-data/

参考文献
  1. Marta Byrska-Bishop; et al. 602トリオを含む拡大1000ゲノムプロジェクトコホートのハイカバレッジ全ゲノムシーケンス。 bioRxiv 2021.02.06.430068
  2. 小型バリアント2504サンプル。
  3. 小さなバリアントNA12878の結果。
  4. Chen, X., Shen, F., Gonzaludo, N. et al. 。 Cyrius:全ゲノムシーケンスデータを用いた正確なCYP2D6ジェノタイピング。 ファーマコゲノミクスJ(2021年)。
  5. Cyriusの記事
  6. Chen, X., Sanchis-Juan, A., French, C.E. et al. Spinal muscular atrophy diagnosis and carrier screening from genome sequencing data. Genet Med 22, 945–953(2020)。
  7. SMA記事
  8. Illumina Connected Analytics
  9. 1,000ゲノムデータセットのドラゴン再解析がオープンデータのレジストリで利用可能になりました。 図3
  10. Medhat Mahmoud et al. 構造バリアントコーリング:ロングとショート。 ゲノム生物学(2019)20:246 doi: 10.1186/s13059-019-1828-7
  11. Xiaoyu Chen et al. Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications. Bioinformatics. 2016年4月15日;32(8):1220-2。Doi:10.1093/bioinformatics/btv710。Epub 2015年12月8日。PMID: 26647377.
  12. Egor Dolzhenko et al. Detection of long repeat expansions from PCR-free whole-genome sequence data. Genome Res, 2017 Nov; 27(11):1895-1903. doi: 10.1101/gr.225672.117.Epub 2017 Sep 8.
  13. Egor Dolzhenko et al. ExpansionHunter: a sequence-graph-based tool to analyze variation in short tandem repeat regions. Bioinformatics, Volume 35, Issue 22, 15 November 2019, Pages 4754–4756. doi: 10.1093/bioinformatics/btz431
  14. レビュアー/拡大ハンターの記事
  15. バリアントコールフォーマット(VCF)バージョン4.2仕様
  16. 1,000ゲノムデータセットのドラゴン再解析がオープンデータのレジストリで利用可能になりました。
  17. 1000ゲノムのデータ収集
  18. ボトルに入ったゲノム