高品質の一塩基バリアントコーリングによるゲノム領域の同定

Mitchell A. Bekritsky, Camilla Colombo, and Michael A. Eberle; published September 23, 2021

はじめに

臨床試験として全ゲノムシーケンスを実装するラボが増えるにつれ、エンドツーエンドのシーケンスパイプラインのパフォーマンスを正確に定量化することがますます重要になっています。1つのオプションは、リファレンス物質を入手してシーケンスし、それらを使用して、関連する真理値データに対するバリアントコール性能を測定することです1-3。これにより、ラボはゲノムの大部分(80~90%)において、リコールと精度を正確に測定することができます。しかし、これらの参考資料は少数の民族的に均質なサンプルに対して存在するものであり、将来のサンプルにおけるゲノム全体の性能を予測するものではありません。補完的なアプローチは、あらゆるサンプルのシーケンス性能を推定する予測手法を開発することです。

バリアントコールは、確率的変動と系統的変動の両方の影響を受ける可能性があります。一塩基バリアント(SNV)や短いインデルなどの小さなバリアントの場合、確率的変動は、≥30xカバレッジにシーケンスされるほとんどのゲノムのバリアントコール性能に非常にわずかな影響を及ぼします。しかし、エラー率の上昇、マッピング品質の低下、深度の異常など、低品質によって系統的に影響を受けるゲノム領域では、SNVやインデルであっても、一貫して正確なバリアントコールを提供できない可能性があります。これらの系統的エラーの原因となるリファレンス特性の多くはよく知られています。例えば、反復性の高い領域はマッピング品質が低く、ホモポリマーは塩基精度が低いことが知られています。この知識は、ゲノムを‘容易’領域と‘困難’領域に分類するために使用されています4。これらの分類は役に立つかもしれませんが、これらの地域における実際のパフォーマンスを完全に表しているわけではありません。例えば、大きなセグメント重複は、高い類似性と低い類似性の領域で構成され、非常に異なるバリアントコーリング精度をもたらす可能性があります。これらの一般的な分類方法に対する改善点は、実際のシーケンスデータを使用して、バリアントコーリング性能の高い領域と低い領域を経験的に特定することです。

ここでは、平均深度>50倍にシーケンスされた29のサンプルで収集されたデータ品質に関連するいくつかのシーケンス測定値を分析しました。合わせて、ゲノムのすべての塩基をカバーする平均1,450リードを持つため、ベースレベルの解像度で一貫して高品質の領域を同定し、各位置を経験的に高いまたは低い系統的品質であると注釈付けすることができます。次に、これらのアノテーションはペアワイズSNVの一致率で測定した場合、SNVパフォーマンスの予測が高いことを示しています。これらの経験的に導出されたアノテーションにより、頻繁に使用されるリファレンスベースの分類法を改善することができます。例えば、Genome in a Bottle(GIAB)の難しい領域内の高い信頼性としてアノテーションした領域は、テクニカルレプリケートで高いSNV一致率(Jaccardインデックス=98.8%)を示します。逆に、GIABの難しい領域に含まれていない低い信頼度でアノテーションした領域では、SNVの一致率が低くなります(Jaccardインデックス=79.9%)。私たちの結果は、多くのサンプルからシーケンスデータを集約することで、小さなバリアントコーリングが系統的に高い品質を持つゲノムの領域を特定できることを示しています。

手法

データベースを構築するために、1000ゲノムプロジェクトに含まれ、Coriell Institute Biobank 5から取得した29のサンプルを選択しました。これらのサンプルは多様な民族(アフリカの11、東アジアの9、ヨーロッパの9サンプル)を表しています。各サンプルからのDNAは、TruSeq−(* PCR-Free Sample Prep Kitを使用して調製し、その後、Xpワークフローを備えたNovaSeq−(* 6000装置上でペアエンド150bpリードでシーケンスし、平均深度は51倍でした。

シーケンスリードは、Decoy染色体でGRCh38にアライメントされましたが、Dragen−(* v3.4.5を使用して代替コンティグはありませんでした。29のサンプルがあるので、ゲノムの位置あたり約1,450リードが予想されます。ゲノムの各位置のすべてのサンプルについて、アライメントファイル(BAMまたはCRAM)からいくつかのメトリクスを収集しました。これには、以下が含まれます。

  • ノーマライズされた深度:各サンプルについて、ノーマライズされた深度は、各位置のカバレッジを常染色体カバレッジの中央値でノーマライズして計算されるため、1の値は常染色体カバレッジの中央値に対応します。ノーマライズされた深度は、最終的なコホート深度について、すべてのサンプルで平均化されます。
  • 平均マッピング品質:ゲノム位置とオーバーラップするすべてのサンプルにわたるすべてのアライメントされたリードの平均マッピング品質。
  • %Q20ベースコール:Phredスケールの品質スコアが20を超えるすべてのサンプルにおけるゲノム位置でのベースコールの割合で、エラー率≦1%に相当します。

この解析では、Jaccardインデックスを用いて算出した一致率を用いてSNV性能を測定します。

AとBは、2つのバリアントコーリングファイル(VCF)からの2組のバリアントコールで、通常は同じサンプルの複製から取得されます。 分子では、AとBの交点は、同一の遺伝子型を持つ両方のVCFに存在するすべてのバリアントコールとして定義されます。 分母では、AとBの結合は、VCFのいずれかに存在するすべてのバリアントコールとして定義されます。 これらのバリアントコールセットのJaccardインデックスは、コールの結合で割ったセットからのコールの交差点です。

グラウンドトゥルースのリソースと比較して、一部の再現性のあるバリアントは系統的エラーが原因である可能性がありますが、結果は依然として一般的なパフォーマンス評価に非常に有益です。 すべての解析について、ランダムに組み合わせたNA12878の30のテクニカルレプリケートの平均Jaccardインデックスを示します。  報告された各クラスのコンコーダンス値とバリアント数は、30のレプリケートすべての平均です。

オートソーム全体の性能を計算する際、リファレンスゲノムのNおよびギャップを除外します。

結果

集約されたデータは、1回のシーケンス実験では検出できない系統的エラーの傾向を検出するための大きな力を提供します。ゲノム内の40リードの部位で、常染色体カバレッジの中央値が30倍であると仮定してください。ポアソン分布を30倍と仮定すると、独立した施設1,000カ所のうち約14カ所でポアソンサンプリングが行われるため、これは起こります。したがって、より高いカバレッジが確率的か系統的かを判断するのは困難です。逆に、30xカバレッジの30人の集団で同じサイトを観察する場合、全員がサイトに正確に40xカバレッジを持っていると、サイトにおけるカバレッジの変動が確率的プロセスによって推進されていないことが非常に確実になります(p=2e-56)。多くのサンプルから得られた高深度データを集約することで、バリアントコール性能の低下につながる可能性が最も高い系統的異常を特定することができます。多様な民族的背景からの大量のサンプルでは、一般的な変異やアリル特異的なアーチファクトが同定でき、十分に希少であれば、集計された要約指標への影響は限定的です。

測定基準のパフォーマンスによるゲノムの層別化

メソッドに概説された手順に従って、3つのパフォーマンスメトリクスを収集しました(図1)。

図1:集約されたシーケンスデータでゲノム全体の系統的アライメントメトリクスを結合。メトリックビンは半分開いています。 高い系統的品質を表すビンは青色に、低い系統的品質を表すビンは赤色に網掛けされます。これは、記事全体を通してすべての図で維持されます。本文で説明したように、対象範囲の≥90% Q20、平均マッピング品質≥50、平均ノーマライズ深度がターゲット範囲の25%以内の場合、高い系統的品質を持つ領域と定義しています。

常染色体の大部分(>88%)は、高い塩基コーリング品質を持ち、リファレンスゲノムに確実にアライメントし、各サンプルのターゲット二倍体カバレッジに近づいています(表1)。この解析では、系統的品質の高い領域を、≥90% Q20、平均マッピング品質≥50、およびターゲットカバレッジの25%以内の範囲の深度を持つ領域と定義します。これらの定義を使用して、ギャップを除く常染色体の以下の内訳を取得します。

表1:非N常染色体が各系統的品質ビンに入る割合。青色の円は特定のメトリクスに対する高い系統的品質を示し、赤色の円は低い系統的品質を示します。

これらのメトリクスの変動は、小さなバリアントコールのパフォーマンスに影響を与える可能性がありますが、パフォーマンスを正確に測定するために、真理値セット1~3だけに頼るべきではありません。これは、体系的な品質の低い地域では、真理値セット1~3があまり包括的ではない可能性が高い ためです(図2)。一致率は、全常染色体で通過するすべてのSNVで95.7%ですが、高品質であるゲノムの約88%でははるかに高く(99.8%)、これは既知のゲノムの大部分でSNVコールが非常に正確であることを意味します。系統的品質の低い領域は、この解析に基づくゲノムのわずか12%を占めており、パフォーマンスが著しく劣っています。個々のメトリクスに系統的な質不良のエビデンスがある場合、平均一致率は66.7%に低下し、すべてのメトリクスに系統的な質不良がある場合、一致率は46.8%になります(図3)。

図2:Truthsetは、系統的品質が低い地域では評価可能なSNVがほとんどありません。Platinum Genomes v2017.1の真相セットについて、ビンあたりの評価済みSNVの割合が示されます

図3:系統的品質の低いゲノム領域では、一致性が劣ります。各ビンでは、他の2つのメトリクスが高い系統的品質を持つサイトで一致が報告され、各メトリクスの系統的品質が低い影響が独立して強調されます。

ボトルの難しい領域における経験的系統的品質とゲノムの比較

ゲノムのリファレンス機能はバリアントコーリング性能に悪影響を与える可能性がありますが、これらの領域のバリアントコーリング精度は明確に定義されていません。リファレンス機能のみに基づいてバリアントを除外すると、多くの高品質のバリアントコールを排除できます。たとえば、Genome in a Bottleは、低いマッピング可能性、セグメント重複、長いタンデムリピート、極端なGC含有量の領域など、ゲノムの難しい領域のいくつかのクラスを定義します( 4 )。これらの各クラスにおいて、これらの困難な領域の18%~73%が、この解析で高い系統的品質とラベル付けされています(表2)。我々の解析では系統的品質が高いと判断された困難なクラスに分類される約61万8,000のSNVの一致率は98.8%です。さらに、我々の解析に基づく系統的品質が低いGIABによって定義された困難な領域外にある約11万8,000のSNVでは、一致率は79.9%です。これらの結果を組み合わせると、以前に説明された困難な領域は過度に広範であり、経験的系統的品質を使用することが生殖細胞系列バリアントコールパフォーマンスのより良い予測因子となり得ることがわかります。

表2:GIABの難しい領域は、バリアントコーリング性能の予測因子としては不十分です。

経験的系統的品質を真実に設定された自信のある地域と比較する

Truthsetの確信領域特性化は、系統的な品質ビニングから生成されたものと同様の、ただし同一ではない、高信頼バリアントコールの領域を生成する必要があります。さらに、これらの真理値に特定された自信のある領域は、同じサンプルでも時間の経過とともに進化する可能性があります。これを調べるために、経験的に定義された自信のある領域との重複に基づいて、異なる真相が設定された自信のある領域のパフォーマンスを比較しました(表3)。特に重要なのは、信頼できる地域内であり、系統的な品質が高いサイトは、一貫して高い一致率(>99.9%)です。同様に、系統的品質が不良で、信頼できる地域に含まれていないサイトは、非常に低い一致性を示します。

表3:系統的品質の高い地域と比較した、真実設定のSNV一致

この解析では、65,000~450,000のSNVが同定され、そのSNVは研究対象の真実に存在しないため、一致率は約91%~>98%の範囲であり、これらの部位は一般的に高品質であることを示しています。 これらの観察結果は、この分析がかなり根拠のあるものであるという事実と一致しています。当社の手法が開発されるにつれ、系統的品質の高い施設については、さらなる一致度の向上が期待されます。 

これらの観察結果からさらに2つの結論が導かれます。第一に、ここで検討するビンの粗さを考慮すると、より高度な解析により、これらの真理値に特異的なバリアントの一部が、最終的には高い系統的品質を持つものとして分類される可能性があります。ゲノムの残りの12%の一部のサブセットは、高い信頼性とみなされる直交検証を必要とするバリアントコールを生成することができます。これはまさに真実です。家系の一貫性、直交するプラットフォームとパイプライン、または手作業によるキュレーションのいずれを使用しても、この追加のエビデンスによりゲノムのより困難な領域で高品質のコールが可能になります。

ディスカッション

ゲノムデータの臨床有用性の向上を成功に導くには、広範囲のゲノムワイドスケールだけでなく、地域規模でも、当社のパフォーマンスを完全に理解することが重要です。大規模な集団にわたってゲノムワイドなデータを集約することで、あらゆる関心領域における当社のパフォーマンスに関する詳細な情報を入手し始めることができます。重要な遺伝子に特定の影響が見られる場合、この情報により、臨床上実行可能な結果を提供するためにNGSで利用可能な情報を活用する専門の発信者に取り組むことができます。これは、イルミナのSMAおよびCYP2D66,7の特注発信者で実証されています。小さなバリアントコールのパフォーマンスを分解することで、システマティックエラーがアプリケーション固有のパフォーマンスにどのように影響するかについて、ますます明確に理解することができます。これは、私たちが現在信頼できる臨床結果をどこで提供しているかを理解し、将来の臨床ゲノムを改善するために次に重点を置く必要がある分野をマッピングできる将来のアプリケーションを示唆するものです。

ここに示す結果は、バリアントコールパフォーマンスを予測する機能に焦点を当てた、信頼できる領域のユニバーサルセットを開発できることを示唆しています。我々は、系統的品質の高い領域において、ペアワイズレプリケートの一致によって評価される性能が、SNVに対して非常に高いことを実証しました。重要なのは、系統的品質の高い領域が評価セットに対して別々のサンプルで定義されたため、これらの結果はシーケンスされたゲノム全体で一般化される可能性が高いということです。現在、この研究では、>88%の常染色体におけるSNVコールの複製率は約99.8%であることが特定され、ゲノムのこの部分内で直交検証の必要性がほとんどない、またはまったくないことを示しています。ゲノムのより大きなパーセントをカバーする高い信頼性のある領域をよりよく同定するために、継続的な研究が行われています。さらに、この作業ではSNVの一致性に重点を置いていましたが、これらの同じ手法は、より複雑なバリアントタイプや体細胞バリアントコーリングにも拡張できます。

参考文献
  1. Eberle MA, Fritzilas E, et al. 3世代の17員の家系のシーケンスから遺伝によって検証された540万のフェーズドヒトバリアントのリファレンスデータセット。 Genome Res. 2017;27(1):157-164. doi:10.1101/gr.210500.116
  2. Wagner J, Olson ND, et al. リンクリードとロングリードによる難易度の高い小型バリアントのベンチマーキング。 bioRxiv. 2020;212712. doi:10.1101/2020.07.24.212712
  3. Zook JM, McDaniel J, et al. 小さなバリアントコールやリファレンスコールを正確にベンチマークするためのオープンリソース。 Nat Biotechnol. 2019;37:561-566. doi:10.1038/s41587-019-0074-6
  4. Krusche P, Trigg L, et al. ヒトゲノムにおける生殖細胞系列の小バリアントコールのベンチマーキングのベストプラクティス。 Nat Biotechnol. 2019;37:555-560. doi:10.1038/s41587-019-0054-x
  5. Clarke L, Fairley S, et al. 国際ゲノムサンプルリソース(IGSR):1000ゲノムプロジェクトデータを組み込んだゲノムバリエーションの世界的なコレクション。 核酸 Res. 2017;45(D1):D854-D859. doi:10.1093/nar/gkw829
  6. Chen X, Sanchis-Juan A, et al. Spinal muscular atrophy diagnosis and carrier screening from genome sequencing data. Genet Med. 2020;22:945-953. doi:10.1038/s41436-020-0754-0
  7. Chen X, Shen F, et al. Cyrius:全ゲノムシーケンスデータを用いた正確なCYP2D6ジェノタイピング。 Pharmacogenomics J. 2021;21:251-261. doi:10.1038/s41397-020-00205-5