はじめに
臨床試験として全ゲノムシーケンスを実装するラボが増えるにつれ、エンドツーエンドのシーケンスパイプラインのパフォーマンスを正確に定量化することがますます重要になっています。1つのオプションは、リファレンス物質を入手してシーケンスし、それらを使用して、関連する真理値データに対するバリアントコール性能を測定することです1-3。これにより、ラボはゲノムの大部分(80~90%)において、リコールと精度を正確に測定することができます。しかし、これらの参考資料は少数の民族的に均質なサンプルに対して存在するものであり、将来のサンプルにおけるゲノム全体の性能を予測するものではありません。補完的なアプローチは、あらゆるサンプルのシーケンス性能を推定する予測手法を開発することです。
バリアントコールは、確率的変動と系統的変動の両方の影響を受ける可能性があります。一塩基バリアント(SNV)や短いインデルなどの小さなバリアントの場合、確率的変動は、≥30xカバレッジにシーケンスされるほとんどのゲノムのバリアントコール性能に非常にわずかな影響を及ぼします。しかし、エラー率の上昇、マッピング品質の低下、深度の異常など、低品質によって系統的に影響を受けるゲノム領域では、SNVやインデルであっても、一貫して正確なバリアントコールを提供できない可能性があります。これらの系統的エラーの原因となるリファレンス特性の多くはよく知られています。例えば、反復性の高い領域はマッピング品質が低く、ホモポリマーは塩基精度が低いことが知られています。この知識は、ゲノムを‘容易’領域と‘困難’領域に分類するために使用されています4。これらの分類は役に立つかもしれませんが、これらの地域における実際のパフォーマンスを完全に表しているわけではありません。例えば、大きなセグメント重複は、高い類似性と低い類似性の領域で構成され、非常に異なるバリアントコーリング精度をもたらす可能性があります。これらの一般的な分類方法に対する改善点は、実際のシーケンスデータを使用して、バリアントコーリング性能の高い領域と低い領域を経験的に特定することです。
ここでは、平均深度>50倍にシーケンスされた29のサンプルで収集されたデータ品質に関連するいくつかのシーケンス測定値を分析しました。合わせて、ゲノムのすべての塩基をカバーする平均1,450リードを持つため、ベースレベルの解像度で一貫して高品質の領域を同定し、各位置を経験的に高いまたは低い系統的品質であると注釈付けすることができます。次に、これらのアノテーションはペアワイズSNVの一致率で測定した場合、SNVパフォーマンスの予測が高いことを示しています。これらの経験的に導出されたアノテーションにより、頻繁に使用されるリファレンスベースの分類法を改善することができます。例えば、Genome in a Bottle(GIAB)の難しい領域内の高い信頼性としてアノテーションした領域は、テクニカルレプリケートで高いSNV一致率(Jaccardインデックス=98.8%)を示します。逆に、GIABの難しい領域に含まれていない低い信頼度でアノテーションした領域では、SNVの一致率が低くなります(Jaccardインデックス=79.9%)。私たちの結果は、多くのサンプルからシーケンスデータを集約することで、小さなバリアントコーリングが系統的に高い品質を持つゲノムの領域を特定できることを示しています。
手法
データベースを構築するために、1000ゲノムプロジェクトに含まれ、Coriell Institute Biobank 5から取得した29のサンプルを選択しました。これらのサンプルは多様な民族(アフリカの11、東アジアの9、ヨーロッパの9サンプル)を表しています。各サンプルからのDNAは、TruSeq−(* PCR-Free Sample Prep Kitを使用して調製し、その後、Xpワークフローを備えたNovaSeq−(* 6000装置上でペアエンド150bpリードでシーケンスし、平均深度は51倍でした。
シーケンスリードは、Decoy染色体でGRCh38にアライメントされましたが、Dragen−(* v3.4.5を使用して代替コンティグはありませんでした。29のサンプルがあるので、ゲノムの位置あたり約1,450リードが予想されます。ゲノムの各位置のすべてのサンプルについて、アライメントファイル(BAMまたはCRAM)からいくつかのメトリクスを収集しました。これには、以下が含まれます。
- ノーマライズされた深度:各サンプルについて、ノーマライズされた深度は、各位置のカバレッジを常染色体カバレッジの中央値でノーマライズして計算されるため、1の値は常染色体カバレッジの中央値に対応します。ノーマライズされた深度は、最終的なコホート深度について、すべてのサンプルで平均化されます。
- 平均マッピング品質:ゲノム位置とオーバーラップするすべてのサンプルにわたるすべてのアライメントされたリードの平均マッピング品質。
- %Q20ベースコール:Phredスケールの品質スコアが20を超えるすべてのサンプルにおけるゲノム位置でのベースコールの割合で、エラー率≦1%に相当します。
この解析では、Jaccardインデックスを用いて算出した一致率を用いてSNV性能を測定します。
AとBは、2つのバリアントコーリングファイル(VCF)からの2組のバリアントコールで、通常は同じサンプルの複製から取得されます。 分子では、AとBの交点は、同一の遺伝子型を持つ両方のVCFに存在するすべてのバリアントコールとして定義されます。 分母では、AとBの結合は、VCFのいずれかに存在するすべてのバリアントコールとして定義されます。 これらのバリアントコールセットのJaccardインデックスは、コールの結合で割ったセットからのコールの交差点です。
グラウンドトゥルースのリソースと比較して、一部の再現性のあるバリアントは系統的エラーが原因である可能性がありますが、結果は依然として一般的なパフォーマンス評価に非常に有益です。 すべての解析について、ランダムに組み合わせたNA12878の30のテクニカルレプリケートの平均Jaccardインデックスを示します。 報告された各クラスのコンコーダンス値とバリアント数は、30のレプリケートすべての平均です。
オートソーム全体の性能を計算する際、リファレンスゲノムのNおよびギャップを除外します。
結果
集約されたデータは、1回のシーケンス実験では検出できない系統的エラーの傾向を検出するための大きな力を提供します。ゲノム内の40リードの部位で、常染色体カバレッジの中央値が30倍であると仮定してください。ポアソン分布を30倍と仮定すると、独立した施設1,000カ所のうち約14カ所でポアソンサンプリングが行われるため、これは起こります。したがって、より高いカバレッジが確率的か系統的かを判断するのは困難です。逆に、30xカバレッジの30人の集団で同じサイトを観察する場合、全員がサイトに正確に40xカバレッジを持っていると、サイトにおけるカバレッジの変動が確率的プロセスによって推進されていないことが非常に確実になります(p=2e-56)。多くのサンプルから得られた高深度データを集約することで、バリアントコール性能の低下につながる可能性が最も高い系統的異常を特定することができます。多様な民族的背景からの大量のサンプルでは、一般的な変異やアリル特異的なアーチファクトが同定でき、十分に希少であれば、集計された要約指標への影響は限定的です。
測定基準のパフォーマンスによるゲノムの層別化
メソッドに概説された手順に従って、3つのパフォーマンスメトリクスを収集しました(図1)。
ボトルの難しい領域における経験的系統的品質とゲノムの比較
ゲノムのリファレンス機能はバリアントコーリング性能に悪影響を与える可能性がありますが、これらの領域のバリアントコーリング精度は明確に定義されていません。リファレンス機能のみに基づいてバリアントを除外すると、多くの高品質のバリアントコールを排除できます。たとえば、Genome in a Bottleは、低いマッピング可能性、セグメント重複、長いタンデムリピート、極端なGC含有量の領域など、ゲノムの難しい領域のいくつかのクラスを定義します( 4 )。これらの各クラスにおいて、これらの困難な領域の18%~73%が、この解析で高い系統的品質とラベル付けされています(表2)。我々の解析では系統的品質が高いと判断された困難なクラスに分類される約61万8,000のSNVの一致率は98.8%です。さらに、我々の解析に基づく系統的品質が低いGIABによって定義された困難な領域外にある約11万8,000のSNVでは、一致率は79.9%です。これらの結果を組み合わせると、以前に説明された困難な領域は過度に広範であり、経験的系統的品質を使用することが生殖細胞系列バリアントコールパフォーマンスのより良い予測因子となり得ることがわかります。
経験的系統的品質を真実に設定された自信のある地域と比較する
Truthsetの確信領域特性化は、系統的な品質ビニングから生成されたものと同様の、ただし同一ではない、高信頼バリアントコールの領域を生成する必要があります。さらに、これらの真理値に特定された自信のある領域は、同じサンプルでも時間の経過とともに進化する可能性があります。これを調べるために、経験的に定義された自信のある領域との重複に基づいて、異なる真相が設定された自信のある領域のパフォーマンスを比較しました(表3)。特に重要なのは、信頼できる地域内であり、系統的な品質が高いサイトは、一貫して高い一致率(>99.9%)です。同様に、系統的品質が不良で、信頼できる地域に含まれていないサイトは、非常に低い一致性を示します。
この解析では、65,000~450,000のSNVが同定され、そのSNVは研究対象の真実に存在しないため、一致率は約91%~>98%の範囲であり、これらの部位は一般的に高品質であることを示しています。 これらの観察結果は、この分析がかなり根拠のあるものであるという事実と一致しています。当社の手法が開発されるにつれ、系統的品質の高い施設については、さらなる一致度の向上が期待されます。
これらの観察結果からさらに2つの結論が導かれます。第一に、ここで検討するビンの粗さを考慮すると、より高度な解析により、これらの真理値に特異的なバリアントの一部が、最終的には高い系統的品質を持つものとして分類される可能性があります。ゲノムの残りの12%の一部のサブセットは、高い信頼性とみなされる直交検証を必要とするバリアントコールを生成することができます。これはまさに真実です。家系の一貫性、直交するプラットフォームとパイプライン、または手作業によるキュレーションのいずれを使用しても、この追加のエビデンスによりゲノムのより困難な領域で高品質のコールが可能になります。
ディスカッション
ゲノムデータの臨床有用性の向上を成功に導くには、広範囲のゲノムワイドスケールだけでなく、地域規模でも、当社のパフォーマンスを完全に理解することが重要です。大規模な集団にわたってゲノムワイドなデータを集約することで、あらゆる関心領域における当社のパフォーマンスに関する詳細な情報を入手し始めることができます。重要な遺伝子に特定の影響が見られる場合、この情報により、臨床上実行可能な結果を提供するためにNGSで利用可能な情報を活用する専門の発信者に取り組むことができます。これは、イルミナのSMAおよびCYP2D66,7の特注発信者で実証されています。小さなバリアントコールのパフォーマンスを分解することで、システマティックエラーがアプリケーション固有のパフォーマンスにどのように影響するかについて、ますます明確に理解することができます。これは、私たちが現在信頼できる臨床結果をどこで提供しているかを理解し、将来の臨床ゲノムを改善するために次に重点を置く必要がある分野をマッピングできる将来のアプリケーションを示唆するものです。
ここに示す結果は、バリアントコールパフォーマンスを予測する機能に焦点を当てた、信頼できる領域のユニバーサルセットを開発できることを示唆しています。我々は、系統的品質の高い領域において、ペアワイズレプリケートの一致によって評価される性能が、SNVに対して非常に高いことを実証しました。重要なのは、系統的品質の高い領域が評価セットに対して別々のサンプルで定義されたため、これらの結果はシーケンスされたゲノム全体で一般化される可能性が高いということです。現在、この研究では、>88%の常染色体におけるSNVコールの複製率は約99.8%であることが特定され、ゲノムのこの部分内で直交検証の必要性がほとんどない、またはまったくないことを示しています。ゲノムのより大きなパーセントをカバーする高い信頼性のある領域をよりよく同定するために、継続的な研究が行われています。さらに、この作業ではSNVの一致性に重点を置いていましたが、これらの同じ手法は、より複雑なバリアントタイプや体細胞バリアントコーリングにも拡張できます。
参考文献
- Eberle MA, Fritzilas E, et al. 3世代の17員の家系のシーケンスから遺伝によって検証された540万のフェーズドヒトバリアントのリファレンスデータセット。 Genome Res. 2017;27(1):157-164. doi:10.1101/gr.210500.116
- Wagner J, Olson ND, et al. リンクリードとロングリードによる難易度の高い小型バリアントのベンチマーキング。 bioRxiv. 2020;212712. doi:10.1101/2020.07.24.212712
- Zook JM, McDaniel J, et al. 小さなバリアントコールやリファレンスコールを正確にベンチマークするためのオープンリソース。 Nat Biotechnol. 2019;37:561-566. doi:10.1038/s41587-019-0074-6
- Krusche P, Trigg L, et al. ヒトゲノムにおける生殖細胞系列の小バリアントコールのベンチマーキングのベストプラクティス。 Nat Biotechnol. 2019;37:555-560. doi:10.1038/s41587-019-0054-x
- Clarke L, Fairley S, et al. 国際ゲノムサンプルリソース(IGSR):1000ゲノムプロジェクトデータを組み込んだゲノムバリエーションの世界的なコレクション。 核酸 Res. 2017;45(D1):D854-D859. doi:10.1093/nar/gkw829
- Chen X, Sanchis-Juan A, et al. Spinal muscular atrophy diagnosis and carrier screening from genome sequencing data. Genet Med. 2020;22:945-953. doi:10.1038/s41436-020-0754-0
- Chen X, Shen F, et al. Cyrius:全ゲノムシーケンスデータを用いた正確なCYP2D6ジェノタイピング。 Pharmacogenomics J. 2021;21:251-261. doi:10.1038/s41397-020-00205-5