Illuminaでは、イノベーションと研究は科学的アクセス、データ、コミュニティへの取り組みと整合しており、ゲノミクスの最新の進歩をユーザーに提供するために努力を続けています。HP Advanced Custom Recipeがダウンロード可能になりました。当社の研究チームは、読み取りにくい領域のシーケンスを改善するため、標準クラスター化プロトコールを変更して、このレシピを開発しました。HP Advanced Custom Recipeは、研究目的で特定のクラスの反復シーケンスでより高いバリアントコール性能を必要とするユーザーの興味を惹く可能性があるため、当社の Advanced Research Protocolsポータルでリリースされました。
HP Advanced Custom Recipeは、NextSeq 2000 P3およびP4 XLEAP-SBS試薬キットでテストされており、反復配列(ホモポリマー)やジヌクレオチド モチーフに関連するエラーや見逃しを大幅に削減することが実証されています。
重要なお知らせ
Advanced Research Protocolsポータルを通じてリリースされたシーケンスレシピ、スクリプト、およびプロトコールは、イルミナの研究開発サイエンティストによって開発およびテストされていますが、正式な製品開発プロセスを経ていません。その結果、これらのプロトコールを使用する場合、正式な仕様が適用されない場合があります。つまり、報告されたQ30スコア、出力、およびランタイムは装置の仕様によって異なる場合があります。ここに記載されているイルミナ製品は、 診断手順での使用ではなく、研究目的での使用のみを目的としています。Illumina Researchスクリプトのサポートは、イルミナの標準サービスプランの対象ではありませんが、一部のオンデマンドサービスが利用できる場合があります。詳細については、イルミナの販売担当者にお問い合わせください。
ホモポリマーとジヌクレオチド リピートの関連性
ホモポリマーは単一の核酸の反復単位(例、AAAAAAAAAAA)であり、ジヌクレオチド リピートは2つの核酸の反復単位(例、ATATATATAT)です。反復シーケンスは、ゲノム内での複雑性、異質性、移動性、重複性が低いため、アライメントやバリアントコールに課題が生じる可能性があります。1,2これらのコンテキストでのシーケンスアーティファクトは、ミスマッチ率が高く、ソフトクリッピングが増加するという特徴があり、バリアントコールの性能に悪影響を及ぼす可能性があります。3,4 Illumina DRAGEN二次解析ソフトウェアは、バリアントコールの速度と精度を実現し、反復シーケンスによって生じる課題に対処する特殊な方法を組み込んでいます。5,6
カスタムレシピに関連する配列コンテキストの重要性を評価するために、これらの配列コンテキストに基づいたゲノムの層別化を、ClinVarデータベース(2024年8月25日版)と照合しました。表1には、ゲノム内におけるホモポリマー、ジヌクレオチド リピート、および関連する隣接領域のサイズと、ClinVarに登録された生殖細胞系病原性および病原性が疑われる変異(レビュー評価が2つ星以上)の各層別化における密度が詳細に記載されています。ホモポリマー リピートとジヌクレオチド リピートは、ゲノム平均よりもClinVarバリアントの密度が低くなりますが、全体では合計1205です。
層別化 | 定義 | 領域サイズ(ゲノムの%) | ClinVar P+LP 2+バリアントの数 | ClinVar P+LP 2+バリアントの密度 (Mbあたりのバリアント) |
---|---|---|---|---|
ホモポリマー(≧ 10 bp) | 長さ ≧ 10 bpの完全ホモポリマー | 0.50% | 73 | 5.1 |
ホモポリマーフランク領域(50 bp) | 長さ ≥10 bpの完全ホモポリマーに隣接する50 bp領域 | 3.27% | 693 | 7.4 |
ジヌクレオチド リピート ≥5 | サイズ ≥5 のジヌクレオチド モチーフの完全リピート | 0.30% | 59 | 6.8 |
ジヌクレオチドリピートの隣接領域(50 bp) | サイズ ≥5 のジヌクレオチド モチーフの完全リピートに隣接する50 bp領域 | 1.53% | 380 | 8.6 |
エクソーム | すべてのエクソン | 3.3% | 59,450 | 616.8 |
ゲノムワイド(オートソーム) | すべての常染色体(chr1-chr22) | 100% | 66,016 | 23.0 |
レシピはどのように機能するのですか?
HP Advanced Custom Recipeの性能を評価するために、まずPCRフリーの全ゲノムシーケンスを用いて NA24385(HG002)を評価しました。NA24385は、Genome in a Bottleコンソーシアムによって十分に特徴付けられたヒト細胞株サンプルであり、 ベンチマーキングの目的で使用できる小さなバリアントの真理値セットを生成しました。5
TruSeq DNA PCR-Freeライブラリー調製キットを用いてNA24385(HG002)の複製を調製し、NextSeq 2000 P4 XLEAP-SBS試薬を用いて2x151 bpのリード長でシーケンスしたライブラリーを調製しました。HP Advanced Custom Recipeで実行される3回のランと、NextSeq 1000/2000 Control Software Suite v1.7.1で利用可能なデフォルトのレシピで実行される3回のランでライブラリーのシーケンスを行いました。次に、バリアントコーリングを比較するために30×カバレッジにダウンサンプリングした後、DRAGEN Germline v4.3.6ワークフローでシーケンスデータを解析しました。3回のHP Advanced Custom Recipeランの平均ランメトリクスを表2に示します。
HP Advanced Custom Recipe with XLEAP-SBS P4試薬キット(300サイクル)c | NextSeq 1000/2000 XLEAP-SBS P4試薬キット(300サイクル)仕様a,b,c | |
---|---|---|
ランあたりのパスフィルターリード数 | 1.76 B | 1.8 B |
出力(Gb) | 515 Gb | 540 Gb |
クオリティスコア | 91.39% ≥Q30 | 90% ≥Q30 |
ランタイム | 47時間、27分 | 44時間 |
a. 出力仕様は、サポート対象のクラスター密度でのイルミナPhiXコントロールライブラリーに基づきます。
b. クオリティスコアはイルミナPhiXコントロールライブラリーを用いた条件に基づきます。パフォーマンスはライブラリータイプやクオリティ、インサートサイズ、ローディング濃度、およびその他の実験要因に応じて変わることがあります。
c. ランタイムには、クラスター形成、シーケンス、およびベースコールが含まれます。
ホモポリマー分解能
ホモポリマー領域の正しい分解能を調べるために、シーケンスされたリードで報告されたホモポリマー長の精度を計算しました。精度計算から潜在的なバリアントを除外するために、真のバリアントから>50 bp離れたNIST 4.2.1の真理値セットの信頼できる領域に存在するホモポリマーのみを検討しました。これらのホモポリマーについては、イベント全体にわたるリードで報告された長さを、ヒト参照GRCh38の長さと比較し、精度指標を算出しました。この評価では、XLEAP-SBS Standard RecipeとHP Advanced Custom Recipeの両方で、短いホモポリマー(< 10 bp)の高い精度が示されました。シーケンス技術が困難な長いホモポリマーの場合、HP Advanced Custom RecipeはXLEAP-SBS Standard Recipeと比較して、精度を大幅に改善しました。

図1:ホモポリマー長別のホモポリマー長精度:XLEAP-SBS Standard Recipeで3回のランでシーケンスされたライブラリーの性能は青色、HP Advanced Custom Recipeで3回のランでシーケンスされたライブラリーの性能はオレンジ色で表示されます。
バリアントコール性能
DRAGEN 4.3.6マルチゲノム(グラフ)アライナーで呼び出された小さなバリアントの分析感度と特異性を、NIST 4.2.1ベンチマークセットと比較して測定しました。バリアントコーリングエラーは、ホモポリマー ≥ 10 bp領域および50 bp隣接領域、ジヌクレオチド リピート≥ 5領域および50 bp隣接領域で、ゲノム全体で示されています。
平均すると、カスタムレシピは小規模変異のエラーを8%削減し、低複雑性領域でも一貫した効果を発揮します。特に、ホモポリマーと側面の解像度の向上の影響は、これらの領域の69%しかカバーしていないNIST 4.2.1ベンチマークでは部分的にしか実証できません。

図2:DRAGEN 4.3.6でバリアントコールされ、NIST 4.2.1ベンチマークに対して測定された小さなバリアント

図3:DRAGEN 4.3.6でコールされたバリアントは、10 bp以上のホモポリマーと50 bpの隣接領域でNIST 4.2.1ベンチマークに対して測定されました。

図4:DRAGEN 4.3.6でコールされた小さなバリアントは、ジヌクレオチド リピート≥ 5リピートおよび50 bpの隣接領域でNIST 4.2.1ベンチマークに対して測定されました
バリアントコールのサポート向上の例
図 5~7は、NA24385 (HG002) ゲノム内の真のバリアントの位置の例を示しています。HP Advanced Custom Recipeにより、ホモポリマーとジヌクレオチド リピートの解像度が向上し、正しいバリアントコールが可能になりました。

図5:RARS2遺伝子のホモポリマーの末端にあるヘテロ接合性CA>A欠失は、不十分な読み取りサポートのため、XLEAP-SBS標準レシピでは検出されません。HP Advanced Custom Recipeでシーケンスされたリードは、ホモポリマーの長さの精度が高く、バリアントの正しいコールが可能になります。

図6:XLEAP-SBS Standard Recipeでは、リードサポートが不十分であるため、長いジヌクレオチドリピートの開始時にヘテロ接合性A>ATG挿入が見逃されます。HP Advanced Custom Recipeでシーケンスされたリードは、両鎖上の挿入の存在をサポートし、バリアントの正しいコールが可能になります。

図7:ホモポリマーの開始時のマルチアリルCTTT>CTT,C欠失は、XLEAP-SBS Standard RecipeシーケンスデータとHP Advanced Custom Recipeシーケンスデータの両方によりコールされますが、XLEAP-SBS標準レシピのリードではノイズが多いため、このデータではCTTT>CTTアリルのみが検出され、欠失は誤って遺伝子型判定されます。X HP Advanced Custom Recipeデータにより、両アリルの検出と正しいジェノタイピングが可能になります。
HP Advanced Custom Recipeへのアクセス方法
HP Advanced Custom Recipeは、NextSeq 2000 P3およびP4 XLEAP-SBS試薬キットでのみテストされており、これらのキットとのみ互換性があります。現在、他のプラットフォームやキット構成では利用できません。シーケンスランのカスタムレシピを有効にするには、Advanced Research Protocolsウェブページにアクセスして レシピファイルをダウンロードしてください。
参考文献
1. Liao X, Zhu W, Zhou J, et al. Repetitive DNA sequence detection and its role in the human genome(反復DNAシーケンス検出とヒトゲノムにおけるその役割)。Commun Biol. 2023;6(954). doi:10.1038/s42003-023-05322-y
2. Rajan-Babu I-S, Dolzhenko E, Eberle MA, Friedman JM. Sequence composition changes in short tandem repeats: heterogeneity, detection, mechanisms and clinical implications(短いタンデムリピートにおけるシーケンス組成の変化:不均一性、検出、メカニズム、臨床的な意味). Nat Rev Genet. 2024;25:476-499. doi:10.1038/s41576-024-00696-z
3. Singer-Berk M, Gudmundsson S, Baxter S, et al. Advanced variant classification framework reduces the false positive rate of predicted loss-of-function variants in population sequencing data(高度なバリアント分類フレームワークは、集団シーケンスデータにおける予測機能喪失バリアントの偽陽性率を低減). Am J Hum Genet. 2023;110(9):1496-1508. doi:10.1016/j.ajhg.2023.08.005
4. Stoler N, Nekrutenko A. Sequencing error profiles of Illumina sequencing instruments(イルミナシーケンス装置のシーケンスエラープロファイル). NAR Genom Bioinform. 2021;3(1). doi:10.1093/nargab/lqab019
5. Behera S, Catreux S, Rossi M, et al. Comprehensive and accurate genome analysis at scale using DRAGEN accelerated algorithms(DRAGEN 高速化アルゴリズムを使用した大規模で包括的かつ正確なゲノム解析). Nat Biotechnol. 2024. 2024年10月25日発行。doi:10.1038/s41587-024-02382-1
6. Illumina. Fully featured genome: Expanding the hunt for genomic variation with DRAGEN STR(全機能ゲノム:DRAGEN STRでゲノムバリエーションの探索を拡大).illumina.com/science/genomics-research/articles/str-expansionhunter.html 2022年10月10日発行。2024年9月13日にアクセス。
7. National Institute of Standards and Technology. Genome in a Bottle. nist.gov/programs-projects/genome-bottle. 2024年9月13日にアクセス。