MegaBOLTバイオインフォマティクス解析によるMGI DNBSEQ-T7シーケンサーと、DRAGEN二次解析によるイルミナNovaSeq Xシリーズの比較。
重要なポイント
MGI DNBSEQ-T7シーケンシングプラットフォームとMegaBOLT v2.4.0ソフトウェアを使用したWGSと、NovaSeq XシリーズとDRAGEN v4.4ソフトウェアを使用したWGSを直接比較しました。この評価の結果、イルミナのソリューションは以下の点において優位であることが判明しました。
SNVおよびIndelエラーがMGIより8~12分の1に減少
GCリッチシーケンス、≥ 10塩基対のホモポリマー、ジヌクレオチドリピートやトリヌクレオチドリピートなど、困難なゲノム領域でもMGIと比較して高いカバレッジを維持
MGIと比較して、臨床研究に関連する遺伝子についてより多くの洞察を提供
イルミナシーケンシングとComplete Genomics/MGIシーケンシングの比較
NovaSeq Xシリーズは、次世代シーケンス(NGS)機能の革新と将来の手法の構築に対するイルミナの取り組みを示しています。[1] 生産規模でデータ集約型アプリケーションが可能なNovaSeq Xシリーズは、サイエンティストが新しい発見を行えるように支援します。2019年、Complete Genomics/MGIは、生産規模DNBSEQ-T7シーケンスプラットフォームを発売し、1日で60の全ヒトゲノムを非常に高い精度でシーケンスできると発表しました。[2] 実際に、いくつかの独立した研究では、DNBSEQ-T7シーケンスプラットフォームとNovaSeq Xシリーズの前身であるNovaSeq 6000システムの間で、同等のレベルのシーケンス品質とカバレッジが報告されています。NovaSeq [3][4] 性能と精度の主張を評価するために、イルミナはNovaSeq XシリーズとDRAGEN v4.4 二次解析(イルミナWGSソリューション)およびComplete Genomics/MGI DNBSEQ-T7シーケンスプラットフォームとMegaBOLT v2.4.0バイオインフォマティクスパイプライン(MGI WGSソリューション)を使用してWGSの比較解析を実施しました。この評価の結果から、イルミナWGSソリューションはより正確なバリアントコーリングを実現し、ゲノムの困難な領域でより包括的なカバレッジを提供し、MGi WGSソリューションよりも疾患の分子メカニズムに関するより多くの洞察を可能にすることが実証されました。
WGS評価試験デザイン
NA24385(HG002)リファレンスサンプル(Coriell Institute for Medical Researchから取得)から調製したライブラリーのシーケンスを行いました。イルミナWGSライブラリーは、製造業者の指示に従ってTruSeq DNA PCR-Freeを使用してイルミナで調製されました。ライブラリーはNovaSeq X PlusシステムでNovaSeq X 25B試薬を用い、2 × 151 bpのリード長を使用してシーケンスし、続いてDRAGEN v4.4 ソフトウェアを用いて二次解析を行いました。NA12878(HG001)対照試料用の追加のWGSライブラリーは、製造業者の指示に従ってTruSeq DNA PCR-Freeを使用してイルミナで調製されました。ライブラリーはNovaSeq X PlusシステムでNovaSeq X 1.5B試薬を用い、2 × 300 bpのリード長を使用してシーケンスし、続いてDRAGEN v4.4ソフトウェアを用いて二次解析を行いました(表1)。
別に、メーカーの指示に従ってDNBSEQ Fast PCR-Free FS Library Prep Kit v2.0を使用してMGIライブラリーを調製するシーケンスコアラボにサンプルを提出しました。さらに、TruSeq DNA PCR-Freeライブラリーは、メーカーの指示に従ってDNBSEQ Universal Library Conversion Kitを用い、DNBSEQ-T7シーケンサーと互換性があるように変換されました。 すべてのライブラリーはDNBSEQ-T7プラットフォームでシーケンスされ、MegaBOLT v2.4.0(GATK 4.1.8.1_MGI-2.8.2-hc)ソフトウェアまたはMegaBOLT v2.4.0(DeepVariant)ソフトウェア(表1)を使用して、解析が行われました。
すべてのデータセットは、重複を除去する前に35×のカバレッジ深度までダウンサンプリングされ、同じ入力塩基数に対してプラットフォーム間で公平に比較できるようにしました。
表1:直接比較のための実験デザイン
NovaSeq XシリーズとDRAGENソフトウェアによるバリアントコール精度の向上
米国国立標準技術研究所(NIST)Genome in a Bottle(GIAB)ベンチマークは、WGSおよびバリアントコーリング解析ツールの精度と性能を評価するために広く使用されています。NIST v4.2.1ベンチマークは、7つのヒトゲノムにわたる1塩基変異(SNV)と小さな挿入・欠失(indel)に対する信頼性の高いジェノタイプコールを提供します。[5] さらに、NIST Challenging MedicallyRelevant Genes(CMRG)ベンチマークは、セグメント重複、低マッパビリティ領域、および反復配列など、困難なゲノム状況における位置のためにv4.2.1から大きく除外される273の臨床的に重要な遺伝子に対処するために開発されました。[6]
DRAGEN v4.4ソフトウェアを使用したNovaSeq Xシリーズのバリアントコール性能を、MegaBOLT v2.4.0ソフトウェアを使用したDNBSEQ-T7シーケンスプラットフォームと比較しました。MGI WGSソリューションは、NIST v4.2.1ベンチマーク(図 1A)に対して評価した場合、イルミナWGSソリューションよりも8~12倍多くのSNV +indelエラーが生じ、NIST CMRGベンチマーク(図1B)に対しては4~6倍多くのSNV + indelエラーが生じました。注目すべきことに、MGIソリューションでは、HLA-A、[7]TUBB8、[8]およびPDE4D、[9]などの臨床研究に関連する遺伝子のバリアントコーリングエラーが、イルミナソリューションと比較して多く発生しました(図2)。
MGI DNBSEQシーケンステクノロジーは、シーケンスのためにMGIプラットフォームにロードされる線形DNAライブラリーからDNAナノボール(DNB)を作製することに基づいています。MGIプラットフォームで非DNBSEQライブラリーのシーケンスを行いたい研究者のために、MGIはDNBSEQ Universal Library Conversion Kitを提供しています。DNBSEQライブラリー変換にはアダプター変換PCR増幅ステップが含まれており、エラーやゲノムカバレッジバイアスが生じる可能性があります。DNBSEQ-T7プラットフォーム上で変換およびシーケンスされたIllumina TruSeq DNA PCR-Freeライブラリーのバリアントコール精度を評価しました。予想どおり、DNBSEQライブラリー変換により、NIST 4.2.1(図1A)および NIST CMRG ベンチマーク(図1B)に対して評価した場合、Indelエラーが5倍、総エラーが2倍に増加しました。
図1:MGI WGSソリューションを使用したバリアントコーリングでは、エラーが有意に多い ― MegaBOLTv2.4.0ソフトウェアを使用したDNBSEQ-T7シーケンスプラットフォームでは、DRAGENv4.4ソフトウェアを使用したNovaSeq Xシリーズと比較して、SNV+ Indelのバリアントコーリングにおけるエラーが、(A)NISTv4.2.1ベンチマークに対して評価した場合は8~12倍多く、(B)NIST CMRGベンチマークに対して評価した場合は4~6倍多くなりました。イルミナのライブラリーをDNBSEQ-T7で実行できるように変換すると、(A)NIST 4.2.1ベンチマークおよび(B)NIST CMRGベンチマークに対して評価した場合、DNBSEQ-T7 上で実行した DNBSEQ ライブラリーと比較して、Indelエラーが5倍、総エラーが2倍多くなりました。バリアントコーリングエラーは、偽陽性の数(ベンチマークに存在しないバリアントがコールされる)および偽陰性(ベンチマークに存在するバリアントがコールされない)の数として定義されます。レプリケート間の中央値を報告しました。
図2:MGI WGSソリューションを使用したバリアントコーリングにおけるエラーの増加─ MegaBOLT v2.4.0ソフトウェアを使用したDNBSEQ-T7シーケンスプラットフォームによるMGIネイティブライブラリのシーケンスでは、イルミナソリューションと比較して、臨床研究に関連する遺伝子におけるバリアントコーリングエラーが増加しました。4730遺伝子からなるこのセットは、信頼できる臨床データベースから疾患関連遺伝子をまとめ、ClinVar、[10]DECIPHER、[11]COSMIC、[12]Genomics England PanelApp、[13]などを含め、臨床研究の共同研究者が強調した追加の遺伝子を組み込むことで構築しました。
NovaSeq Xシリーズソリューションによるゲノムカバレッジの向上
困難なGCリッチ領域における両方のシステムの性能を評価しました。その結果、MGI WGSソリューションによる相対的なゲノムカバレッジは、イルミナWGSソリューションと比較して、GC含量> 60%で低下し、GCリッチ領域(> 80%)では大幅に低下しました(図3)。さらに、G-クアドルプレックス、ホモポリマー ≥ 10 bp、ジヌクレオチドリピート、トリヌクレオチドリピートなどのシーケンスが難しいゲノム領域では、DNBSEQ-T7ソリューションではイルミナソリューションと比較してカバレッジ損失が最大30%発生し、バリアント検出精度を損ない、コールの信頼性を低下させ、臨床研究における遺伝子、特にリピート、Indel、構造バリアントにおける重要な変異を見逃すリスクを高める可能性があります(図4)。[14-16]DNBSEQ-T7ソリューションによるゲノムカバレッジの低下は、MGIライブラリーと変換されたTruSeq DNA PCR-Freeライブラリーで見られました(図3および4)。これらの領域のカバレッジが限られていると、疾患関連遺伝子が省略され、その後の解析と解釈の信頼性が低下する可能性があります。その一例として、KMT2A(リジンメチルトランスフェラーゼ2A)遺伝子があり、これは初期の発達と造血中に機能する転写共役因子をコードしています。KMT2A遺伝子の変異は、Wiedmann-Steiner症候群およびいくつかの白血病型と関連しています(図5)。[17-19]
図3:MGI WGSソリューションによるGCリッチ領域でのカバレッジ低下 ─ WGSでMGIネイティブライブラリーおよび変換TruSeq DNA PCR-FreeライブラリーをDNBSEQ-T7ソリューションで測定したところ、ゲノムの反復的でGCリッチな領域におけるカバレッジの損失が、NovaSeq XシリーズでのWGSと比較して認められました。ノーマライズされたカバレッジは、データがサンプルまたは条件間で比較可能であることを保証するためにプロットされ、特定の位置でのリード深度をゲノムの平均カバレッジで割って計算されます。
図 4:DNBSEQ-T7ソリューションによるシーケンスが難しい領域でのカバレッジ低下 ─ WGSでMGIネイティブライブラリーおよび変換TruSeq DNA PCR-FreeライブラリーをDNBSEQ-T7ソリューションで測定したところ、NovaSeq Xシリーズと比較して、シーケンスが難しい領域におけるカバレッジが有意に低下しました。
図5:MGI WGSソリューションによるKMT2A遺伝子のカバレッジの喪失 ─ DNBSEQ-T7プラットフォームでMGIネイティブライブラリーをシーケンスした結果、NovaSeq XシリーズでのWGSと比較して、KMT2A遺伝子など、GC含有量の高い疾患関連遺伝子のカバレッジが喪失しました。
NovaSeq Xシリーズによるエラー率の低減がイノベーションを促進
NovaSeq Xシリーズのシーケンスでは、DNBSEQ-T7シーケンスプラットフォームと比較して、リード1およびリード2全体のエラー率が低減しました(図6)。エラー率の低下により、シーケンスリード長を300サイクルまで延長できるため、NovaSeq Xシリーズでより多くのアプリケーションを実行できます。
図6:DNBSEQ-T7シーケンスプラットフォームと比較して、NovaSeq Xシリーズではシーケンスリード全体のエラー率が減少 ─ 平均インサートサイズ550 bpのTruSeq DNA PCR-FreeライブラリーをNovaSeq Xシリーズでシーケンスした結果、DNBSEQ-T7シーケンスプラットフォームと比較して、リード1およびリード2全体のエラー率が、リード長300 bpまで低減しました。
まとめ
NovaSeq XシリーズをDRAGENソフトウェアで、またDNBSEQ-T7シーケンスプラットフォームをMegaBOLTソフトウェアで評価した結果、イルミナのIlWGSソリューションは、Complete Genomics/MGI WGSソリューションと比較して優れた性能を示しました。イルミナのソリューションは、より高い精度を提供し、生物学的洞察をもたらすために困難な領域を含むゲノム全体にわたる包括的なカバレッジを提供して、生物学的に関連する遺伝子に関する洞察を提供します。
イルミナは、27年にわたる専門知識を持つゲノミクスの信頼できるグローバルリーダーであり、包括的なサポートとクラス最高の製品の一貫性を提供し続け、NGSソリューションの標準を確立しています。NovaSeq XシリーズとDRAGEN二次解析ソリューションは、あらゆる規模の包括的なWGSに精度と品質を提供します。
関連リンク
WGSについてご質問がありますか?
イルミナのプラットフォームとUltima Genomicsの比較についてご質問がありますか? 総所有コストの決定をお手伝いし、お客様のセットアップに最適なソリューションを提案します。
参考文献
- Illumina. 25 greatest impacts in 25 years: Illumina and the evolution of genomics. illumina.com/company/news-center/feature-articles/25-greatest-impacts-in-25-years--a-look-back-at-illumina-and-the.html. Published April 3, 2023. Accessed November 20, 2025.
- MGI. MGI Tech Complete Genomics, part of MGI, Announces Next-Generation Sequencing Platforms at ASHG Annual Meeting. global-mgitech.com/mgi-tech-complete-genomics-part-of-mgi-announces-next-generation-sequencing-platforms-at-ashg-annual-meeting/ Published October 25, 2022. Accessed November 20, 2025.
- Jeon SA, Park JL, Park SJ, et al. Comparison between MGI and Illumina sequencing platforms for whole genome sequencing. Genes Genomics. 2021;43(7):713-724. doi:10.1007/s13258-021-01096-x
- Kim HM, Jeon S, Chung O, et al. Comparative analysis of 7 short-read sequencing platforms using the Korean Reference Genome: MGI and Illumina sequencing benchmark for whole-genome sequencing. Gigascience. 2021;10(3):giab014. doi:10.1093/gigascience/giab014
- Wagner J, Olson ND, Harris L, et al. Benchmarking challenging small variants with linked and long reads. Cell Genom. 2022;2(5):100128. doi:10.1016/j.xgen.2022.100128
- Wagner J, Olson ND, Harris L, et al. Curated variation benchmarks for challenging medically relevant autosomal genes. Nat Biotechnol. 2022;40(5):672-680. doi:10.1038/s41587-021-01158-1
- Howell WM. HLA and disease: guilt by association. Int J Immunogenet. 2014;41(1):1-12. doi:10.1111/iji.12088
- Sferra A, Petrini S, Bellacchio E, et al. TUBB Variants Underlying Different Phenotypes Result in Altered Vesicle Trafficking and Microtubule Dynamics. Int J Mol Sci. 2020;21(4):1385. Published 2020 Feb 18. doi:10.3390/ijms21041385
- Das S, Roy S, Munshi A. Association between PDE4D gene and ischemic stroke: recent advancements. Int J Neurosci. 2016;126(7):577-583. doi:10.3109/00207454.2015.1051621
- Landrum MJ, Chitipiralla S, Brown GR, et al. ClinVar: improvements to accessing data. Nucleic Acids Res. 2020;48(D1):D835-D844. doi:10.1093/nar/gkz972
- Foreman J, Brent S, Perrett D, et al. DECIPHER: Supporting the interpretation and sharing of rare disease phenotype-linked variant data to advance diagnosis and research. Hum Mutat. 2022;43(6):682-697. doi:10.1002/humu.24340
- Sondka Z, Dhir NB, Carvalho-Silva D, et al. COSMIC: a curated database of somatic variants and clinical data for cancer. Nucleic Acids Res. 2024;52(D1):D1210-D1217. doi:10.1093/nar/gkad986
- Stark Z, Foulger RE, Williams E, et al. Scaling national and international improvement in virtual gene panel curation via a collaborative approach to discordance resolution. Am J Hum Genet. 2021;108(9):1551-1557. doi:10.1016/j.ajhg.2021.06.020
- Chen H, Wang B, Cai L, et al. The performance of homopolymer detection using dichromatic and tetrachromatic fluorogenic next-generation sequencing platforms. BMC Genomics. 2024;25(1):542. Published 2024 May 31. doi:10.1186/s12864-024-10474-0
- Jeanjean SI, Shen Y, Hardy LM, et al. A detailed analysis of second and third-generation sequencing approaches for accurate length determination of short tandem repeats and homopolymers. Nucleic Acids Res. 2025;53(5):gkaf131. doi:10.1093/nar/gkaf131
- Hijikata A, Suyama M, Kikugawa S, et al. Exome-wide benchmark of difficult-to-sequence regions using short-read next-generation DNA sequencing. Nucleic Acids Res. 2024;52(1):114-124. doi:10.1093/nar/gkad1140
- Feldman HR, Dlouhy SR, Lah MD, Payne KK, Weaver DD. The progression of Wiedemann-Steiner syndrome in adulthood and two novel variants in the KMT2A gene. Am J Med Genet A. 2019;179(2):300-305. doi:10.1002/ajmg.a.60698
- Forgione MO, McClure BJ, Eadie LN, Yeung DT, White DL. KMT2A rearranged acute lymphoblastic leukaemia: Unravelling the genomic complexity and heterogeneity of this high-risk disease. Cancer Lett. 2020;469:410-418. doi:10.1016/j.canlet.2019.11.005
- Shimony S, Luskin MR. Unraveling KMT2A-rearranged ALL. Blood. 2023;142(21):1764-1766. doi:10.1182/blood.2023021942