DRAGENの全ゲノムシーケンスで高い相同性を克服してCYP21A2のバリエーションを検出する

Jonathan R. Belyeu, Fabian Klötzl, Eric Roller, Emma Newman, Vitor Onuchic, and Mitchell Bekritsky; published June 6, 2023

まとめ

  •  CYP21A2 遺伝子の両アリル不活性化は、重篤で潜在的に生命を脅かす疾患である常染色体潜性先天性副腎過形成(CAH)を引き起こします。
  • CYP21A2 は6番染色体の大きな多遺伝子重複セグメント内に存在し、非常に近い配列相同性により、ヒト集団を横断して高レベルのゲノム不安定性を生じさせます。
  • この相同性と集団の複雑性の両方が、標準的なDNAシーケンス手法に重大な干渉を引き起こします。
  • 当社は、全ゲノムシーケンス(WGS)を使用して、この領域の小規模バリアントやゲノム再構成に対する高い感度と特異性を持つターゲットコーラーを開発し、DRAGENに組み込みました。
  • このソフトウェアは、CAHの研究を促進し、ヒトの健康において CYP21A2 のバリアントが果たす役割の理解を深めます

はじめに

RCCXにおけるCYP21A2:MHCクラスIII領域における30,000塩基のセグメント重複

CYP21A2は、コルチゾールおよびアルドステロンホルモンの副腎制御を助けるチトクロームP450酵素である21-Hydroxlyaseをコードしています。1,2これらのホルモンは、腎臓の塩分保持の制御など、多くの役割を果たします。CYP21A2の不活性化は、21-Hydroxlyase CAH症例の95%を占めており3、次の3つの形態のうち1つを取ることができます。

  • 塩分喪失性CAHは最も重症型で、CYP21A2の完全欠損によりアルドステロン合成レベルが非常に低くなり、ナトリウムの貯留が減少します。症状は、脱水、下痢、嘔吐、副腎クリーゼなど非常に重度であり、死亡に至る可能性があります4。コルチゾール濃度の低下も発育上の役割を果たし、男性化につながる可能性があります5
  • 単純男性化型CAHは、完全な遺伝子欠損のないCYP21A2活性の低下によって引き起こされる、より中程度の病型です。この病型は、一般的に最も重度で生命を脅かす症状を回避しますが、通常は男性化や発達上の課題を呈します6
  • 非古典型CAVという病型もあり、単純男性化型CAHと同様の症状を伴います。非古典型CAVは、アルドステロンとコルチゾールホルモンの濃度が高いことを特徴とし、症状の重症度が軽度になります7。表現型への影響が少ないため、非古典CAVは診断がより困難になります。
図1. RCCXセグメント重複構造。

ほとんどのゲノムには30 kb RCCX領域の2つのコピーが含まれています。遺伝子ラベル下の黒いベルトで示されています。CYP21A2は約3 kbの長さで、RCCXの2番目のコピー内にあります。ヒトの健康に影響を与えるその他の遺伝子であるC4A, C4B、TNXBも、それぞれリピート領域内に完全または部分的に存在しています。

CYP21A2は、主要組織適合性複合体(MHC)クラスIII領域にある30 kbのセグメント重複内にあります8。リピートは通常RCCXと呼ばれ、以下の4つの遺伝子の一部またはすべてを含みます。STK19C4A/C4BCYP21A2TNXB9。RCCXリピートは、ほぼ同一のシーケンスを持つ2つのモジュールとしてカノニカルに存在します(図1)。最初のモジュールには、STK19遺伝子の末端、活性C4A遺伝子、および2つの不活性偽遺伝子 (CYP21A1PおよびTNXA)が含まれます。2つ目のモジュールには、C4BCYP21A2、およびTNXBの終末が含まれます。これらはすべてヒトの健康に重要な役割を果たす活性遺伝子です10–12

RCCX領域の配列相同性が高いと、非アレル相同組み換え率も高くなります9,13。これらの組み換えイベントは、リピート内のどの時点でも発生する可能性があります(図2)。組み換えイベントのブレークポイントがCYP21A2の領域内にある場合、偽遺伝子のシーケンスの一部と遺伝子のシーケンスの一部でキメラ遺伝子融合が形成されます。遺伝子と偽遺伝子の配列の類似性が約98%であるにもかかわらず14、これらのキメラ融合遺伝子は、偽遺伝子から遺伝子へのいくつかの小規模バリアントの導入によって、部分的または完全に不活化される可能性があります。これらは部分的な遺伝子変換とみなされることがあります。また、CYP21A2は、おそらく合成の切断修復中にテンプレートが入れ替わることによって、部分的遺伝子シーケンスのよりカノニカルな遺伝子変換バリアントの影響を受けます15

図2. RCCX領域の組み換え。

RCCXモジュールのコピー間の相同的組み換えは、リピート内に可変の境界を持ち、領域の欠失または重複をもたらす可能性があります。その組み換えのブレークポイントがCYP21A2遺伝子内で発生する場合、キメラ遺伝子融合は、遺伝子の一部とほぼ同一の偽遺伝子CYP21A1Pの一部で作成されます。

遺伝子外で欠失の組み換えブレークポイントが発生すると、結果として生じるキメラRCCXモジュールから完全に削除され、CYP21A1Pのみが残る可能性があります。このヘテロ接合性CYP21A2欠失は、キャリアステータスを生じさせ、後に別の欠損対立遺伝子と共遺伝すると、表現型の影響をもたらします。

その他の小規模バリアント(単一ヌクレオチドおよび挿入/欠失イベント)もCYP21A2活性の低下につながる可能性があります16。これらのバリアントは、配列が偽遺伝子と同一の遺伝子の領域で発生するため、バリアント検出が非常に困難になります。これは、遺伝子または偽遺伝子のいずれかからシーケンスされたリードには、識別マーカーがないためです。つまり、それらはアライメントでランダムに割り当てられ、リピートの間違ったコピー中に配置される可能性があります。その結果、どちらの座位でもバリアントのエビデンスが弱く曖昧になり、バリアントコールの見逃しや信頼度の低下につながる可能性があります。これらのリードには遺伝子変換部位に代替RCCXモジュールからのアリルが含まれ、誤ったコピーに優先的にマッピングされる可能性があるため、遺伝子変換バリアントの検出はさらに困難になる可能性があります。

この要因の組み合わせは、ヒトの健康研究におけるCYP21A2のバリアント探索の影響にもかかわらず、以前はWGSデータを用いる場合、非常に困難または不可能な課題でした。DRAGEN CYP21A2コーラーは、配列相同性の課題を克服し、ここで説明した小規模バリアント、遺伝子変換、組み換え由来の全遺伝子欠失の3つのタイプのバリエーションをすべて発見します。

手法

DRAGEN CYP21A2のターゲットコーラーは、全RCCX領域のコピー数を特定し、組み換えCYP21A1P -CYP21A2遺伝子融合を報告し、遺伝子または偽遺伝子のいずれかに存在する33の小規模バリアントを検出します。これらのバリアントコールでは、ClinVar17で病原性または病原性の可能性として注釈が付けられ、複数の提出者がいるすべてのCYP21A2バリアントがコールに含まれます。

合計RCCXコピー数。DRAGEN CYP21A2コーラーは、セグメント重複の両方のコピーに属するリードをカウントすることで、RCCX領域全体のコピー数をカウントします。ほとんどの場合、配列相同性が高いため、リードはどちらのリピートにも明確にマッピングすることはできませんが、いずれのコピーにも配置されたすべてのリードをカウントすることで、両方の領域の合計コピー数を非常に正確に測定することができます。コピー数コーリングに使用される領域は、RCCX領域のほとんどをカバーしますが、すべてをカバーするわけではありません。この領域は、C4AC4Bの両方のイントロンにおける6.4 kbの多型HERV-Kレトロトランスポゾンの後に始まり、CYP21A2遺伝子全体を含むTNXAにおける120 bpの欠失まで下流に20 kbまで広がります。したがって、RCCXのコピー数をコールするサブ領域は、非アリル相同組み換えイベント(RCCXのコピー全体に影響を与える長さは30 kb)に達するのに十分な大きさです。リードカバレッジは、二倍体コピー数が一貫して高く、事前に選択された3,000の2 kbゲノム部位のパネルに対するノーマライゼーションにより、GC含量に対して補正されます。このノーマライズされたコピー数は、RCCXセグメント重複のコピー数の合計を正確に推定したものです。

組み換えバリアント検出。コーラーは、CYP21A2全体の18部位のパネルを使用して、CYP21A1Pおよび活性CYP21A2間の遺伝子融合を検出します。これらは、遺伝子と偽遺伝子のシーケンスが異なる部位です。15のタンパク質改変遺伝子変換バリアントと7つの非タンパク質改変部位が含まれます。

組み換えバリアントを同定するには、ゲノム内で発生するハプロタイプを検出する必要があります。そのために、コーラーは18の分化部位バリアントのセットにまたがるリードを収集します。複数の部位にまたがるリードは、領域全体にわたり接続されたハプロタイプを構築するために使用されます(図3)

図3:DRAGEN CYP21A2組み換えバリアント検出戦略。

遺伝子と偽遺伝子が異なる部位を含むリードを収集し、遺伝子の5’末端、中心、3’末端から部分的ハプロタイプに組み立てます。部分的ハプロタイプは、その後、遺伝子領域全体に及ぶ最終的かつ完全なハプロタイプに組み立てられます。遺伝子-対立遺伝子から偽遺伝子-対立遺伝子シーケンスの結果として生じるハプロタイプ内の移行は、完全なキメラ遺伝子融合またはより小さな遺伝子変換イベントのいずれかを示す可能性があります。

ターゲット化した小規模バリアント検出。遺伝子と偽遺伝子のシーケンスが同一である既知の33部位のセットに、その他の有害なバリエーションが検出されています。これらの各部位の遺伝子または偽遺伝子にアライメントしたリードが収集されます。リファレンスアリルを含むリード数、および有害な代替アリルをサポートするリード数はカウントされ、報告されます。次に、リードは、遺伝子または偽遺伝子のいずれかに病原性アリルの有無を示す証拠として使用されます。

結果

CAH症例、キャリア、および健康ゲノムなど、1000 Genomes Project(1 KG)からの幅広いゲノムの選択に対し、DRAGEN CYP21A2コーラーをテストしました18

Radboud UMCからのCAC症例(N=16、症例):Radboud University Medical Centerの共同研究者は、サンガーシーケンスまたはマルチプレックスライゲーション依存性プローブ増幅(MLPA)による検証により、CAH症例16例のWGSデータを共有しました。これらの各症例ゲノムにおいて、DRAGEN CYP21A2コーラーはRCCXの全コピー数と、小規模バリアント、完全な遺伝子欠失、および不活性化遺伝子変換を含む病原性バリアントを検出することができました(表1)

表1 CAH症例16例におけるDRAGEN CYP21A2コーラーの結果の要約。

各ゲノムにおいて、DRAGENは原因アレルとRCCXコピー数の合計を報告しました。DRAGENコールは各症例でMLPA/サンガーの結果と一致しました。すべてのバリアントIDは、NM_000500.9転写産物にそれぞれ対応しています。

Coriell Instituteの細胞株(N = 4、症例およびキャリア):また、Coriell Institute for Medical ResearchからのMLPAまたはCYP21A2バリアントのロングレンジPCRによる確認により、4つのシーケンスされた細胞株を使用してDRAGEN CYP21A2コーラーのテストも実施しました。これらには、発端者であるNA14734がCAHの重度の塩分喪失型によって影響を受けたトリオが含まれていました。これは、MLPA検証によって証明されたように、RCCXセグメント重複の2つのコピーが完全に欠失し、CYP21A2が完全に消失したことが原因でした。MLPAはまた、両親がCYP21A2欠失のキャリアであることも明らかにし、発端者の有害な遺伝型の継承が明らかになりました。

DRAGENは、トリオにこれらの各遺伝型を同定し、RCCXモジュールの削除によって生成されたハプロタイプと、各家族メンバーのRCCXコピー総数を報告しました。DRAGENが報告したハプロタイプから得られた詳細な情報により、CYP21A1P偽遺伝子の遺伝性アリルに対する洞察も得られます(図4)。RCCXコピー数の減少により、各親はCAHキャリアとして識別できます。活性遺伝子のコピーが欠如している発端者は、CAHの可能性が高い症例として同定されます。

図4:CAH症例トリオにおいてDRAGENにより同定された組み換えハプロタイプ。

各ハプロタイプは1つまたは2つの一連の識別子に簡略化され、各分化部位の遺伝子(1)または偽遺伝子(2)の症例を示しています。CAHに罹患した発端者であるNA14734には、RCCXセグメント重複のコピーがあり、ほとんどの部位で不活性の偽遺伝子CYP21A1Pの事例があり、野生型CYP21A2遺伝子のコピーはありませんでした。DRAGENで得た結果は、発端者における2つのRCCXコピーの最も可能性の高い親起源を特定しました(遺伝は色分けした)。各親のコピー数のコールである3は、野生型遺伝子欠失のリスクも示しています。

Coriell Institute(NA12217)から取得した4番目のCah細胞株もCAH症例でしたが、より中程度の単純男性化型疾患であることが判明しました。このゲノムでは、MLPAとロングレンジPCR検証により、RCCXのコピー1つと、既知のCAHリスクを持つエクソン1塩基変異NM_000500.9:c.518T>Aの単一欠失が特定されました。DRAGENは、NM_000500.9:c.518T>Aバリアントを1つのアリルで同定し、合計RCCXコピー数を4と報告し、組み換え介在性欠失に由来する可能性が高いキメラ偽遺伝子と遺伝子の融合も同定しました。この欠失イベントは、合計RCCXコピー数4と並行して、このゲノムがRCCXモジュールにおける欠失と重複の両方の結果を表していることを示しています。キメラ融合ハプロタイプ構造は「222222211111111111」と表すことができ、「1」はターゲット遺伝子アリルを示し、「2」は偽遺伝子アリルを示します。これは、最初の7つの分化部位で一貫した偽遺伝子アリルと、最後の11部位における一貫した遺伝子アリルへの変換という、融合遺伝子構造と欠失ブレークポイントの精緻な表現間の明確な描写を示しています。

直交RCCXコピー数コールを持つ1 KGゲノム(N = 204)。DRAGEN CYP21A2コーラーからのRCCX合計コピー数コールの結果を、1 KGコホートの204ゲノムの直交Bionano Genomics光マッピングテクノロジーからのRCCXコピー数コールと比較しました(図5)。光学マッピングでは、遺伝子融合や小さな変異を同定する解像度が不足していますが、これらのコール比較では、DRAGEN CYP21A2コーラーの全体的なコピー数コールの精度が示されています。204のゲノムのうち201では、コピー数コールが一致しましたが、3つのゲノムでは1つのRCCXコピーに相違がありました。この一致は、RCCX領域の正しいコピー数を回復する上でのDRAGEN CYP21A2コーラーの精度の高さを示しています。

図5:DRAGEN RCCXモジュールのコピー数コールとBionano光学マッピングのコピー数コールの比較。

Pearsonの相関係数とP値は右下の注釈に記載されています。

1 KGにおけるターゲット化小規模バリアント:1000 Genomes Projectコホートの3,195サンプルでDRAGEN CYP21A2コーラーを実行し、DRAGENがCYP21A2のターゲットとする33の小規模バリアントの結果をレビューしました。3195例中11例(0.3%)に、ターゲットバリアント(遺伝子または偽遺伝子のいずれかからの少なくとも2つの支持リード)の強力なエビデンスが含まれていました。これらのバリアントコールには高い信頼性がありますが、確認検査なしに遺伝子や偽遺伝子に割り当てることはできません。

ご利用について

CYP21A2コーラーは、DRAGENの4.2の発売でご利用いただけます。ソフトウェアへの早期アクセスをリクエストするには、 ffg-info@illumina.com までご連絡ください。

学術用途向けの詳細情報またはDRAGEN試用版ライセンスについては、dragen-info@illumina.comまでお問い合わせください。 

謝辞

Radboud University Medical CenterのGaby Schobersに感謝いたします。

注釈

  1. Pignatelli, D. et al. The complexities in genotyping of congenital adrenal hyperplasia: 21-hydroxylase deficiency. Front Endocrinol (Lausanne) 10, 432 (2019).
  2. Torres, N. et al. 先天性副腎過形成におけるCYP21A1PからCYP21A2遺伝子へのマイクロコンバージョンの表現型と遺伝型の相関。Braz J Med Biol Res 36, 1311–1318(2003)。
  3. Huynh, T. et al. 21-Hydroxylase欠損症に続発する先天性副腎過形成症の臨床および生化学的スペクトル。Clin Biochem Rev 30, 75(2009)。
  4. Khanal, D., Mandal, D., Phuyal, R. & Adhikari, U. Congenital Adrenal Hyperplasia with Salt Wasting Crisis:A Case Report. JNMA J Nepal Med Assoc 58, 56(2020)。
  5. Kovács, J. et al. 欧州5カ国における30年間の先天性副腎過形成症の臨床診断と治療から得られた教訓。J Clin Endocrinol Metab 86, 2958–2964 (2001).
  6. Singh, R., Agarwal, M. & Sinha, S. Simple-Virilizing Congenital Adrenal Hyperplasiaの診断における課題:A Case Report. Cureus 14, (2022).
  7. Bidet, M. et al. Clinical and Molecular Characterization of a Cohort of 161 Unrelated Women with Nonclassical Congenital Adrenal Hyperplasia Due to 21-Hydroxylase Deficiency and 330 Family Members. J Clin Endocrinol Metab 94, 1570–1578(2009)。
  8. Schubert, T. et al. CYP21A2 Gene Expression in a Humanized 21-Hydroxylase Mouse Model Does Not Affect Adrenocortical Morphology and Function. J Endocr Soc 6, (2022).
  9. Carrozza, C., Foca, L., de Paolis, E. & Concolino, P. Genes and Pseudogenes: Complexity of the RCCX Locus and Disease. Front Endocrinol (Lausanne) 12, 941 (2021).
  10. Pereira, K. M. C. et al. Impact of C4, C4A and C4B gene copy number variation in the susceptibility, phenotype and progression of systemic lupus erythematosus. Adv Rheumatol 59, 36 (2019).
  11. Baş, F. et al. CYP21A2 gene mutations in congenital adrenal hyperplasia: genotype-phenotype correlation in Turkish children. J Clin Res Pediatr Endocrinol 1, 116–128 (2009).
  12. Merke, D. P. et al. Tenascin-X Haploinsufficiency Associated with Ehlers-Danlos Syndrome in Patients with Congenital Adrenal Hyperplasia. J Clin Endocrinol Metab 98, E379–E387 (2013).
  13. Carvalho, C. M. B. & Lupski, J. R. Mechanisms underlying structural variant formation in genomic disorders. Nat Rev Genet 17, 224 (2016).
  14. Parajes, S., Quinteiro, C., Domínguez, F. & Loidi, L. High Frequency of Copy Number Variations and Sequence Variants at CYP21A2 Locus: Implication for the Genetic Diagnosis of 21-Hydroxylase Deficiency. PLoS One 3, e2138 (2008).
  15. Chen, J. M., Cooper, D. N., Chuzhanova, N., Férec, C. & Patrinos, G. P. Gene conversion: mechanisms, evolution and human disease. Nature Reviews Genetics 2007 8:10 8, 762–775 (2007).
  16. Krone, N., Riepe, F. G., Grötzinger, J., Partsch, C. J. & Sippell, W. G. Functional characterization of two novel point mutations in the CYP21 gene causing simple virilizing forms of congenital adrenal hyperplasia due to 21-hydroxylase deficiency. J Clin Endocrinol Metab 90, 445–454 (2005).
  17. Landrum, M. J. et al. ClinVar: improvements to accessing data. Nucleic Acids Res 48, D835–D844 (2020).
  18. Byrska-Bishop, M. et al. High coverage whole genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios(602 トリオを含む拡張された 1000 ゲノム プロジェクト コホートの高カバレッジ全ゲノムシーケンス). bioRxiv 2021.02.06.430068 (2021) doi:10.1101/2021.02.06.430068.