全ゲノムシーケンスデータによる脊髄性筋萎縮症の診断とキャリアスクリーニング

Xiao Chen and Michael A Eberle; published October 19, 2020

はじめに

脊髄性筋萎縮症(SMA)は、アルファ運動ニューロンの喪失を特徴とする常染色体劣性神経筋疾患であり、出生時またはその直後に見られる重度の筋力低下と萎縮を引き起こします1。SMAは嚢胞性線維症後の乳児死亡の主な遺伝的原因です。SMAの発生率は出生6,000~10,000人に1人で、キャリア頻度は異なる民族グループで1:40~80です2~4。SMA症状の緩和についてFDAの承認を受けているNusinersen 5とZolgensma 6の2種類の早期治療が利用できるため、SMAの早期発見は長期的な生活の質にとって極めて重要です。

疾患原因遺伝子であるSMN1は、パラログSMN2とともに、染色体5の2Mb以下の領域に存在し、多数の複雑なセグメント重複および逆セグメント重複を伴います。SMN2は、ヒト系統に固有の祖先遺伝子の重複によって作製されました7SMN1SMN2の周囲のゲノム領域は、不均等なクロスオーバーと遺伝子変換を受け、SMNSMN1SMN2の可変コピー数(CN)が生じます。重要なのは、SMN2は>SMN199.9%の配列同一性を有し、塩基の違いの1つであるエクソン7のc.840C>Tは、重要な機能的結果をもたらします。スプライシングエンハンサーを中断することで、c.840Tはエクソン7のスキッピングを促進し、SMN2由来の転写産物の大部分が不安定で完全には機能しません8。SMA症例の約95%は、SMN1の欠失またはSMNSMN2への遺伝子変換(c.840T)によって引き起こされる機能性c.840Cヌクレオチドの両アレル欠損に起因しています9。SMAの残りの5%の症例では、SMN110には他の病原性バリアントもあります。SMN2は少量の機能タンパク質を産生することができ、個人のSMN2コピー数は疾患重症度と逆相関しています11

発生率と疾患重症度が高いため、集団全体のSMAスクリーニングは米国医学遺伝学会によって推奨されています。SMAのスクリーニングの鍵は、1)SMA診断および保因者検査用のSMN1のコピー数の決定、2)臨床分類および予後用のSMN2のコピー数の決定です。従来、SMA検査とキャリア検査は、定量的PCR(qPCR)、マルチプレックスライゲーション依存性プローブ増幅(MLPA)、デジタルPCRなどのポリメラーゼ連鎖反応(PCR)ベースのアッセイで行われます。これらの方法では、主にSMN1とSMN>SMN2が異なるc.840CT部位に基づいてSMN1のコピー数を決定します。WGSによるSMA検査を可能にすることは、プレシジョンメディシンイニシアチブに大きく貢献しますが、SMN1SMN2の間のほぼ完全なシーケンス同一性、およびハイブリッド遺伝子につながる2つの遺伝子間の頻繁な遺伝子変換などの課題に直面しています。これらの課題には、この地域の困難を克服するために特別に設計されたインフォマティクス手法が必要です。

この問題を解決するために、当社は、WGSデータに基づいてSMN1とSMN2の両方のCNを検出する新しい方法であるSMNCopyNumberCaller SMN1SMN2を開発しました。この方法は、1000 Genomes Project 13(1kGP)の集団データを使用して開発されました。この方法の発表では、12,747のゲノムでSMN1SMN2の特性を明らかにし、SMN1の損益がある1,568のサンプルとSMN2の損益がある6,615のサンプルを特定し、これまでの研究と一貫して、2%の汎民族キャリア頻度を計算しました。さらに、SMN1コールの99.8%とSMN2 CNコールの99.7%が直交法に同意しており、SMAでは100%、保因者では97.8%、SMAと保因者の両方で精度は100%でした。この発信者は、新生児ケアにおける包括的な検査として、またWGSシーケンスプロジェクトにおける正確なキャリアスクリーニングツールとして、SMA検査の提供を可能にします。

ここでは、多民族のサンプルを使用して、アフリカの集団における遺伝的変動の増大を特定し、SMN1SMN2を確実に区別できない可変部位を除外し、全集団で精度を最適化できた方法について説明します。これは、新しいインフォマティックな手法を開発する際に、民族的に多様な集団を使用することの重要性を強調しています。さらに、これらの遺伝子で行われたコピー数コールを裏付けるエビデンスをユーザーが確認できるようにする静的イメージを生成する視覚化ツールについて説明し、提示します。この情報は、WGSベースのSMAコールの実施を希望する臨床検査室にとって不可欠なツールです。

SMNCopyNumberCaller

SMNCopyNumberCallerは、2つの遺伝子全体で高いシーケンス類似性の課題に対処するために、まずSMNと総称されるSMN1SMN2の合計コピー数を計算し、いずれかの遺伝子にアライメントされたリードのシーケンスカバレッジを解析します。SMN2∆7-8と呼ばれるSMN2の短縮型が存在し、エクソン7~8が欠失しているため、遺伝子をエクソン1~6を含む22.2kb領域とエクソン7~8を含む6.3kb領域の2つの領域に分割して、インタクトSMNと短縮SMNの複製数を計算します。エクソン7~8領域から計算されたCNは、インタクトなSMN遺伝子の数を提供します。SMN2∆7-8のサンプルは、エクソン7~8領域のCNと比較してエクソン1~6領域のCNが高く、この差はSMN2∆7-8のCNを表しています(図1)。

Copy numbers of total and intact SMN (SMN1+SMN2) are calculated from read depth
Figure 1. Copy numbers of total and intact SMN (SMN1 + SMN2) are calculated from read depth

集団における全SMNSMN1 + SMN2)コピー数(x軸、エクソン1~6のリード深度によって呼び出される)およびインタクトSMNコピー数(y軸、エクソン7~8のリード深度によって呼び出される)の散布図およびヒストグラム。対角線下のクラスターは、エクソン7~8の欠失を伴う遺伝子の存在を示します( SMN2∆7-8)

合計コピー数を計算した後、 SMN1 と SMN2 の塩基間差でサポートされるリードカウントを用いて SMN1 と SMN2を区別します。各実施医療機関における SMN1 (SMN2)の個々のCNは、 SMN  CNの合計と、 SMN1 + SMN2をサポートするすべてのリードのうち SMN1SMN2 )をサポートするリードの割合を考慮して算出されます。発呼者の発育中、我々は SMN1 と SMN2 のCNを、その間の16の塩基差部位で呼び出し、1kGPサンプルでリファレンスゲノムから抽出し、各位置のCNコールがc.840C>Tスプライスバリアント部位のCNコールと一致するかどうかを決定しました。アフリカと非アフリカの集団では、コールの一致に顕著な差が認められました(図2)。アフリカのサンプルを除き、13の部位でCNのスプライスバリアント部位との一致率が高かった(>85%)。逆に、アフリカのサンプルでは、スプライスバリアント部位とのCNの一致率が高い部位は7箇所のみで、非アフリカ人集団よりもすべての部位で一致率の値が低かった。これは、アフリカ人集団におけるこれらの位置の多くにおける遺伝子内変動と一致しています。この解析は、ゲノムの臨床的に重要な難しい領域を解決するための新しい情報的手法を開発する際、民族的に多様な集団を使用することの重要性を強調しています。

我々は、アフリカと非アフリカの両集団において、スプライスバリアント部位とスプライスバリアント部位に高度に一致した7つの位置を含む8つの SMN1/2塩基の違いを選択しました。これらの施設のみを選択することで、この電話をかけてきた人は民族性に関係なく一貫して業務を遂行する必要があります。SMNCopyNumberCallerは、8つの選択された施設でのCNコールのコンセンサスに基づいて、 SMN1 および SMN2 CNコールを行います。

Figure 2. Multi-ethnic analysis shows difference between populations
Figure 2. Multi-ethnic analysis shows difference between populations

アフリカおよび非アフリカの集団における16の>SMN1SMN2塩基差部位におけるc.840CTとのコピー数(CN)コールアグリーメントを示すサンプルの割合。部位13*はc.840C>Tスプライスバリアント部位です。黒い水平線は85%の一致率を示します。SMNCopyNumberCallerは、すべての集団で作業するために、アフリカと非アフリカの集団(7、8、10、11、12、13、14>、15)の両方で&85%一致している8つのサイトのみを使用します。これらの8つの部位の座標(hg38、chr5)は、70950493、70950966、70951392、70951463、7095189770951946、70952094、70952209です。

発信者の結果の可視化

臨床現場でのバリアントコールの重要な構成要素は、臨床レポートに署名する際に裏付けとなるエビデンスを確認する必要があることです。SMNCopyNumberCallerのリリース以来、データおよびQCコールを表す静止画像を生成する可視化ツールを開発しました(図3)。総SMN(エクソン1~6、図3A)とインタクトSMN(エクソン7~8、図3B)(SMN1+ SMN2)の合計CNを集団分布に対してプロットします。全SMN CNとインタクトSMN CNの差は、SMN2∆7-8のCNを表します。SMN1SMN2の個々のCNは、SMNSMN1SMN2の8塩基差(図3Cの#7-8と#10-15)におけるインタクトCNとサポーティングリード数の合計に基づいて計算されます。図3Dは、区別する施設でのリードカウントのみに基づくSMN1およびSMN2のコピー数の概算値を示しています。

Figure 3. Visualization of SMNCopyNumberCaller result, using HG03458 as an example
Figure 3. Visualization of SMNCopyNumberCaller result, using HG03458 as an example

A/B。 SMN CN(A)およびインタクトSMN CN(B)の1kGP集団サンプルに対する生深度値(垂直線)。C. コンセンサスを決定するために使用される8施設(#7~8、#10~15)におけるSMN1SMN1およびSMN2生CN値。各部位のSMN1SMN2)の生CNは、SMNSMN1 + SMN2のリードカウントをサポートするSMN1(SMN2)の分画をインタクトSMN1SMN2のCNに乗じて算出されます。*13はスプライスバリアント部位です。D. SMN1およびSMN2ローリードカウントは右y軸に表示されます。左のy軸はCNの大まかな計算を示しており、リードカウントをサンプルのヘプロイド深度の中央値で割った値で推定されます。

性能検証

この方法の精度を実証するために、デジタルPCRとMLPAを使用したCNコールをWGSベースのコールと比較し、SMN1では99.8%、SMN2では99.7%の一致率を示し、SMAでは100%、保因者では97.8%、SMAと保因者の両方で100%の精度を示しました(表1)。

表1 既知のSMN1/SMN2コピー数を持つサンプルに対する検証。
  直交法によるCN 合計 一致 不一致 同意
SMN1 0 64 64 0 100.0%
1 45 44 1 97.8%
2 897 897 0 100.0%
3 174 174 0 100.0%
4 43 43 0 100.0%
6 1 0 1 0.0%
合計 1224 1222 2 99.8%
SMN2 0 117 117 0 100.0%
1 486 465 1 99.8%
2 541 539 2 99.6%
3 60 60 0 100.0%
4 9 8 1 88.9%
合計 1193 1189 4 99.7%
SMN2∆7-8 0 1089 1089 0 100.0%
1 80 80 0 100.0%
2 4 4 0 100.0%
合計 1173 1173 0 100.0%

SMN1SMN2SMN2∆7-8の個体数を集団別にコピー

SMNCopyNumberCallerを、1000 Genomes Project(1kGP)の2504の無関係なサンプルとNIHR BioResource Project 14の10,243の無関係なサンプルに適用し、SMN1およびSMN2コピー数の集団分布を報告しました(図4)。この方法を用いたSMAのキャリア頻度(SMN1のコピーが1つのサンプル)は、過去のPCRベースの研究で報告された頻度と一致していました2,4。特に、SMN1コピー数の変動性は、ほとんどの集団でSMN2コピー数よりもはるかに低く、アフリカ人では他の集団よりもSMN1コピー数の方がはるかに高くなっています。

Figure 4. Distribution of SMN1/SMN2/SMN2Δ7–8 copy numbers in diverse populations.
Figure 4. Distribution of SMN1/SMN2/SMN2Δ7–8 copy numbers in diverse populations.

1kGPコホートおよび米国国立衛生研究所(NIHR)BioResourceコホートの5つの集団におけるSMN1SMN1、SMN2SMN2Δ7–8のコピー数の分布のヒストグラム。

まとめ

当社のSMNCopyNumberCallerは、SMAの保因者と罹患状態の両方を同定するために使用でき、新生児ケアの包括的な検査として、またWGSシーケンスプロジェクトで正確な保因者スクリーニングツールとしてSMA検査を提供できます。ゲノムには、通常のWGSパイプラインではバリアントコールが伝達されない困難な領域がありますが、ここでは、このような困難な領域の1つを解決するために、WGSとターゲットインフォマティクスアプローチを組み合わせる能力を示しています。WGSは、ゲノム全体の遺伝的変異を評価する貴重な機会を提供し、WGSデータを持つ困難な領域に対するよりターゲットを絞ったインフォマティクスソリューションの継続的な開発は、個別化医療の可能性を現実に一歩近づけるのに役立ちます。

確認

Cambridge 大学のAlba Sanchis-Juan、 Courtney French、 Isabelle Delon、 Lucy Raymond、 Nemours Alfred I. duPont Hospital for ChildrenのAndrew Connellと Matthew Butchbach、イルミナのZoya Kingsbury、Aditi Chawla、Aaron Halpern、Ryan Taft、David Bentleyの共著者に感謝します。イルミナのAndrew Warrenが視覚化ツールを開発してくれたことに感謝します。

参考文献
  1. Lunn MR, Wang CH. 脊髄性筋萎縮症 ランセット。2008; 371(9630):2120–2133。
  2. Sugarman EA, Nagan N, Zhu H, Akmaev VR, Zhou Z, Rohlfs EM, et al. 脊髄性筋萎縮症の汎民族キャリアスクリーニングと出生前診断:>72,400検体の臨床検査室解析。 Eur J Hum Genet. 2012;20(1):27–32。
  3. MacDonald, WK, Hamilton, D, Kuhle S. SMAキャリア検査:民族グループによる検査性能の差のメタ解析。 プレナト診断 2014;34(12):1219-1226。
  4. Hendrickson BC, Donohoe C, Akmaev VR, Sugarman EA, Labrousse P, Boguslavskiy L, et al. 北米内の民族グループ間でのSMN1対立遺伝子頻度の違い。 J Med Genet. 2009;46(9):641–644。
  5. Finkel RS, Chiriboga CA, Vajsar J, Day JW, Montes J, De Vivo DC, et al. ヌシネルセンによる乳児期発症型脊髄性筋萎縮症の治療:第II相、非盲検、用量漸増試験。 ランセット。2016;388(10063):3017–3026。
  6. Mendell JR, Al-Zaidy S, Shell R, Arnold WD, Rodino-Klapac LR, Prior TW, et al. 脊髄性筋萎縮症に対する単回投与遺伝子置換療法 N Engl J Med. 2017;377(18);1713–1722。
  7. Rochette CF, Gilbert N, Simard LR. SMN遺伝子の重複とSMN2遺伝子の出現は、異なるホモニドで発生しました。SMN2はホモサピエンスに特有のものです。 ハムの遺伝子。2001;108(3):255–266。
  8. Lorson CL, Hahnen E, Androphy EJ, Wirth B. SMN遺伝子の1つのヌクレオチドがスプライシングを制御し、脊髄性筋萎縮症の原因となります。 Proc Natl Acad Sci U S A. 1999;96(11):6307–6311。
  9. Wirth B. 常染色体劣性脊髄性筋萎縮症(SMA)における生存運動ニューロン遺伝子(SMN1)の変異スペクトルの更新 ハム変異。2000;15(3):228–237。
  10. Burghes AH, Beattie CE. 脊髄性筋萎縮症:生存運動ニューロンタンパク質レベルが低いと運動ニューロンが病気になるのはなぜですか? Nat Rev Neurosci。2009;10(8):597-609。
  11. Butchbach ME. 生存運動ニューロン遺伝子におけるコピー数の変化:脊髄性筋萎縮症やその他の神経変性疾患への影響。 フロントモルバイオッシ。2016;3:7。
  12. Chen X, Sanchis-Juan A, French CE, Connell AJ, Delon I, Kingsbury Z, et al. Spinal muscular atrophy diagnosis and carrier screening from genome sequencing data. Genet Med. 2020;22(5):945-953.
  13. 1000 Genomes Project Consortium. ヒトの遺伝的変異に関するグローバルリファレンス。 自然。2015;526(7571):68-74。
  14. Turro E, Astle WJ, Megy K, Gräf S, Greene D, Shamardina O, et al. 国の医療システムにおける希少疾患患者の全ゲノムシーケンス。 自然。2020;583(7814):96-102。