全ゲノムシーケンスを使用して、DRAGENでLPA Kringle-IVタイプ2ドメインのコピー数バリアントを評価

Jonathan Belyeu, Vitor Onuchic, and Mitchell Bekritsky; published May 24, 2023

まとめ

LPAKIV-2ドメインは、最近のシーケンシングテクノロジーの進歩にもかかわらず、特性を評価するのが依然として難しいゲノム領域ですが、この領域がヒトの健康に与える影響を考慮すると、その変動性についての理解を深めることが非常に重要です。ここでは、LPAのクリングルIVタイプ2(KIV-2)ドメインに対する新たなDRAGENターゲットコピー数コール戦略について説明します。DRAGEN KIV-2コーラーは、LPA特性解析の最先端テクノロジーを大幅に向上させ、領域のばらつきに関する重要なインサイトを明らかにします。KIV-2のバリエーションとその影響を完全に理解する課題は残っていますが、このソフトウェアはLPAとCVDの研究を促進する貴重なツールとなり、ヒトの遺伝性疾患を理解するという科学的使命を推進し、完全なゲノムを実現するという目標を前進させます。DRAGEN KIV-2コーラーについては、イルミナのDRAGENゲノム解析パイプラインの今後のリリースでご紹介する予定です。

詳細については、BMC Medical Genomicsで最近発表された記事をご覧ください。

はじめに

KIV-2コピー数の減少→Lp(a)濃度の増加→CVDリスクの増加

心血管疾患(CVD)は、世界の主要な死亡原因であり、その原因は既知および想定されるさまざまな複雑な要素から構成されています。1 CVDの重要な危険因子の1つは、低密度リポタンパク質である、Lp(a)とも呼ばれるリポタンパク質(a)の血漿濃度が異常に高いことです。2 Lp(a)の濃度の上昇はCVDリスクの増加と強く関連していいます。3 Lp(a)レベルは遺伝性が高く、Lp(a)レベルの上昇も非常に一般的で、5人に1人に発生します。4 Lp(a)濃度の変動の約69%は、タンパク質内のKIV-2ドメインのコピー数によって決まります。5 KIV-2ドメインは、LPA遺伝子の30キロベース(kb)領域によってゲノムにコード化されており、2つのイントロンと2つのエクソンを含み、GRCh37/38リファレンスゲノムでは6コピーのリピートアレイとして発生し、リファレンスシーケンスの合計は180kbになります。(図1A)。このリピートアレイは可変数タンデムリピート(VNTR)とみなされ、集団全体で顕著なコピー数の変動を示します。6,7

図1. LPAのKIV-2領域。

図1A。LPAのKIV-2領域のダイアグラムは、2つのアリル(対立遺伝子)を示します。Kringle IVドメインは、LPAエクソンとして結合した縦棒のペアとして表されます。アリル1では、KIV-2の単一コピーが赤色で示され、反復単位の概算長が示されます。アリル2では、GRCh37/8リファレンスゲノムのコピー数に対応するKIV-2の6つのコピーが示され、リピートアレイのおよその長さが示されています。

図1B。ボトルサンプルHG002におけるゲノム中のKIV-2領域のIntegrative Genomics Viewerのスクリーンショット。視野の中央でカバレッジの増加が見られ、これはKIV-2領域に対応しており、リファレンスゲノムに対するコピー数の変化を示しています。リードのマッピング品質も、白いリードで示される領域の大部分でゼロに低下します。マッピング品質が低いということは、リードが複数の場所に同等の信頼度でマッピングされていることを示しており、この領域の反復的な性質を示しています。

KIV-2リピートアレイのコピー数の増加は、Lp(a)濃度の低下と関連しており、これはおそらく小胞体による長鎖Lp(a)アイソフォームの分泌の減少によるものです。8 したがって、KIV-2リピートコピー数の減少は、Lp(a)レベルの上昇およびCVDリスクの増加と関連しています。

KIV-2 のコピー数の影響により、測定するゲノム特性は非常に重要になりますが、領域のサイズが大きく、集団の変動があるため、精確な定量化が困難です。全ゲノムシーケンス(WGS)から生成されたリードは、リファレンスゲノム内の単一の位置に精確にアラインメントできず(図1B)、コピー数が極端に高くなる可能性があるため、標準的なコピー数識別戦略では困難です。

手法

ここでは、KIV-2に向けた新たなDRAGENターゲットWGSベースのコピー数コール戦略を紹介します。このアプローチでは、KIV-2領域の任意のコピーにマップされたリードのカウントを使用し、その他のゲノム領域のパネルに対する内部ノーマライゼーションによるGC補正を実行し、結果として得られる値をスケーリングして、高精度な合計コピー数測定を生成します。

フェーズドアリル長の計算は、イントロンマーカーのペアを利用して行われます。イントロンマーカーのペアでは、リファレンス塩基と代替ヌクレオチド塩基が同じLPAアリル内のKIV-2ドメインのすべてのコピーで同一であることが、解析によって明らかになりました。つまり、継承されたLPAのアリルに、KIV-2リピートの任意のコピーのマーカー座位のリファレンス塩基が含まれている場合、その継承されたLPAアリル内のKIV-2の他のすべてのコピーにもマーカー座位のリファレンス塩基が含まれます。したがって、マーカーがヘテロ接合で継承される場合、マーカー座位のリファレンスまたは代替アリルを含むリードの割合を活用することで、継承されたLPAアリルのそれぞれに対するアリルまたはフェーズコピー数の比例測定が可能になります。

結果

私たちは、継承されたアリルのメンデルの一貫性を評価することにより、Extended 1000 Genomes(1KG)コホート9の家族トリオ(1人の子と2人の親をシーケンス)とデュオのコピー数を呼び出して、DRAGEN KIV-2コーラーをテストしました。3つのサンプルすべてのアリルコピー数を決定した120トリオで、両方の子孫アリルからのDRAGEN KIV-2アリルコピー数コールを、最も近い親のコピーと照合しました。Pearsonの子と親のKIV-2アリル長の相関は、0.998という非常に強い相関係数を示しました(P ≈ 3.58e-98)。子と親のアリル長の比較に、1KG集団データを含めました(図2A-B)。これにより、すべての主要な集団で子と親のアリル長の一貫性が類似していることが示されました。

図2. KIV-2コピー数コーリング解析。

図2A 両親のシーケンスが決定され、1例の子のシーケンスが決定された家族から、120例の子の両フェージングKIV-2コピー数と、最も一致する親のフェージングコピー数(両親から1つずつ)を、トリオベースで比較しました。Pearsonの相関係数とP値は右下の注釈に示されています。

図2B。片方の親と子の双方をシーケンスした家族において、親のフェーズドKIV-2コピー数の中で最も一致する単一のコピー数と、子のフェーズドKIV-2コピー数を比較するデュオベースの解析を153人の子を対象に実施しました。Pearsonの相関係数とP値は右下の注釈に示されています。

図2C。145サンプルの総コピー数コールを、Bionanoの光学マッピングによるコールと比較しました。Pearsonの相関係数とP値は左上に表示されます。

図2D。145サンプルのアリルとBionano光マッピングからのコールのアリルコピー数を比較。Pearsonの相関係数とP値は左上に表示されます。
AMR = 混血アメリカ人、SAS = 南アジア人、EAS = 東アジア人、AFR = アフリカ人、EUR = ヨーロッパ人。Kolmogorov-Smirnov検定で得られたP値。

総コピー数とアリルコピー数のコール結果を、直交テクノロジーであるバイオナノ光学マッピングによって生成されたKIV-2コピー数コールと比較しました。(図2C-D)。DRAGEN KIV-2コールを、145の直交コピー数コールおよび143のアリル直交コピー数コールと比較しました。これらも密接な相関関係を示しました(それぞれ、P ≈ 6.77e-113では0.986、P ≈ 5.95e-150では0.996)。これらの比較から、DRAGEN KIV-2コールの精度は、遺伝を介して伝達されるのと同様のアリル間で一貫しており、DRAGEN KIV-2コピー数コールは一般的に直交テクノロジーのコールと類似しており、WGSベースのアプローチの一貫性と精確性が強調されています。

主要集団間のKIV-2アリルの集団変動は、集団特異的なCVDリスク因子を決定する上で非常に重要な要因です。1KGコホートの全サンプルのコピー数を呼び出し、1KGの各集団グループに対するコールの分布を、他のすべての集団を組み合わせたコールの分布と比較することで、このバリエーションの予備解析を行いました。AMR群およびSAS群は、その他のすべての群と有意差がありませんでしたが(P>0.05)、他の3つの集団群(EAS、AFR、およびEUR)はコンセンサス群と有意に異なっていました(P <0.05、図3A)。サンプルに存在する2つのアリル長はかなり異なる可能性があるため、各サンプルに存在する短いアリル(図3B)と長いアリル(図3C)についてこの比較を繰り返しました。

図3:1KGコホートの集団グループ間のKIV-2コピー数の分布。

図3A。各集団グループにおける合計KIV-2コピー数の分布と、そのグループのサンプル数。

図3B。各集団グループにおけるフェージングKIV-2コピー数の分布。存在する2つのアリルのうち短い方のみが含まれます。そのグループのサンプル数と、アリルコピー数コールを持つサンプルの割合を各分布の下に示します。

図3C。各集団グループにおけるフェージングKIV-2コピー数の分布。存在する2つのアリルのうち長い方のみが含まれます。そのグループのサンプル数と、アリルコピー数コールを持つサンプルの割合を各分布の下に示します。

AMR = 混血アメリカ人、SAS = 南アジア人、EAS = 東アジア人、AFR = アフリカ人、EUR = ヨーロッパ人。Kolmogorov-Smirnov検定で得られたP値であり、Bonferroni法でn=5テストで調整。

KIV-2コピー数を決定するもう1つの手法として、目的の遺伝子座位付近の小規模バリアントを使用した推論があります。いくつかの近傍一塩基多型(SNV)部位の潜在的有用性を評価するために、主要(最も一般的な)アリルのホモ接合の場合、ヘテロ接合の場合、およびマイナー(あまり一般的ではない)アリルのホモ接合の場合のコピー数分布の違いについて、Kolmogorov-Smirnov検定を実施しました(図4)。これらの評価では、一部の非常にまれなアリルがKIV-2コピー数を推測する可能性が示されましたが、これらは多数のサンプルにわたる特定のコピー数の状態と強い相関を示していません。図4AでテストされたSNVのどの遺伝型でもサンプルに存在するコピー数の範囲が広いため、精緻なコピー数推論におけるその座位の有用性は低下しますが、テストされた他の各座位は、一部の集団ではほとんどまれであるか、まったく発生していません。これらの評価は、推論的アプローチに頼るのではなく、KIV-2コピー数を直接測定することの重要性とパワーを示しています。
図4:観察されたKIV-2コピー数とSNVの相関性試験は、KIV-2コピー数の推論に有用である可能性があります。

各パネルには、観測されたKIV-2コピー数の合計の集団セグメント分布図が含まれており、最も一般的な(主要な)アリルのホモ接合の存在、主要なアリルとそれほど一般的ではない(マイナーな)アリルのヘテロ接合の存在、またはマイナーなアリルのホモ接合の存在のカテゴリーに分けられています。P値は、Kolmogorov-Smirnov検定によって導き出され、各注釈付き分布ペア間の類似性を示します。

図4A。マイナーアリルはすべての集団群に存在し、アリル層別分布の差は有意です。しかし、各分布には幅広いアリルが存在します。

図4B. マイナーアリルは、EAS人口グループには存在せず、すべての人口グループでまれであり、7つのサンプルでのみホモ接合で発生します。これら7つのサンプルのコピー数の範囲は、主要なアリルの場合に比べてかなり限られています。

図4C。マイナーアリルは、SASまたはEAS集団グループには存在せず、AMRグループから1サンプルのみ、さらにAFRグループから4サンプルでホモ接合的に発生します。

図4D BとCの両方と同様に、このマイナーアリルマーカーは、限られた集団サブセット(AMR、AFR、およびEUR)に存在しますが、この場合、どのサンプルでもホモ接合型には発生しません。ヘテロ接合性ケースでは、幅広いコピー数が観察されます。

謝辞

ベイラー医科大学のSairam Behera氏、Fritz Sedlazeck氏、Ginger Metcalf氏、Luis Paulin氏、Vipin Menon氏、Christie Ballantyne氏、Pacific BiosciencesのXiao Chen氏とMichael Eberle氏、テキサス州ヒューストンのテキサス・ヘルス・サイエンス・センター大学のBing Yu氏、Ngoc Nguyen氏、Eric Boerwinkle氏、アルバート・アインスタイン・カレッジ・オブ・メディスンのCarlos Rodriguez氏とRobert Kaplan氏に謝意を表します。

学術用途向けの詳細情報またはDRAGEN試用版ライセンスについては、dragen-info@illumina.comまでお問い合わせください。 

注釈

  1. Cardiovascular diseases (CVDs). https://www.who.int/news-room/fact-sheets/detail/cardiovascular-diseases-(cvds).
  2. McCormick, S. P. A. Lipoprotein(a): Biology and Clinical Importance(生物学と臨床的重要性). Clin. Biochem. Rev. 25, 69(2004)。
  3. Emdin, C. A. et al. Phenotypic Characterization of Genetically Lowered Human Lipoprotein(a) Levels. J.Am. Coll. Cardiol. 68, 2761–2772 (2016).
  4. Trinder, M., Uddin, M. M., Finneran, P., Aragam, K. G. & Natarajan, P. Clinical Utility of Lipoprotein(a) and LPA Genetic Risk Score in Risk Prediction of Incident Atherosclerotic Cardiovascular Disease. JAMA Cardiol. 6, 287–295 (2021).
  5. Boerwinkle, E. et al. Apolipoprotein(a) gene accounts for greater than 90% of the variation in plasma lipoprotein(a) concentrations. J. Clin. Invest. 90, 52–60 (1992).
  6. Mukamel, R. E. et al. Protein-coding repeat polymorphisms strongly shape diverse human phenotypes. Science (80-. ). 373, 1499–1505 (2021).
  7. Afshar, M. & Thanassoulis, G. Lipoprotein(a): New insights from modern genomics. Curr. Opin. Lipidol. 28, 170–176 (2017).
  8. Schmidt, K., Noureen, A., Kronenberg, F. & Utermann, G. Structure, function, and genetics of lipoprotein (a). J. Lipid Res. 57, 1339–1359 (2016).
  9. Byrska-Bishop, M. et al. High coverage whole genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios. bioRxiv 2021.02.06.430068 (2021) doi:10.1101/2021.02.06.430068.