細胞および分子生物学, 遺伝性および希少疾患研究

DRAGENによるゲノムハイスタックにおける針の発見

イルミナのサイエンティストが、一般的疾患と希少疾患の両方を引き起こす読みにくい領域の遺伝子を検出するためのカスタムメイドの研究ソリューション

DRAGENによるゲノムハイスタックにおける針の発見
DRAGEN 4.2 software includes several targeted callers for detecting copy number variants in high-homology regions. Photo: Illumina
2024年2月28日
この記事の印刷可能なPDFについては、 ここをクリックしてください
この記事を読むには、ここをクリックしてください
 

イルミナのシステムでDNAサンプルをシーケンスしたい場合、40億塩基対のゲノムを一度にすべて読み取ろうとはしません。代わりに、DNAを約500塩基対の短い断片にスライスし、作業が簡単で、より速く読み取ることができます。

少量の組織や体液の形態のDNAサンプルには、通常、多くの細胞、つまり生物のゲノムのコピーが多数含まれているため、システムが断片のイメージをキャプチャすると、断片が重なる場所を比較して1つの完全なシーケンスのデータを再組み立てします。

同じ本のコピーを紙のシュレッダーに複数入れ、それぞれをランダムな角度で並べるようなものです。ピースはすべて同じ形状であるため、パズルのように個々のコピーを組み立て直すことはできません。(特に、参照する本が無傷でない場合) しかし、本の各コピーは他のコピーとは異なるランダムな場所に細断されているため、テキストが重複する場所に基づいて異なるコピーの断片を照合することができます。

関心のある種がこれまでにシーケンスされなかった場合、サイエンティストは連続領域または連続領域として知られるこれらのオーバーラップに頼ってリファレンスゲノムを構築する必要があります。幸運にも、2003年に完了したHuman Genome Projectと、Genome Reference Consortiumの進行中の研究のおかげで、ヒトリファレンスゲノムを利用することができます。各ヒトは同じ塩基対の99.99%を共有しているため、科学者は既存の参照と比較することで、個人の遺伝的バリアントを特定することができます。

残念なことに、ヒトゲノムの多くの領域では、塩基対のシーケンスは非常に反復的です。遺伝子全体、つまり数千もの塩基対が長く、コピーを区別するために数少ない塩基対のバリエーションで複数回複製される可能性があります。さらに、所与の遺伝子の重複数とコピー間の特定の違いは、人によって異なることがよくあります。

高い相同性を示すこれらの領域は、利用可能なリファレンスゲノムがあっても解析が困難であることが知られています。それらの断片は、いくつかの可能な場所にフィットする可能性があり、システムが正しくアライメントされているという信頼度は低くなります。

残念なことに、多くの遺伝性疾患は、特定の遺伝子の異型コピー数、または多数のコピーを持つマルチ遺伝子ファミリーの1つの遺伝子のみのバリアントが原因で起こります。そのため、これらの疾患をスクリーニングするには、シーケンスシステムおよびデータ解析パイプラインが、高ホモロジー領域でもバリアントを正確に検出できるほど洗練されている必要があります。

これに対処する方法の1つは、より長いリードを実行することです。断片が相同領域を橋渡しするのに十分な長さである場合、リードはリファレンスゲノム内のその領域の異なるコピーに明確にマッピングできます。例えば、イルミナの完全ロングリードは最大約10,000塩基対のリードを作成できます。しかし、一部の相同領域はそれよりも長くなっています。

幸いなことに、イルミナのサイエンティストは、ショートリードでもこの問題に対するソリューションを開発しました。ターゲットコーラーは、特定の疾患に関連する遺伝子のコピー数(およびその他のバリアント)を迅速かつ正確に検出するようにカスタマイズされています。先天的な副腎過形成、アルファサラセミア、アテローム性動脈硬化症の3つについて、またDRAGEN二次解析ソフトウェアバージョン4.2がどのようにして霧を突き刺し、その遺伝的起源を特定するかについて、続きをお読みください。

CYP21A2遺伝子がなければ、副腎は特定のホルモンを合成できず、腎臓も塩分を保持できません。写真:ゲッティ イメージズ

CYP21A2および先天性副腎過形成

腎臓の上にある副腎は、血中のナトリウムとカリウムのレベルを調節するのに役立ちます。これは、タンパク質21-ヒドロキシラーゼの助けを借りて、コルチゾールとアルドステロンのホルモンを合成することで行われます。

このタンパク質は、遺伝子CYP21A2は、残念ながら、非常に相同性の高いRCCX領域の2つのコピーのうちの1つにしか存在しません。RCCXのもう1つのコピーには、非常に類似した偽遺伝子であるCYP21A1Pが含まれていますが、機能はありません。この相同性は、遺伝子シーケンスだけでなくヒトの生殖も混乱させます。親染色体が組み換えて子供のDNAを形成すると、機能的CYP21A2と非機能的CYP21A1Pの間に遺伝物質が誤って混ざり合って、21-ヒドロキシラーゼをコードする遺伝子の能力が損なわれたり、遺伝子が完全に削除されたりする可能性があります。

多くの遺伝性疾患と同様に、CYP21A2の機能コピーが1つある限り、子供は通常症状を示さず、この疾患のキャリアにすぎません。しかし、2つの非機能性コピーがあると、先天性副腎過形成症(CAH)につながります。

21-水酸化酵素欠損症によって引き起こされるCAHは、出生10,000~15,000人に1回程度発生します。発育中の胎児の副腎の21-水酸化酵素レベルが低下すると、体に必要な量のコルチゾールとアルドステロンを合成することができません。その後、合成に使用された過剰な物質が蓄積し、代わりにアンドロゲンや男性ホルモンを形成します。これを単純除菌CAHといいます。過剰なアンドロゲンを持つ女児は、曖昧な性器を発症する可能性があり、男児は外部の兆候を示さず、診断にターゲットスクリーニングを必要とする場合があります。

いずれの機能性CYP21A2遺伝子も持たず、したがって21-ヒドロキシラーゼが完全に欠損した状態で生まれた子供は、コルチゾールとアルドステロンを合成することができず、腎臓も塩分を保持することができません。この重度の塩分喪失性CAHは、生後数日または数週間で脱水、下痢、嘔吐、副腎クリーゼを引き起こし、しばしば致死的になります。

DRAGEN 4.CYP21A22ターゲットコーラーは、遺伝子の幅広いバリエーションを検出するために特別に設計された研究専用ツールです。RCCX領域のコピー数、遺伝子欠失、遺伝子変換、遺伝子または偽遺伝子の33種の小さなバリアントを区別できます。イルミナのサイエンティストは、健康な個人、CAHキャリア、16例のCAH症例を含む、1000ゲノムプロジェクトから公開されている多数のデータについて、電話をかけてきた人をテストしました。発呼者は、RCCXコピー数、完全な遺伝子欠失、および小さなバリアントをすべてのケースで検出しました。

CYP21A2の発信者の仕組みと、その試験方法の詳細については、イルミナのゲノミクス研究ハブにあるJonathan Belyeu、Fabian Klötzl、Eric Roller、Emma Newman、Vitor Onuchic、Mitchell Bekritskyによるこの記事をお読みください。

世界の人口の約5%は、赤血球中のヘモグロビンの遺伝的欠損であるアルファサラセミアの一部のバリアントを持っています。イラスト:Canva/Scienceフォトライブラリー

HBAとアルファサラセミア

ヒトの赤血球は重量で約35%のヘモグロビンで構成されており、酸素の輸送を担っています。(残りの大半は水です。) ヘモグロビンタンパク質にはいくつかの異なる組み合わせがありますが、その必須成分はすべて、遺伝子HBA1およびHBA2によってコードされるアルファヘモグロビンです。

通常、これらの遺伝子は4コピーあり、16番染色体の各コピーに2コピーあります。3つのコピーのみを遺伝する子供は保因者です。それでも十分なアルファヘモグロビンを産生し、通常は治療を必要としません。しかし、HBA1HBA2のコピーが2つ以下の小児は、常染色体劣性血液疾患であるアルファサラセミアの一種に罹患します。

ヘモグロビン不足は貧血の原因となり、赤血球が小さくなったり、完全に崩壊したりします。またHBA1HBA2のコピーが不足すると、アルファサラセミアの重症度に直接影響します。2つのコピーが欠損している人には、軽度の貧血を引き起こすαサラセミア形質があります。3つのコピーが欠損すると、ヘモグロビンH疾患またはヘモグロビンHが発生し、輸血療法が必要になります。コピーがない人は、ヘモグロビンバートの胎児水腫に罹患しており、通常は致命的です。

Orphanet Journal of Rare Diseasesによると、アルファサラセミアはおそらく世界で最も一般的な単一遺伝子疾患であり、特に地中海諸国、東南アジア、アフリカ、中東、インド亜大陸で頻繁に見られます。一部の地域では、集団の30%以上が保因者である可能性があります。一部の科学者は、この有病率は実際にこれらの地域で進化的な優位性をもたらすため、マラリアの影響を受けにくいと理論的に考えています。

CDCは、世界の人口の約5%がアルファサラセミアの一部の変異体を有していると推定しており、米国産科婦人科学会と米国医科遺伝学学会の両方が、妊娠中または生殖を計画している人に対してこの疾患のスクリーニングを推奨しています。

HBA1HBA2を含むゲノム領域は相同性が高く、遺伝子シーケンスシステムではコピー数検出と正確なリードアライメントが困難です。イルミナのサイエンティストは、DRAGEN 4.2の研究専用HBAターゲットコーラーを開発しました。これは、相同ではない近隣の複数の領域に基づいてHBAコピー数ジェノタイプを推定するものです。The 1000 Genomes Projectからの数百のサンプルについて、呼び出し元をテストし、HBA遺伝子のどの領域が削除されたかを正確に基準にした14のコピー数ジェノタイプを正確に検出したことを発見しました。

以下のリンク先の記事では、この研究ツールが大規模な集団研究を支援し、キャリアと新生児のスクリーニング検査の最適な展開方法に関する意思決定に役立つと、これらのサイエンティストは報告しています。

HBAコーラーの仕組みと、その試験方法の詳細については、イルミナのゲノミクス研究ハブのShunhua Han、Vitor Onuchic、Massimiliano Rossi、Eric Roller、Daniel Cameronによるこの記事をお読みください。

ゲノムのKIV-2領域は、動脈内のコレステロール蓄積の低下に関連しています。ほとんどの人は6つのコピーを持っていますが、50以上のコピーを持っている人もいます。イラスト:シャッターストック

KIV-2およびアテローム性動脈硬化

人間は細胞膜の重要な要素としてコレステロールを必要とし、低比重リポタンパク質(LDL)はコレステロールを含む脂肪を輸送するために体が使用する主な手段です。しかし、LDL値の上昇はアテローム性動脈硬化の主な要因であり、動脈壁に沿って脂肪が蓄積し、その後心血管疾患(CVD)を発症します。世界保健機関によると、全死亡のほぼ3分の1がCVDによるものであり、そのうち85%が心臓発作と脳卒中によるものです。

リポタンパク質a(LPA)はLDLの一種です。個人の血液中のLPA濃度は親から子まで遺伝しやすく、集団ごとに大きく異なります。例えば、JAMA Cardiologyの論文では、ヨーロッパ系の人の20%がLPAレベルが上昇していると推定されています。これらのレベルの上昇は、LPAタンパク質のクリングル-IV 2ドメイン(KIV-2)のコピー数という遺伝的原因にたどり着く可能性があります。

デンマークのツイストペストリーにちなんで名付けられたクリングルドメインは、タンパク質の一部で、ループ状に折り畳まれ、他のタンパク質との結合を助けます。KIV-2の発生範囲は驚異的です。ヒトリファレンスゲノムは通常、LPA遺伝子に6コピー未満しか記録しませんが、50コピー以上の人もいます。

なぜこの領域はこれほど多くのコピーを受けるのですか? 今のところ、サイエンティストは確信がありません。KIV-2のコピー数が多いほど、LPAタンパク質は長くなりますが、その特徴は次のとおりです。これらのタンパク質が長いほど、合成に時間がかかります。ですから、直感的には、KIV-2のコピー数が多い人は、血液中のLPA濃度が低くなります

いずれにせよ、この領域の非常に可変なコピー数により、遺伝子シーケンサーが正確に説明し定量化することは非常に困難です。

イルミナのサイエンティストは、米国全土の8つの大学や研究室の同僚と協力し、この困難な地域向けに高精度なコピー数測定を生成するターゲットコーラーを開発しました。研究者らは、The 1000 Genomes Projectに記録されたメンデルトリオ(子供と両親)120人のゲノムデータについて研究専用発信者をテストし、結果は他の方法で生成されたものと非常に密接に相関しました。以下のリンク先の記事では、イルミナのチームが、DRAGENソフトウェアでLPAが発呼者をターゲットにしたという証拠として、これらの結果を提示しています。このことは、LPAとCVDの研究を強化するための貴重なツールとなります。

KIV-2コーラーのしくみと、その試験方法の詳細については、イルミナのゲノミクス研究ハブでJonathan Belyeu、Vitor Onuchic、Mitchell Bekritskyによるこの記事をお読みください。