遺伝性および希少疾患研究, Population genomics

霊長類の親戚が私たち自身のゲノムについて教えてくれること

自然選択でトレーニングされた新しいアルゴリズムは、ヒトの疾患原因バリアントをピンポイントで特定できる

霊長類の親戚が私たち自身のゲノムについて教えてくれること
Humboldt's squirrel monkeys (Saimiri cassiquiarensis) in Mamirauá Preserve, Brazil | Photo by Marcelo Santana
2023年6月1日

各人の遺伝子コードには、個人ごとに異なる何百万ものバリアントがあり、健康と疾患リスクの違いを考慮しています。ヒトゲノムのシーケンスが多いほど、研究者はどのバリアントが疾患を引き起こす可能性が最も高いかを比較して予測する必要があります。世界中のサイエンティストや臨床医の集団的な努力にもかかわらず、これらのバリアントの大部分の機能はまだ不明です。

また、遺伝的リスクの予測は民族バイアスに晒されています。Genome-Wide Association Study カタログのデータの78%は、ヨーロッパ系の人々からのものです。主にヨーロッパのゲノムデータを使用してポリジェニックリスクスコアをトレーニングすると、他の民族グループに適用したときにパフォーマンスが不均一になります。

より多様な人々をシーケンスすることはソリューションの一部ですが、それだけでも多くのことがわかります。イルミナの人工知能担当バイスプレジデント、カイル・ファー氏は、人間はかなりボトルネックになっていると述べています。80億人もの人々がいますが、私たちの遺伝的多様性は、私たち全員が子孫している1万人の一般的な祖先が住んでいる元の集団のように見えます。ヒトの種から採取するのに十分な情報はありません。数年前には、ヒトゲノムを本当に理解するために、ヒトゲノムシーケンスに含まれるデータでは十分ではなかったことが明らかになりました。

Homo sapien DNAは、数百年にわたる進化の歴史を記録しています。しかし、偏見を避け、自分自身についてさらに学ぶために、科学者たちは、私たちのより遠い家族である霊長類を研究するために、何千万年も探しを広げています。

生きた歴史としてのDNA

Evolutionは世界で最も長い間続く実験です。世代ごとに、自然はランダムな変異によって遺伝子を検査してきました。動物の健康状態を損なうバリアントは遺伝子プールからすぐに除去され、中立的または有益なものは受け継がれるまで生き残ります。ファー氏によると、これらの実験結果はすべての種のゲノムに記録されています。その通りです。これは生きた文書です。

秩序の“Primates”は500種を超える種で構成され、猿、サル、レムルやロリスなどのプロシミアン、そして私たちも含みます。私たちは皆、同じ祖先から子孫していますが、非常に多様な形態にもかかわらず、生きている霊長類はDNAの90%以上を互いに共有しています。チンパンジーやボノボで発生する変異はヒトでも起こり、イルミナの科学者らの研究によると、別の霊長類の自然選抜によってバリアントに耐性がある場合、99%が病気を起こさない可能性が高いとされています。これは、より遠い関係にある哺乳類には当てはまりません。例えば、マウスやイヌでは無害なバリエーションは、ゴリラやヒトでは病原性がある可能性があります。

霊長類が並行して進化してきた数百万年にわたり、疾患を引き起こす変異は自然選択によって排除されてきました。そのため、現代の霊長類をシーケンスすることで、どのバリアントが疾患の原因ではないかの知識を向上させることができます。

イルミナのサイエンティストは、24カ国の研究者と協力して、4つの論文で霊長類ゲノムの膨大な研究の結果をScience誌に発表しました。この研究では、233種の非ヒト霊長類から800名を超える個人をシーケンスし、16家系すべてと86%を超える生きた系統を代表しました。しかし、シーケンスは最初のステップに過ぎませんでした。これらのデータをすべて入手したら、それを解釈する方法が必要でした。そこで、PrimateAI-3Dを開発しました。

Left: A white-face saki monkey (Pithecia pithecia), native to Guiana | Photo by Jean-Pascal Guéry. Right: A Vieira's titi monkey (Plecturocebus vieirai), native to Brazil | Photo by Marcelo Santana


進化によって訓練されたアルゴリズム

大規模言語モデルChatGPTは、あらゆるプロンプトに対して人間のような応答を生成する能力に多くの注目を集めています。その人工知能は、既存のライティングの膨大なデータセットでトレーニングされているため、その時点までの会話に基づいて最も自然に聞こえる次の文章を正確に予測できます。

PrimateAI-3Dは、ChatGPTで使用されるものと類似したディープラーニング言語アーキテクチャー上に構築されたアルゴリズムですが、言語シーケンスではなくゲノムをモデル化するように設計されています。当社のマカクとオランウータンの従兄弟姉妹に、疾患を除外するバリアントを提示することで、その開発者は、そのパラメーターをトレーニングするために自然選択を効果的に活用してきました。ニューラルネットワークは、良性バリアントが遺伝子のどこに現れるか、そして、どの領域が変異した場合に疾患を引き起こす可能性が高いか、排除プロセスによって学習します。このようにして、ヒトの病原性バリアントをどのヒトよりも正確に予測する方法を学びました。

Scienceで発表された研究では、PrimateAI-3Dを、神経発達障害、自閉症スペクトラム障害、先天性心疾患、英国バイオバンクの4つの患者コホートの15の他の機械学習法と比較しました。最初の3つのコホートは、罹患した子供と罹患していない両親の両方をシーケンスした、これまでで最大の研究の一部です。対照的に、UK Biobankの50万のゲノムは、大半が一般集団の健康なメンバーからのものです。この研究では、国立衛生研究所のClinVarデータベースおよびその他のデータセットにおけるアルゴリズムも評価しました。

6つの異なる臨床ベンチマークにおいて、PrimateAI-3Dは他のすべての既存の手法をはるかに上回りました。これらの結果は、研究者が人の健康に影響を与える可能性が最も高い少数のバリアントに優先順位を付けるのに役立ちます。

さらに、PrimateAI-3Dは、英国バイオバンクコホート、特にヨーロッパ以外の民族グループにおいて、一般的な疾患のリスクが高い人々の予測において、優れた改善を示しました。この研究の主な著者の1人であるファー氏は、一般集団の97%が臨床的に重要な疾患に対して非常に実用的なバリアントを持っていると述べています。これまで、希少疾患やがんに罹患している場合はゲノムシーケンスが必要であることがわかりましたが、実際には、集団内のすべての健康な人が、臨床的に意義があり、情報を得るのに重要なゲノムに非常に影響力のあるバリアントを持っているようです。

White-fronted capuchin monkeys (Cebus albifrons), native to northwest South America | Photo by Rebecca Still


ギボンとヒヒに還元する

ヒトの健康に対する利益に加えて、これらの取り組みは霊長類の保全にも役立つ可能性があります。ファー氏によると、これらの種の大半は絶滅に向けて急速に進んでいるため、このデータの収集は急いでいます。動物のDNAに記録された遺伝的多様性は、その種の集団に何人の人が残っているかだけでなく、何世代にもわたってその集団の大きさの経時的な物語も示しています。これは、種がどれだけ速く減少しているか、そしてどれだけの時間残っているかを示しています。それは彼らのゲノムにあります。

PrimateAI-3Dの開発者は、そのパフォーマンスがトレーニングに使用されたデータセットのサイズに直接影響するので、シーケンスできる霊長類の種類が多いほど、ツールが良くなることを発見しました。猿や猿が私たちを助け、私たちもその助けになります。“まだまだ始まったばかりだと思います”とファーは言います。ここで学ぶことができる膨大な量があります。他の種から自分の種について詳しく知ることができるという考えは、とてもロマンチックなものです。

PrimateAI-3Dは、イルミナのコネクテッドソフトウェア製品の今後のリリースでゲノミクスコミュニティに広く利用可能になります。