シングルセル解析は発生生物学における洞察を進化させています
はじめに
Cole Trapnell博士は、TopHat 1 、Cufflinks 2 、Monocle 3 、およびその他のバイオインフォマティクスツールの主要な開発者であり、計算生物学者の間で一般的に利用されています。メリーランド大学で大学院生としてバイオインフォマティクスを学び、コンピューターサイエンスの博士号を取得しました。彼はもともと生物学のキャリアを計画していませんでしたが、Solexaシーケンサーを使用し、次世代シーケンサー(NGS)データを見始めたばかりの同僚たちに興味を持っていました。ショートリードをゲノムにマッピングする問題は、ハイスループットな計算上の問題であることに気づきました。Harvard University Stem Cell and Regenerative Biology部門のJohn Rinnの研究室のポストドックとして、彼はシングルセルトランスクリプトームシーケンスを使用して細胞分化を分析する方法を開拓しました。
現在、ワシントン大学のゲノム科学科で、Dr. TrapnellはイルミナのNGSデータを使用して、トランスクリプトーム解析とシングルセル実験用のソフトウェアを専門にしています。彼の研究室はシングルセルゲノミクステクノロジーに重点を置いています。彼の目標は、ある細胞をあるタイプから別のタイプに形質転換する遺伝子回路を同定することで、ゲノム内でどのように開発プログラムがコードされるかを決定することです。これらの回路の同定は、ヒトの健康と疾患を理解するために不可欠です。
そのため、Trapnell博士はNextSeq 550、NovaSeq 6000、学際的な科学者チームに依存しています。研究室のほとんどの人は学際的です。彼は、コンピューターサイエンティストがベンチワークに就くか、または計算技術について学んでいる血液学者や腫瘍学者のいずれかと言います。
最近、Trapnell博士は、細胞系統を理解することの重要性、シングルセルRNAシーケンス(scRNA-Seq)に関するラボの経験、および個々の細胞のゲノムを単離することなく解析する方法であるコンビナトリアルインデックスの適用について、当社の見解を共有しました。また、コラボレーションの力に対する信念や、それが彼の調査哲学をどのように導いているかについて話しました。
Cole Trapnell博士は、ワシントン大学ゲノム科学部の助教授です。
Q:開発研究にどのようにアプローチしますか?
Cole Trapnell(CT):あるタイプから別のタイプへの変換に細胞が使用する遺伝子回路の構造を理解したい と考えています。最も顕著なのは開発ですが、疾患でも起こります。開発プログラムと、それがゲノムでどのようにコードされているかに関心があります。これは非常に大きな質問であり、その具体性がすべてではありません。多くのラボが協力して答えるのも、大きすぎます。
この疑問への答えに向かって前進し、開発プログラムがDNAにどのようにコードされているかを学ぶための私のラボの戦略は、テクノロジーとソフトウェアを構築し、世界中の多くの他のサイエンティストの手に委ねることです。
シングルセルゲノミクスに関する高度なテクノロジーを開発しています。それは、新しいアッセイや新しいプロトコールのような実験でも、すでに行っている実験から新しい洞察を抽出するアルゴリズムのような計算でもかまいません。次に、技術を紹介する論文を執筆し、技術の進歩がなければ実現しにくいアプリケーションと組み合わせます。当社は、開発や疾患に関する重要な疑問を抱える人々との協力に約25%の努力を払い、彼らの生物学問題に当社の技術を適用するために協力しています。
Q:お客様が開発したソフトウェアはすべてオープンソースです。「なぜか?
CT: 楽しいからといって、科学の問題を解決するためにソフトウェアに取り組めば嬉しいです。サイエンティスト向けのソフトウェアツールの料金を請求しようとすると、他の人が無料で請求します。人々を助けたいと思っています。わずかな料金で請求しても、ユーザーベースの規模は大幅に縮小します。TopHatが広く使用されている理由は、ショットガンcDNAシーケンスリードをゲノムにマッピングする問題を解決した最初のものであったためです。もっと良いことが伝わるまでに長い時間がかかりました。
Q:細胞系統を理解することの重要性は何ですか?
CT:開発 の理解は生物学における基本的な目標であり、その価値の一部はそれに対する膨大な好奇心を満たすことです。その一例がC. elegansです。すべての成虫は、同じ細胞タイプの同じ数の細胞を持っています。これは、時計細工のように実行されるプログラムです。飼う動物はどれも同じです。そのような仕事はしません。体にあなたとは異なる数の細胞があり、それらは異なるタイプですが、あなたと私はおそらく同じように見えます。哺乳類が産生する細胞数にばらつきがある場合でも、発生プログラムがどのように再現可能であるかを理解することは、根本的に興味深いことです。
実用的応用の観点から、例えば多くの小児疾患には発達要素があります。特に希少な遺伝性疾患では、できることはあまりありません。しかし、病気の原因となっている遺伝的要素やドライバー変異がある分野では、成功が見られ始めています。健康な人において、組織形成を制御する遺伝子回路がどのように機能するかを正確に理解していると、疾患のある人でどのように破壊され、介入するかを予測できます。
もう1つの用途は臓器移植です。移植可能な臓器を無限に供給することで、治癒できる疾患はたくさんあります。臓器を造りたいのであれば、開発過程でどのように作られるかを理解する必要があります。なぜなら、私たちは、臓器を一貫して、再現性のある、そして堅固に作ろうとしているからです。
"シングルセルRNAシーケンスでは、DNAシーケンサーを顕微鏡として使用して、個々の細胞でどの遺伝子が転写的に活性化しているかを決定することができます。"
Q:scRNA-Seqのユニークな価値は何ですか?
CT: シングルセルRNAシーケンスでは、DNAシーケンサーを顕微鏡として使用して、個々の細胞でどの遺伝子が転写的に活性化しているかを判定できます。これは個々の細胞の分子含有量をプロファイリングする方法であり、実際には、1回の実験で多くの細胞に対してこれを行うことに関心があります。
scRNA-Seqの最も基本的な使用法で、どのような種類の細胞を見ているか、またいくつの細胞があるかを解明します。また、予想される分類に当てはまらない細胞がある場合、新しい細胞タイプを発見することもできます。もう1つの用途は、薬物曝露、環境刺激、疾患の導入、遺伝子編集などの摂動に細胞がどのように反応するかを調べることです。通常、一部の遺伝子は反応して変化します。どの遺伝子の変化が摂動の仕組みを解明するのに役立つかを測定することで、細胞内の分子メカニズムについて推測することができます。例えば、化合物ががん細胞を殺すのにどのように作用するかを理解しようとすると、遺伝子発現を調べることが非常に役立ちます。
Q:開発研究におけるscRNA-Seqの役割は何ですか?
CT:ゲノムが解決しなければならない 問題は、1つの細胞が与えられ、全動物を作るために細胞分裂のタイミングをプログラムする必要があることです。細胞は、手足、脳、心臓、肝臓などに発達するために、適切なタイミングと場所で増殖する必要があります。それらはすべて異なる遺伝子を使用しています。それらはすべて異なるタンパク質を産生します。それぞれ異なるタスクを実行します。そして、それらは共に働き、人生で機能します。細胞が2つの細胞に分裂すると、その細胞の一方または両方が、その働きを変え、新しいタイプの細胞になります。これらの運命の決定のタイミングはゲノムにコード化されています。発育中の動物でscRNA-Seq実験を行うと、運命の決定を行う過程で異なる点にある個々の細胞を捕捉できます。
“Pseudotime”は、開発全体を通じて下される運命的な決定のシーケンスを表す図にデータを整理するために使用する概念です。十分なタイムポイントがあれば、発達プログラムが1つの細胞から成人までどのように機能しているかの全体像をまとめることができます。scRNA-Seqにより、すべての遺伝子の転写を測定できます。どの遺伝子がどの発生時点で活性があるか、どの種類の細胞でどの遺伝子がさまざまな段階で意思決定プロセスに関与しているかを推測することができます。グルカゴンを分泌する細胞とは対照的に、膵臓の発達する細胞がインスリンを分泌する細胞になる原因となる遺伝子を特定することができます。これは、理解すべき治療上重要な運命の決定です。
Q:scRNA-Seqに関連する課題にはどのようなものがありますか?
CT: シングルセルデータセットは巨大です。何万もの細胞があります。私の研究室は、化学生物学の摂動実験のために50万を超える細胞を研究した論文を公開しました。解析を行うためにRAMが不足する可能性があります。その一部はソフトウェアで解決できますが、これは、バイオインフォマティクス担当者が巨大なデータセットに対処するためにすべてのコードを書き直す必要があることを意味します。
もう1つの課題は、スパースティと呼ばれることです。この文脈では、1つの遺伝子を5コピー発現する細胞があり、それを検出したいことを意味します。5つのコピーがあることを知りたいと思っていますが、scRNA-Seqプロトコールは細胞内のすべてのmRNAをキャプチャーするわけではありません。彼らは画分をキャプチャーし、あなたの遺伝子が他の遺伝子との発現でどのように比較されるかがわかるほどの十分な画分をキャプチャーすることを願っています。十分な量の画分をキャプチャーできず、コピーが5つしかない場合、その細胞に遺伝子のコピーを捕捉できない可能性があります。つまり、遺伝子が実際にオフでないときにオフになっていると思うということです。検出しなかっただけです。証拠の不在は、不在の証拠ではありません。スパース性に対処する最善の戦略について、多くの議論と多くの取り組みが行われてきました。
3つ目の課題は分類です。生物学コンポーネントとバイオインフォマティクスコンポーネントがあります。通常、まず最初に行いたいことは、データセットにどのような種類のセルがあり、それぞれのセルがいくつあるかを調べることです。 実験がうまくいったかどうかを見るとわかります。生物学の構成要素は、組織を調製するときに発生します。細胞の懸濁液を作る必要があります。それを行う方法はたくさんあります。一部の細胞は、特定の細胞型を噛み砕いたり、他の細胞をそのままにしたり、他の細胞を完全に分離させたりしないままにしたりすることがあります。次にシーケンス実験を行い、お気に入りのニューロンや線維芽細胞が欠損していることに気づきました。線維化を研究している場合、それは悪いことです。
Garnett 4ソフトウェアでバイオインフォマティクスコンポーネントに対処しました。線維芽細胞の例では、あらゆるタイプの線維芽細胞で発現する完璧な遺伝子は他にありません。灰色の領域があります。線維芽細胞に見られると予想される5つの遺伝子のうち4つを発現する細胞が見つかるので、線維芽細胞かもしれませんが、別の遺伝子かもしれません。人々は、細胞をクラスター化した場所を図で示し、各クラスターは細胞型でした。これは3つの理由で問題がありました。1つ目は、非常に遅く、手間がかかりました。2つ目は、体系的ではないため、クラスター条件を変更した場合は、戻ってやり直す必要があります。3つ目は、データセットをクラスター化し、クラスターの1つにクラスターアルゴリズムを適用した場合、そのクラスターは3つ、4つ、または5つのクラスターに分割されます。細胞タイプは1つですか、5つありますか? トランスクリプトームとクラスター化によって細胞型がどのように定義されるかについての仮定は正しくありません。
システムに関する深い知識を持つ細胞生物学者が、各細胞型で発現することが期待される遺伝子を事前に書き留め、それを体系的にデータセットに適用し、それらの期待に従って各細胞をスコアリングできるようにしたいと考えています。マシンラーニングは、うまく機能させるために多くの追加機械学習がありますが、その結果はGarnettです。Garnettは、細胞数をタイプごとにカウントするプロセスを自動化することを期待する分類器です。
"システムに関する深い知識を持つ細胞生物学者が、各細胞型で発現することが期待される遺伝子を事前に書き留め、それを体系的にデータセットに適用できるようにしたいと考えています。その結果がGarnettです。"
Q:軌道解析とは?
CT:細胞があるタイプから別のタイプに移行する と、どの遺伝子が発現しているかという意味で連続性があります。セルは2つの個別のグループに分割されません。一部の遺伝子は、他の遺伝子よりも先にオンまたはオフになります。軌道解析は、移行プロセスにおける細胞の位置の順に細胞を整理しようとします。最初にオンになる遺伝子は意思決定プロセスの早い段階で重要であり、後に現れる遺伝子は意思決定においてそれほど重要ではない場合があるため、知ることが重要です。心筋細胞の場合、これは拍動など心筋細胞が行う作業に重要かもしれませんが、心筋細胞になるための意思決定には重要ではないかもしれません。
Q:Monocleとは?
CT: Monocleはソフトウェアツールであり、アクティブな研究プロジェクトでもあります。scRNA-Seqによる軌道解析の概念を紹介しました。Monocleには3つの主要なバージョンがあります。初期のバージョンでは、数百個の細胞だけで簡単な実験を処理できました。過去5年間、私の研究室は、その遺伝子に従って細胞を組織化するために機械学習を備えたより良いバージョンのMonocleをリリースしてきました。Rに書かれたオープンソースプログラムで、誰でも無料でダウンロードできます。
2番目のバージョンでは、より大きなデータセットに焦点を絞り、軌道上の運命の決定点を特定しようとしました。そこでは、あるセルが1方向へ、別のセルが1方向へ進みます。3番目のバージョンは同じことを行いますが、マウス胚実験を行うのに必要な規模と複雑さがあります。その研究では、数百の細胞タイプが一度に区別され、解決すべき特別な問題がありました。
Q:なぜSCI-Seqはブレークスルーとみなされたのですか?
CT: シングルセルコンビナトリアルインデックスとシーケンス5、すなわちSCI-Seqは、シングルセルゲノミクスを行うためのスキームです。RNA-Seq、ATAC-Seq 4は、染色体DNAのDNA結合能力などを測定するエピジェネティックアッセイです。Jay Shendureの研究室の博士課程とスタッフサイエンティストであるDarren CusanovichとRisa Dazaは、それぞれ、組み合わせインデックスに基づくシングルセルプロトコールを考案した最初の人でした。彼らは、実際に個々の細胞を物理的に分離することなく、シングルセルゲノミクスを行えることを発見しました。
従来、1つの細胞を懸濁液から96ウェルプレートの1つのウェルに置き、別の細胞を次のウェルに置き、その後各ウェルにライブラリーを作りました。それは問題ありませんが、本当に手間がかかり、あまりうまく拡張できません。
コンビナトリアルインデックスは非常に異なります。各ウェルに多数のセルを投入し、穴を開け、セル内のライブラリー構築の最初のステップを行います。RNA-Seqでは、最初のステップは逆転写です。次に、反応が実施されるウェルに対応するシーケンスで製品にラベルを付けます。細胞は無傷のままで、一緒にプールして新しい96ウェルプレートに添加します。SCI-Seqの場合、PCR段階で再度ラベル付けします。つまり、シーケンサーに載せたすべてのRNA-Seq断片は、最初のウェルから1回と2番目のウェルから1回、2回ラベル付けされるので、96倍96ペアが利用できます。ワークフローで1,000個のセルのみを押した場合、同じペアの識別バーコードを持つ2つのリードが見つかったら、同じセルから来たと推測できます。追加のインデックスを作成することができます。2枚のラベルプレートではなく、3枚で何十万もの細胞で実験を行います。
このコンセプトを展開し、さまざまなことを測定できる方法は数多くあります。同じセルで複数のものを測定できます。Jay Shendureと私は、ATAC-SeqとRNA-Seqの両方を同じ細胞で実施している論文を持っていました。このSCI-Seqの研究はすべてイルミナとのコラボレーションによるものです。
Q:シングルセルゲノミクスに最初に参入する人々にどのようなアドバイスがありますか?
CT:新技術の習得速度、特に大学院生やポスドクに 非常に感心しました。それを採用するという真の野心があります。最初の実験を行うことを検討しているラボでは、データを生成するのに数週間かかり、それを解析するのに数か月かかるという現実に備えることが私の考えです。データセットは非常に複雑です。生物学は必ず複雑です。特にRNA-Seqでは、転写に基づく一部のシグナル伝達経路の動態に関する推論が非常に困難になる場合があります。
素材は高価です。正しい方法で実験をセットアップしないと、結論を導き出すことができず、多額のお金を費やしている可能性があります。まず小さな実験を行うのが賢明ですが、より多くのコントロールとより良いデザインを持つより大きな実験を検討したいかもしれません。長期的には安価かもしれません。
バイオインフォマティクスに関しては、各細胞型に特異的に発現することが予想される遺伝子について、非常に明確なアイデアが必ず得られます。それに基づいて細胞を分類し、システムの専門家になる必要があります。より広範な細胞生物学コミュニティの知識は、プログラムが転写データから細胞タイプをラベル付けできる方法では得られていません。
プログラミングの準備をしてください。少なくとも基本的なレベルで、RまたはPythonに慣れてください。少しコードを書いてもらいます。フォーラムをご利用ください。主要なツールやソフトウェア開発者がすべての電子メールに対応できないフォーラムがあります。
"生物学と医学の世界で、単一細胞での測定が民主化され、展開されることを想像できるすべてのことを見たいと思います。他の手法では実現しにくい洞察を抽出できると思います。"
Q:シングルセルゲノミクスの次のステップ
CT:sci-Plexと呼ばれるSCI-Seqの延長について 論文が出ました。これは、さまざまな条件から何百万もの細胞を調べる方法であり、薬物スクリーニングを行うことができます。生物のすべての細胞タイプのアトラスを構築するのではなく、大規模な摂動実験を行い、摂動がどのように機能するかをメカニズム的に明らかにする遺伝子制御の定量的モデルを構築しようとしています。ヒットと分かっている化合物の作用機序を理解するためにこれを使用することは想像できますが、その仕組みはわかりません。
Q:シングルセルゲノミクスに対する長期的なビジョンは何ですか?
CT:生物学と医学の世界で民主化され、配備された単一細胞での測定を想像できるすべてのことを見 たいと思います。他の手法では実現しにくい洞察を抽出できると思います。私たちのDNAは、種としてこれまで遭遇した最も複雑で美しいプログラムをコード化しているという事実に本当に神秘を感じています。また、単一の静的なプログラムから多くの異なることを行う、非常に多くの異なる細胞タイプを生成する方法を知りたいと思います。たとえ小さな部分を理解していても、ゲノムが臓器内の細胞の空間的構成の正確なパターンをどのようにコードしているかのように、それは成功です。
この記事で言及されている製品とシステムの詳細はこちら:
NovaSeq 6000システム、www.illumina.com/systems/sequencing-platforms/novaseq.html
NextSeq 500システム、 www.illumina.com/systems/sequencing-platforms/nextseq.html
シングルセルシーケンスの詳細はこちら:
イルミナのシングルセルシーケンスと解析ワークフロー、 https://www.illumina.com/company/video-hub/CVaSHbQg-P8.html
シングルセルシーケンスの考察、傾向、将来、 https://www.illumina.com/company/video-hub/oUFFGVzIgEw.html
参考文献
- Trapnell C, Pachter L, Salzberg S. TopHat:RNA-Seqとのスプライスジャンクションを発見。Bioinformatics. 2009;25(9):1105-1111。
- Trapnell C, Roberts A, Goff L et al. TopHatおよびCufflinksを用いたRNA-seq実験の遺伝子および転写産物発現差解析。ナットプロトック。2012;7(3):562-578。
- Trapnell C, Cacciarelli D, Grimsby J et al. 細胞運命の決定のダイナミクスと制御因子は、単一細胞の擬似時間的順序によって明らかになります。Nat Biotechnol. 2014;32(4):381-386。
- Pliner H、Shendure J、Trapnell C。監督された分類により、細胞アトラスの迅速なアノテーションが可能になります。Nat Methods. 2019;16(10):983–986。
- Cao J, Packer JS, Ramani V et al. 多細胞生物の包括的な単一細胞転写プロファイリング。科学。2017; 357(6352):661–667