Customer Interview

2つのRNAライブラリー調製キットのご説明

2つの一般的なTruSeq RNA Library Prep Kit の比較により、RNAシーケンシング研究を行う研究者にとって興味深い新しい情報が明らかになりました。

Alt Name

2つのRNAライブラリー調製キットのご説明

はじめに

Raffaele Calogeroは、トリノ大学Molecular Biotechnology and Health Science DepartmentのAssociate Professorで、メンバー5名で構成される研究グループBioinformatics and Genomics Unitのリーダーです。このグループでは、バイオマーカーを特定し、がんやその他の多因子疾患の分子基盤を調べるために、ゲノムデータおよびトランスクリプトームのデータマイニングに取り組んでいます。このグループは、独自のソフトウェアアプリを設計し、BaseSpace™ Sequence Hubを使用して、RNAシーケンス(RNA-Seq)データの解析を行い、シーケンスサービスや専門家によるバイオインフォマティクスサポートサービスを他の研究グループに提供しています。

ゲノムデータやトランスクリプトームデータの解析におけるスペシャリストとして、Calogero教授はRNAデータがどのように生成されるかに関心を持っています。ラボの業務を効率化する新しい方法を求めて、TruSeq RNA Access Library Prep Kit*とTruSeq RNA Library Prep Kitを比べてみました。NextSeq™ 500 システムでシーケンスを実施し、データはオープンソースソフトウェアで解析するためにBaseSpace Sequence Hubにストリーミングしました。

iCommunityは、バリアント検出、融合検出、および環状RNA解析のRNAライブラリー調製のために、この研究結果からどのような情報が得られるのかについてCalogero教授にお話を伺いました。

Raffaele Calogero は、トリノ大学 Molecular Biotechnology and Health Science DepartmentのAssociate Professorです。

質問:グループの研究フォーカスを教えてください。

Raffaele Calogero教授(以下RC):私たちは、がん研究およびバイオマーカー探索に取り組んでいます。また、薬物応答や患者層別化のための希少疾患関連バイオマーカーの発見に焦点を当てたプロジェクトも複数進めています。例えば、ALK阻害薬クリゾチニブへの耐性に関与する遺伝子を特定するための研究が現在進行中です。また白血病バイオマーカーの特性解析研究で細胞外小胞RNAについても調べています。

これらすべての研究で私たちが主に使用している方法は差次的遺伝子発現解析です。またアイソフォームの差次的発現解析、融合検出、および環状RNA検出も使用しています。

質問:RNA-Seq研究ではどのようなシーケンスシステムやデータ解析ソフトウェアを使っていますか?

RC:RNA-Seq研究ではNextSeq 500システムを使っています。NextSeq 500システムは私のチームに最適なサイズです。実験を動的にセットアップできる柔軟性があります。週を通して常に使用されている状態です。

データ解析にはオープンソースソフトウェアを使っており、主に使うのがR1やPython2です。データ解析用のスクリプトもデザインしています。私のチームでは主にがん研究を行っているため、DNAデータやRNAデータの準備はBroad Institute Genome Analysis Toolkit(GATK)3のベストプラクティスに従って行い、バリアントコールにはBroad InstituteのMuTect4ソフトウェアを使っています。Wellcome CentreのPlatypus5バリアントコーラーを使ってMuTectの結果を集約しています。

「RNA Accessにより、バリアントコール、融合検出、および環状RNA検出のためのライブラリー調製を単一の手法に集約させることができます。」

質問:なぜRNAライブラリー調製プロトコールの比較試験を実施しようと思い立ったのですか?

RC:我々は、単一の手法にライブラリー調製を集約させてラボの効率を改善する方法を探していました。TruSeq RNA Access Library Prep KitがコーディングRNAをターゲットとする方法はエクソームシーケンスと似ています。バリアントコールでは、ポリアデニル化された(polyA)RNA種をターゲットとするTruSeq RNA Library Prep Kitに対し、RNA Accessキットが同等またはそれ以上の性能を発揮するのではないかと思ったのです。この比較試験の範囲を拡大して、通常はpolyAキャプチャーデータで実施される融合検出や、通常はtotal RNAライブラリー調製が必要な環状RNA解析に対するRNA Accessデータの適合性も評価することにしました。

質問:TruSeq RNA AccessとTruSeq RNA Library Prepのデータ比較試験はどのように実施したのですか?

RC:イルミナのGary Schroth博士のラボから、TruSeq RNA Access Library Prep Kit、TruSeq RNA Library Prep Kit、およびtotal RNA調製を用いて得られた乳腺がん(MCF7)細胞株のRNAシーケンスを提供していただきました。すばらしいカバレッジのデータを提供していただいたので、比較試験を効率的に行うことができました。データ解析は、2段階モードのSTAR6マッピングなどのオープンソースソフトウェアを用いて、GATKのベストプラクティスに従って実施しました。他の研究者に私たちの方法を検証してもらえるようにしたかったので、ラボ独自のバイオインフォマティクスツールは使用しませんでした。

質問:比較試験の結果はどうでしたか?

RC:サンプルあたり2000~2500万リードという低いインプットリードレベルでは、polyAによるTruSeq RNA Library Prepのデータを用いるより、RNA Accessのデータを用いる方がより多くのバリアントを検出できることを確認しました。リードレベルが高くなるに伴い、各データライブラリーで検出されたバリアント数の差は小さくなり、1億リード付近ではゼロになりました。

またオフターゲットの量については、polyAデータよりもRNA Accessデータでかなり少なくなっていることも確認しました。polyAデータでは多数のリードが遺伝子間領域に局在化していましたが、RNA Accessデータではそのような局在化は確認されませんでした。これはRNA Access法がコーディングエクソンシーケンスを用いてデザインされているからであり、そのためインプットリードが比較的少ない場合にはバリアント検出においてpolyAよりも効率的なのです。

「BaseSpaceアプリにより、バイオインフォマティクス初心者でも複雑な解析を簡単に行うことができ、実行された解析ステップを追跡することが可能になります。」

質問:RNAライブラリー調製キットを選ぶ際の注意点などはありますか?

RC:RNA Accessは、サンプルあたり2000~2500万リードの標準的な遺伝子レベルの解析フォーマットではバリアント検出においてpolyAよりも効率的になるでしょう。ただし、コーディングエクソン外にあるバリアントを調べる場合にはpolyAの方が適していることが明らかです。コーディングエクソン外の領域は特にRNA Accessではカバーされていませんので。

また、RNA Access法で実現するライブラリー調製の高い柔軟性も考慮すべきでしょう。例えば、私たちが融合データを調べていたとき、インプットレベルが低い場合でもRNA AccessデータとpolyAデータで同じ数の融合転写産物を確認しました。つまり、polyAキャプチャーでは対応できない分解サンプルにおける融合遺伝子の検索にRNA Accessを使用できるということです。

もう一つの有益な知見は、通常total RNA調製が必要になる環状RNA同定もRNA Accessで可能であったことでした。つまり、RNA Accessにより、バリアントコール、融合検出、および環状RNA検出のためのライブラリー調製を単一の手法に集約させることができるのです。RNA AccessにはpolyAよりも少し高価であるというデメリットはありますが、検出できるRNAの種類に関して高い柔軟性が得られます。polyAとは異なり、さまざまな品質のRNAサンプルを標準化できる方法でもあるのです。

質問:これらのRNAライブラリー調製法を使用する前に知っておくべき特別な状況はありますか?

RC:まれな場合ですが、コーディング遺伝子とノンコーディング遺伝子が同じ鎖に局在していることがあります。共通領域の一部を共有しているのですが、エクソンとイントロンは完全には重複していません。このような場合、同じ鎖のコーディング・ノンコーディング領域にある特定のエクソンにリードを割り当てるかもしれません。周辺の配列を見て推測しない限り、コーディング領域にもノンコーディング領域にもリードを正しく割り当てることができないかもしれません。

RNA AccessデータとpolyAデータでは同じ数の融合転写産物を確認しましたが、特定の融合転写因子を検出できるかどうかはRNAライブラリー調製にかかっていました。MCF7は非常によく調べられているため、発表された検証済み融合イベントをすべて収集しました。RNA AccessデータとpolyAデータにおける検索ではJAFFA7を使用しました。RNAのテクニカルレプリケートから始めたため、唯一の違いはライブラリー調製でした。両方のデータセットで検出された融合もありました。しかし、その他の融合はどちらか一方のデータセットでしか確認されませんでした。融合転写産物の検出において、あるRNAライブラリー調製法が別の方法より優れているかどうかを判断するのは困難です。両者は互角だと思います。

質問:研究の次のステップは?

RC:現在、このTruSeq RNA AccessとTruSeq RNAのライブラリー調製比較試験についての論文発表に向けて執筆しています。他の研究者もすぐにこの試験を詳細に検討する機会が得られればと思っています。

クリゾチニブ阻害剤研究については、同じサンプルから得られたRNA-Seqデータ、エクソームデータ、そしてmicroRNAデータを調べています。リンパ腫細胞がクリゾチニブ感受性からクリゾチニブ耐性へと変化する過程で何が起こっているのかを確認するためにRNA Accessを使っています。RNA Accessを使うことで、発現したバリアントをエクソームレベルのデータと関連付け、どれが機能性タンパク質に影響を及ぼしているのかを判断することができます。

白血病バイオマーカー特性解析研究では、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、およびその他の白血病の何百ものサンプルに関するデータを持っています。RNA細胞外トランスクリプトームと患者の病歴との間の潜在的な関係を見出そうとしています。

質問:他の研究者たちは教授のチームのバイオインフォマティクスに関する知識とノウハウをどのように利用できるでしょうか?

RC:BaseSpace Sequence Hubでは、私たちのバイオインフォマティクスにおける経験を効果的に共有できます。BaseSpace Sequence HubにはmiRNA解析用BaseSpaceアプリがすでに1つ入っており、さらに2つが近々公開されます。現時点で環状RNA検出用のアプリはありません。しかし、CIRI8 ソフトウェアを組み込んだアプリを1つ開発しており、公開に向けBaseSpace Sequence Hubに提出済みです。

これらのBaseSpaceアプリは、バイオインフォマティクスの専門家でなくても私たちがラボで開発した解析を再現できるようにデザインされています。BaseSpaceアプリにより、バイオインフォマティクス初心者でも複雑な解析を簡単に行うことができ、実行された解析ステップを追跡することが可能になります。もう一つの利点としては、BaseSpaceアプリではローカルインフラの構築が不要だということです。ユーザーは、実施している実験に必要なコンピューティングリソースにアクセスできます。

私たちはBaseSpace Sequence Hubを、イタリアやシンガポールの生物学者向けのゲノムトランスクリプトームデータ解析コースでの教育ツールとして使用しています。また、ドイツではEuropean Molecular Biology Laboratory(EMBL)で使用しています。BaseSpace Sequence Hubの最も目を引く特長の1つは直感的なインターフェースです。ウェットラボの科学者に使ってもらうと、解析スクリプトを書かなければならないため作業が脱線するということがありません。その分、解析ステップの理解に集中できるのです。BaseSpace Sequence Hubを使えば、どのように行うかではなく、何のために行っているのかという生物学的理由にもっと焦点を当てることができるのです。

このインタビューに登場するイルミナの製品やシステムについての詳細は、以下のリンクからご覧いただけます:

BaseSpace Sequence Hubについては、www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub.html

NextSeq 550システムについては、www.illumina.com/systems/sequencing-platforms/nextseq.html

TruSeq RNA Access Library Prep Kit(現製品名TruSeq RNA Exome)については、www.illumina.com/products/by-type/sequencing-kits/library-prep-kits/truseq-rna-access.html

参考文献

The R Project for Statistical Computing.www.r-project.org/.Accessed November 10, 2017.

Python, www.python.org/, Accessed November 10, 2017.

The Broad Institute.Genome Analysis Toolkit.software.broadinstitute.org/gatk/.Accessed November 10, 2017.

MuTect1.Genome Analysis Toolkit.software.broadinstitute.org/gatk/download/mutect.Accessed November 10, 2017.

Platypus: A Haplotype-Based Variant Caller for Next Generation Sequence Data.Wellcome Centre Human Genetics.www.well.ox.ac.uk/platypus.Accessed November 10, 2017.

Dobin A, Davis CA, Schlesinger F, et al.STAR: ultrafast universal RNA-seq aligner.Bioinformatics.2013;29:15−21.

GitHub.Oshlack/JAFFA.github.com/Oshlack/JAFFA/wiki.Accessed November 10, 2017.

Gao Y, Wang J, Zhao F. CIRI: an efficient and unbiased algorithm for de novo circular RNA identification.Genome Biol.2015;16:4 doi: 10.1186/s13059-014-0571-3.

 

*現製品名TruSeq RNA Exome

NextSeq 500システムは販売が終了いたしました。今後はNextSeq 550システムをご利用ください。