クラウドベースのNGSデータの解析、管理および保管
はじめに
今日の次世代シーケンス(NGS)システムは膨大な量のデータを生成することから、研究者はすべての情報を効率的に管理し、解析し、保管する方法を追い求めています。この一つのソリューションとして、クラウドがあります。クラウドでは、無制限のデータストレージ、リアルタイムでのシーケンスランモニタリング、および強力なデータ解析ツールの利用が可能です。オックスフォード分子診断学センター(OMDC)の血液学-分子診断学研究所の主任臨床研究者であるHelene Dreau氏(MSc)にとっては、クラウドの利用によりバイオインフォマティクスのサービスを開発するニーズを減らすことができました。
Dreau氏が率いる5人のチームは、オックスフォード大学およびオックスフォード大学病院国民医療サービス(NHS)ファウンデーショントラストの大規模臨床研究グループが行うゲノミクスの取り組みを支援する役割を担っています。イルミナのMiSeq、HiSeq 2500、およびHiSeq 4000システムを使用して、Dreau氏はBaseSpace Informatics Suiteによるデータ解析に着手しました。グループのシーケンスシステムが生成するデータ量が増えたため、Dreau氏は、アマゾンウェブサービスクラウド(Amazon Web Services Cloud)で保管、共同研究、そしてデータ管理を行うBaseSpace Sequence Hubへと移行しました。
NGSデータ解析をクラウドに移行する決断と、それによりラボが受けた恩恵について、iCommunityがDreau氏にお聞きしました。
Helene Dreau、MSc、オックスフォード分子診断学センター(OMDC)の血液学-分子診断学研究所の主任臨床研究者。
質問:あなたのラボはオックスフォード大学のどのような臨床研究チームを支援していますか?
Helene Dreau氏(HD):私たちはオックスフォード大学病院で血液疾患(異常ヘモグロビン症、血友病、白血病、リンパ腫など)に関連した検査サービスを提供しており、DNA、RNAのシーケンスおよびフローサイトメトリーなどの専門的な検査を行っています。Thames Valleyがんネットワークの一員でもあり、地域のトレーニング実施病院に移る前に専門分野登録者(医師)への教育を担っています。
オックスフォード大学病院が行う臨床試験の支援も業務の一環です。また、国立衛生研究所(NIHR)のオックスフォード生物医学研究センターと共同研究をしています。同センターは疾患の予防、診断および治療に関するイノベーションを推進し、生物医学研究の進歩を臨床現場に導入することに注力しています。こうした取り組みを支援するため、我々は新しいテクノロジーを開発し検証しています。過去10年間、各機関の資金援助を得て、最先端のツールとテクノロジーを取り揃え、ゲノムセンターにまで成長しました。
質問:ラボがNGSを使用し始めたのはいつですか? また、どんなシーケンスアプリケーションを実施していますか?
HD:2013年にMiSeqシステムを導入し、その後、HiSeq 2500システム、HiSeq 4000システムを追加しました。TruSeqカスタムアンプリコンなどのターゲットシーケンスパネルを使用しました。現在、転座パネルを開発しています。また、RNA-Seqも実施しています。
質問:ラボでのMiSeqシステムおよびHiSeqシステムの評価はいかがですか?
「BaseSpace Sequence Hubを使えば、バイオインフォマティクスのスタッフやサーバーを必要とせずにデータの解析、保管、発信が可能です。増大するデータ解析量への対応に役立ちました。」
HD:イルミナのNGSシステムの性能は素晴らしく、非常に満足しています。ターゲットパネル設計にイルミナコンシェルジュサービスを利用し始めました。MiSeqシステムでターゲットパネルサービスを使用して、シーケンス効率が向上し、結果の信頼性も高まりました。MiSeqシステムはラボの主力システムなので、効率性はとても重要です。アッセイの設定プロセスは簡単で、装置のクリーニングやメンテナンスも容易に行えます。
質問:ラボのチームにバイオインフォマティクスの専門家を補充しないのはなぜですか?
HD:バイオインフォマティクスのスタッフを採用する予算がないからです。採用したとしても、バイオインフォマティクスの専門家をNHS研究所に引き留めておくのは難しいでしょう。優秀な人であれば、論文を発表できる研究機関やより高い報酬を得られる企業に行きたがります。経験豊富なバイオインフォマティクスの専門家は、定期的なサービスを提供したり、データ解析パイプラインを実施したり、結果を評価し発信したりするようなポジションには就きたがりません。
質問:最初にMiSeqシステムを導入したとき、どのようにデータを解析し管理しましたか?
HD:データ解析のため、MiSeqシステム上でBaseSpaceソフトウェア*とMiSeq Reporterソフトウェアを使用しました。
質問:HiSeq 2500およびHiSeq 4000システムを追加してから、データ解析と管理のニーズはどのように変化しましたか?
HD:HiSeq 2500およびHiSeq 4000システムを追加してから、NGSデータ量が飛躍的に増加しました。臨床試験からのターゲットパネルシーケンスの要求は20%増加しており、他のオックスフォード大学のパートナーも遺伝子検査により興味を抱いています。
質問:NGSデータの解析、管理および保管への要求の高まりに対応するため、どのようなオプションを検討しましたか?
HD:サーバーをラボ内に設置する案を検討しましたが、予算を超えることが分かり、サポートするインフラの変更が必要になると考えられました。また、サーバーのメンテナンスにかかる費用は想定以上でした。そこで、2015年にBaseSpace Sequence HubのBaseSpace Appを使用して解析を実施することを決定しました。2016年8月には、拡張可能なストレージ(> 1 TB)および合計24時間のバイオインフォマティクスプロフェッショナルサービスのサポートが利用できるEnterpriseドメインのBaseSpace Sequence Hubに移行しました。BaseSpace Sequence Hubを使えば、バイオインフォマティクスのスタッフやサーバーを必要とせずにデータの解析、保管、発信が可能です。増大するデータ解析量への対応にも役立ちました。
「BaseSpace Sequence Hubでは、NGSデータへのリモートアクセスが可能です。これにより、週末であっても、オフサイトミーティング時でもプロジェクトを中断することなく迅速に対応できます。」
質問:研究対象のNGSデータへのアクセスをどのように管理していますか?
HD:BaseSpace Sequence Hubを使用して、データの解析、保管および配布を行う1つのプラットフォームを構築しました。それによりデータの共有が簡単になり、コスト効率が高まりました。さまざまな研究プロジェクトに対して複数のワークグループを立ち上げ、特定のユーザーにアクセスを許可できます。離れた場所からデータを確認できる点は研究者たちに好評です。
BaseSpace Sequence Hubを使えば、データアクセスをコントロールし、研究プロジェクトのデータを個別に管理できます。研究活動のプライバシーを守ることは重要です。
質問:チームではクラウド上でどのようにデータ解析を行っていますか?
HD:パネルを実行し、適切なBaseSpace Appを選択して実行し、生成データのテクニカルレビューを行います。我々は全員分子生物学者で、熟練したバイオインフォマティクスの専門家ではありません。BaseSpace Appの設定とデータ解析はとても簡単に行えるので助かっています。
質問:プロジェクトをBaseSpace Sequence Hubで管理する恩恵は他にありますか?
HD:BaseSpace Sequence Hubは、NGSデータへのリモートアクセスが可能なため、迅速に結果が欲しい場合やラボから離れている場合に役立ちます。土曜日の午後にランが終了した場合、Integrative Genomics Viewer(IGV)とVariantStudioソフトウェアを使用して、クラウド上で離れた場所からパイプラインを開始し、データを解析できます。BaseSpace Sequence Hubを使えば、週末であっても、オフサイトミーティング時でもプロジェクトを中断することなく迅速に対応できます。
また、リモートアクセスによってランの傾向を調べるのも簡単です。何かおかしい点に気付いた場合、 Sequencing Analysis Viewer(SAV)ソフトウェアを使用して、クラウド上でイルミナのテクニカルサポートとデータを共有できます。テクニカルサポートチームに問題を迅速に特定してもらい、必要に応じてエンジニアを派遣してもらうこともできます。装置を管理するうえで有益です。
質問:どのようなBaseSpace Appを使用していますか?
HD:BaseSpace Sequence Hubでは豊富なアプリが提供されているため、我々の業務の多くがカバーされます。TruSeqカスタムアンプリコンパネルにはTSCAアプリを使用しています。開発および検証の作業では、FASTQCを使用してNGSデータを確認し、FASTQ ToolkitでFASTQファイルの処理、アダプタートリミングやクオリティトリミング、リード長のフィルタリング、ダウンサンプリングを実施します。データを迅速に確認するため、パイプラインにプルダウンできるアプリケーションがいくつかあり、思うがままのパイプラインで解析を行えます。全ゲノムシーケンス(WGS)では、イルミナの全ゲノムシーケンスアプリを使用しています。腫瘍/正常の比較で使用するのはTumor Normal Appです。このアプリでは、Strelka体細胞バリアントコーラーを使用し、体細胞の小バリアント、構造バリアントのほか、腫瘍にマッチするサンプルのコピー数変異(CNA)をコールします。
「BaseSpace Sequence Hubがなければ、この水準のデータ出力と作業効率を得るのにより多くの時間とコストが必要になるでしょう。」
質問:BaseSpace Sequence Hubは国際標準化機構(ISO)認証をサポートしていますか?
HD:NHSユーザーとして、私はISOの認可を得なければならず、すべての実施事項は確認および検証の対象となっています。プロセスを検証するには、すべてのパラメーターを検査し、システムが正常に機能しているか確かめる必要があります。BaseSpace Sequence Hubなど、製造業者から供給されたシステムを使用する場合は、そのパイプラインを検証する責任は製造業者側に帰属します。我々の義務はシステムが機能するか確認することだけです。
また、英国認定機関(UKAS)は、私たちの利用する供給業者がすべての関連基準の認可を受けていることを求めています。BaseSpace Sequence HubはISO 27001認証を受けているため、我々のワークフローでこのステップに対するQAを実行したか証明する必要がありません。
質問:BaseSpace Sequence Hubを使わなくても、あなたのサービスを提供することはできますか?
HD:BaseSpace Sequence Hubがなければ、この水準のデータ出力と作業効率を得るのにより多くの時間とコストが必要になるでしょう。NGSデータを保管し、管理し、共有するためのプロセスとシステムを構築するバイオインフォマティクスの専門家を採用する必要が生じると思います。BaseSpace Sequence Hubを使えば、研究者や臨床医に安全なデータアクセス方法を提供しつつ、データ解析を効率化し、生産性のコスト効率を向上できます。
質問:NGSデータをクラウドに移す前にラボマネージャーが考慮すべきことは何ですか?
HD:クラウドを使用してNGSデータを解析し、保管し、共有することを考えるのであれば、考慮すべき点が多々あります。どれくらいのデータを生成し、どのような種類の解析を行い、どれほどの期間データを保持する必要があるか決定しなければなりません。クラウド上での作業にかかる費用は単にライセンスコストだけではありません。保管および計算に関わる時間のコストも含まれます。NGSのランでは驚くべき量のデータが生成されます。受け取ったFASTQ、BAMおよびVCFファイルがクラウド上の保管スペースを占有し、コスト増大を招いていることに気付いていない場合もあります。得られる恩恵がバイオインフォマティクスのインフラを自前で構築するコストを上回るかどうか計算する必要があります。私たちの場合は、生成するNGSデータの解析、保管、管理、そして共有を行ううえでBaseSpace Sequence Hubを使用することがコスト効率の高い方法です。臨床研究のためだけにサーバーを購入し、バイオインフォマティクスの専門家を採用するコストは、私たちの現在の予算状況からして想定を超えるものです。
また、情報ガバナンスも問題になります。ターゲットパネルでは、取得するデータは患者の秘密保持を維持するため匿名化されます。WGSサービスでは、秘密保持の維持に関する懸念が残ります。現在、参加者の同意を得ることでこの問題を克服していますが、今後も課題の1つとなるでしょう。
質問:将来的にご自身のラボはどのように発展するとお考えですか?
HD:より多くのターゲットパネルを作成し、WGSを用いたラボ独自の臨床評価を確立したいと考えています。出生前アプリケーションのほか、腫瘍および微小残存病変(MRD)の早期検出を行うため、セルフリーDNA解析を開発しています。WGSデータをRNA-Seqと統合する計画もあります。
質問:これらのアプリケーションのデータ解析をBaseSpace Sequence Hubで実施できますか?
HD:BaseSpace Sequence Hubで使用する2、3種類の解析パイプラインを開発済みです。Enterpriseアカウントで、24時間バイオインフォマティクスプロフェッショナルサービスのサポートを受けられるため、イルミナの協力を得て新しいBaseSpace Appを複数開発しています。
このインタビューに登場するイルミナの製品やシステムについての詳細は、以下のリンクからご覧いただけます:
MiSeqシステムについては、 jp.illumina.com/systems/sequencing-platforms/miseq.html
HiSeqシステムについては、 jp.illumina.com/systems/sequencing-platforms/hiseq-2500.html
*BaseSpaceソフトウェアはBaseSpace Suiteの前製品です。