Customer Interview

DRAGEN Bio-ITプラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張

DRAGENプラットフォームにより、GeneDx社は全ゲノム解析への拡張と高精度バリアント同定が可能になりました。

DRAGEN Bio-ITプラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張

DRAGEN Bio-ITプラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張

はじめに

2010年、Kyle Retterer氏はメリーランド州に本社を置くゲノム解析会社であるGeneDxに入社しました。バイオインフォマティクスエンジニアとして入社したRetterer氏は、GeneDx社を単一遺伝子アッセイサービスを提供する会社から、今では全ゲノムシーケンス(WGS)と全ゲノム解析を提供する会社へと成長させるのに貢献しました。

現在、GeneDx社のチーフ・イノベーション・オフィサーとなったRetterer氏は、検査開発とゲノムデータサイエンスを監督しています。近年、同社はエクソームシーケンスからWGSへの移行における問題に直面していました。「NovaSeq 6000システムが生成するWGSデータの量はサンプル当たりでエクソームシーケンスデータの約25倍となり、当社のコンピューティングシステムや処理時間に負担をかけていました」とRetterer氏は述べています。「ゲノムデータ処理にさらに特化し、最適化されたアプローチを取ることに利点を見出しました。DRAGEN(Dynamic Read Analysis for GENomics)Bio-ITプラットフォームは解析時間などの面で私たちのニーズを満たしてくれたのです。」

iCommunityは、GeneDx社におけるゲノム解析サービスの進化および同社の製品提供や成長をサポートするために、WGSデータの二次解析用DRAGENプラットフォームの導入についてRetterer氏にお話を伺いました。

 

 

 

変更テキストはここから
メリーランド州ゲイザースバーグに本社のあるGeneDx社のチーフ・イノベーション・オフィサーのKyle Retterer氏。

 

 

 

質問:GeneDx社のミッションを教えてください。

Kyle Retterer氏(以下、KR):GeneDx社は2000年にSherri Bale氏とJohn Compton氏により設立されました。両氏はNIHの研究者で、超希少疾患のための遺伝子アッセイを開発し、それらのアッセイをサービスとして提供したいと考えました。そこから徐々に拡大していき、対象とする希少疾患を追加して、染色体マイクロアレイや次世代シーケンサー(NGS)などの新しいテクノロジーの出現に合わせて徐々にフォーカスを広げていきました。現在では遺伝性がんや心筋症などの比較的一般的な疾患が主なビジネス分野となっていますが、ここ数年間で最も成長がみられたのはエクソームシーケンスとゲノムシーケンスに焦点を合わせた臨床ゲノムプログラムでした。

質問:社内でのご自分の役割について教えてください。

KR:入社時の私の役割は、NGSへの移行やNGSの発展をサポートするためのデータ処理・解析のパイプラインおよびツールの開発でした。3年間で、主に単一遺伝子アッセイの実施から小さなパネル、そしてエクソームシーケンスに到達しました。

エクソームシーケンスやその他の複雑な解析の発展により、私は新しいアッセイの構想から完了までを手掛けるアッセイ開発グループおよび最新のWGSデータを含む全ゲノムデータを取り扱うデータサイエンスグループのチーフ・イノベーション・オフィサーになりました。

「..DRAGENプラットフォームにより解析アーキテクチャを拡張し、WGSビジネスの発展に対処するスピードを向上させることができます...さらに、減価償却する資本設備を購入しているわけではなく、必要とするレベルのコンピューティングにお金をかけているだけなので、柔軟性も得られます…」

質問:GeneDx社ではどのようなバイオインフォマティクスプラットフォームが使用されていますか?

KR:当社には、長年かけて拡張してきたオンプレミス型高性能コンピューティング・グリッドがあります。通常、別のシーケンサーを購入するたびに、それに応じてコンピューティングシステムとストレージシステムを拡張してきました。NovaSeq 6000、HiSeq 2500、およびMiSeqといった複数のシステム、さらにiSeq 100システムやサンガー法、その他のシーケンス以外のプラットフォームから得られたデータを取り扱います。

2011年にはエクソームシーケンス解析能力の強化を試みました。しかし、当時はその問題のほとんどが未解決でした。エクソームに相当するデータが得られたとして、それをどのように解析できるのでしょうか?今では複数のツールが市販されていますが、当時の選択肢は非常に限られていました。購入または構築の決断を下さなければなりませんでしたが、購入できるものはありませんでした。そのため、GeneDx社内の遺伝学者と協力して独自のバイオインフォマティクスプラットフォームを構築しました。その方がよい場合は、二次解析にGATKやBWAなどのオープンソースツールを利用しました。また、臨床的に重要な状況に対処するためにバリアントコーラーなどのカスタムプログラムも構築しました。さらに、専用の三次臨床解析プラットフォームも開発しました。

質問:WGSデータを生成し始めてからはどのような問題に直面しましたか?

KR:汎用ハードウェアでの解析用にエクソームデータを処理するのは1日以内でできます。WGSデータを現在使用しているアーキテクチャに投入し、エクソームと同じようにゲノムを処理しようとすると、2週間かかります。

これを改善する1つの方法は、高性能コンピューター(HPC)からより多くのコンピューティングリソースをエクソームではなくゲノムの処理に割り当てることでしょう。ただしそうすると、ゲノムがすべてのリソースを長時間独占し続けることになるというボトルネックが生じるおそれがあります。

逆に、放置して処理が終わるのを待つと、サンプルのターンアラウンド時間に悪影響が及びます。また、シーケンサーから質の低いデータが得られると、それも問題になります。例えば、2週間の処理が終わるまでコンタミのあるサンプルを検出することができないかもしれません。

質問:バイオインフォマティクスのオプションにはどのようなものがありましたか?

KR:DRAGENプラットフォームの他にも、従来のハードウェアの追加購入、クラウドへの移行、GPUベースのシステムの追加なども検討しました。1つのゲノムを処理するには、1つのエクソームに必要なハードウェアの約25倍が必要になります。WGS用に25倍のハードウェアを購入したのにゲノムサンプル量が見込みの半分しか得られなかった場合、ハードウェアはほとんど使用されなくなるでしょう。

クラウドはもう1つのオプションでした。クラウドではある程度まで無限に拡張できます。WGSデータの場合、転送が必要なデータ量を考えるとクラウドはあまり合理的ではありません。負荷のかかるタスクを実行するためにオンプレミス型コンピューティングを所有する方が時間とコストの効率が高くなります。また社内のデータセキュリティチームにとっても喜ばしいことでしょう。

すでにいくつかのGPUベースのシステムを検討しました。当社のバイオインフォマティクス開発チームは計算アルゴリズムの実装よりも臨床アプリケーションに着目しているため、検討したシステムは少しばかり特化され過ぎていました。

「DRAGENプラットフォームは当社で使用しているSLURM HPCシステムに直接統合されています。つまり、必要に応じてDRAGENの処理スピードを利用することができるのです。」

質問:どうしてDRAGENプラットフォームに決めたのですか?

KR:最終的に当社が選択したDRAGENプラットフォームは発売から数年経っています。私たちはDRAGENがイルミナの製品となる前からすでにDRAGENチームとは数回話し合いをしていました。DRAGENプラットフォームを追加することで、当社の解析アーキテクチャを拡張し、WGSビジネスの発展に対処するスピードを向上させることができます。さらに、減価償却する資本設備を購入するのではなく必要とするレベルのコンピューティングにお金をかけているだけなので、クラウドにする場合と少し似ていますがオンプレミスの利点も得られるため、DRAGENプラットフォームでは柔軟性も得られます。また、実装しているワークフローの大半は私たちがすでに実行しているGATKに似たワークフローであり、下流でも上流でも既存のパイプラインインフラと良好に統合されます。

現在、当社ではすべてのWGSがNovaSeq 6000システムで実施されており、データはDRAGENパイプラインを経由しています。現在でも、その他のデータは標準的なHPCシステムを介して処理されています。DRAGENプラットフォームは当社で使用しているSLURM HPCシステムに直接統合されています。つまり、必要に応じてDRAGENの処理スピードを利用することができるのです。また、これにより既存のNGSパイプラインへの統合も簡単になりました。

質問:DRAGENプラットフォームの稼働状況について教えてください。

KR:DRAGENプラットフォームのスピードは約束されたとおりでした。全ゲノムを数時間で処理できます。DRAGENプラットフォームは、私たちにとって究極の評価基準であるバリアントコールの質において私たちの期待を超えています。

メンデル型遺伝病の解析では非常に稀なバリアントが重要です。しかし、データに含まれるランダムな確率的ノイズを取り除くことは困難です。WGSのトリオ解析を考えてみましょう。ノイズから20の余分なバリアントが検出され、そのすべてがde novo変異に見える場合、これら20の推定変異を1つずつ調べて、関連の有無を判断しなければなりません。つまり、本当にバリアントなのか、それとも単なるノイズなのかという判断です。これにより余分な解析時間がかかり、サンガー法による確認という追加作業が発生するため、コストが増大し、ターンアラウンド時間が延長します。

私たちは、難しい設定もなくわずかなパラメーター調整のみでDRAGENプラットフォームを使用して、この余分なノイズの大部分を除去することができました。評価が必要なバリアントコール数は減っていますが、その結果として何も失っていません。さらに、DRAGENプラットフォームで処理したWGSでは、過去のパイプラインで処理したものよりも感度がわずかに向上しています。

質問:既存の解析パイプラインに比べてDRAGENプラットフォームはいかがですか?

KR:私たちは、Genome in a Bottleサンプルを用いて現在のパイプラインとの比較でDRAGENプラットフォームを評価しました。indelについては、コール率がわずかに上がり、精度が大幅に上がりました。indelのコール率は、当社の現パイプラインでは約98%ですが、DRAGENプラットフォームでは98.5%まで上がることを確認しました。大幅な増大はindelに対する精度で確認され、全サンプルで一貫して85%から99%に上がりました。

「DRAGENプラットフォームの導入により、迅速全ゲノム解析を提供することも考えられるようになりました。」

質問:既存のアーキテクチャにDRAGENプラットフォームはうまく適合していますか?

KR:ほとんどの人がそうだと思いますが、当社のパイプラインはGATKの「ベストプラクティス」とほぼ同じです。DRAGENプラットフォームはGATKに似ており、既存のコンピューティング・グリッドと統合できます。

当社では階層化アプローチを用いていて、独自に開発したカスタムアルゴリズムがあります。必要に応じて、一部のジョブをDRAGENプラットフォームに送り、その他を従来の計算ノードに送ることができます。

当社のHPCアーキテクチャはSLURM Workload Managerで、接続の際に深刻な問題は一切発生しませんでした。ワークフロー定義言語(WDL)のワークフローを選択し、DRAGENプラットフォームを備えたCromwellを介して実行することができます。本当にすぐに使用できました。

質問:コスト面での比較はどうですか?

KR:一番節約できた点は、WGS解析を実施するために新しいハードウェアを購入しなかったことです。コンピューティングに多くのコストをかける必要がなく、資本が増加しました。NovaSeq 6000システムをもう一台購入した際には、計算用ブレードを追加購入する必要がありませんでした。その代わりに、DRAGENプラットフォームを選んだのです。取り扱うWGSの量を2倍にすれば、DRAGENサーバーのライセンスを追加取得するだけで、これ以上ハードウェアを購入する必要はありません。

質問:ゲノム解析の今後について教えてください。

KR:当社ではターンアラウンド時間が7日の「特急エクソーム」サービスを提供しています。当社にとってもお客様にとってもご満足いただけるプログラムです。DRAGENプラットフォームの導入により、迅速な全ゲノム解析を提供することも考えられるようになりました。これはRady Children's Institute for Genomic Medicineが実施しており、彼らもDRAGENプラットフォームを使用しています。1

メンデル型遺伝病の解析では、最初に選択する方法としてターゲット法を使い続けるのではなくエクソームやゲノムを取り入れる方向に移行する数が増えているのを目の当たりにしています。段階的検査法の代わりにエクソームやゲノムを注文し、そこを出発点としてその後必要に応じてよりターゲットを絞った検査を追加し、フォローアップを行うことができます。多くの場合、これはコスト効率の高いアプローチであり、診断への近道となります。

最終的には、最初に選択する検査としてWGSに移行する遺伝子検査が増えていくと思います。ターゲットを絞った解析を注文する人もいるかもしれませんが、データ生成は全ゲノムになります。一部の人が予測しているようにゲノムシーケンスのコストが大幅に下がれば、最終的にはエクソームを実行する理由がなくなります。今後数年間ですべてがゲノムになり、当社はそのような未来に対応できるようにしておきたいのです。

このインタビューに登場するイルミナのソフトウェアやシステムについての詳細は、以下のリンクからご覧いただけます:

DRAGEN Bio-ITプラットフォーム

NovaSeq 6000システム

MiSeqシステム

iSeq 100システム

参考文献
  1. Rady Team Automates Rapid Pediatric Sequence Interpretation for Rare Disease Dx.GenomeWeb.April 24, 2019.2019年4月24日アクセス。