ゲノムデータ圧縮

ロスレスゲノムデータ圧縮

Enancioのテクノロジで軽減されたゲノムデータの保存と転送コスト 

DNA Helix

ゲノムデータ圧縮のメリット

イルミナは革新的なシーケンステクノロジーを提供し、急増する次世代シーケンサー(NGS)データアウトプットを管理するお客様の手助けになるべく日夜取り組んでいます。Enancioのゲノムデータの可逆圧縮テクノロジーは、現在はORA(original read archive)として知られており(旧Lena)、最適レベルの処理速度と効率をもたらします。

ゲノムデータ圧縮のメリット:

  • 低いデータ保存コスト
  • 高速データファイル転送
  • 内部ネットワークトラフィックの削減

ロスレスゲノムデータ圧縮テクノロジー

ロスレスゲノムデータ圧縮テクノロジーにより、イルミナシーケンスシステムからのアウトプットを圧縮する場合よりもデータストレージフットプリントを5倍削減することが可能です。ORA圧縮テクノロジーでは、リファレンスベースの圧縮方式を使用します。この方式では、超高速マッピングスキームで、読み取り値をリファレンスゲノムにマップし、それらの読み取り値の再現に必要なデータのみ(位置、差分リスト)を保存します。

Enancio以外のデータ圧縮テクノロジーでは、処理速度が低速になりがちです。ORAテクノロジーは、データの整合性を維持しながら、高圧縮率だけでなく高速圧縮と高速解凍にも最適化されています。クオリティスコアは、さまざまなクオリティスキームに採用されているレンジエンコーダーとコンテキストモデルを利用して、ロスレス方式でコード化されています。

DRAGEN ORA解凍ソフトウェアにアクセス

ORA圧縮テクノロジーで圧縮されたファイルはすべて弊社の解凍ソフトウェアで簡単に解凍できます。解凍ソフトウェアは無料でダウンロード、利用できます。

解凍ソフトウェアのダウンロード

解凍ソフトウェアをいったんインストールすれば、BWA、STAR、Bowtieなど、さまざまな定評あるマッピングツールに、特別な準備をすることなく簡単なコマンドで、解凍ファイルのアウトプット先を直接パイプ処理できるようになります。圧縮/解凍テクノロジーもDRAGEN二次解析ソフトウェアに統合され、これによりシーケンスデータを正確に超高速解析することができます。

DRAGEN二次解析について見る

DRAGEN ORAおよびNextSeq 1000-2000
ロスレスゲノムの圧縮を装置内で実現

DRAGEN ORAロスレスゲノムデータ圧縮は、NextSeq 1000システム、NextSeq 2000システム、NovaSeq Xシリーズ、およびv3.8以降のDRAGEN二次解析サーバーで装置上で利用可能になりました。詳細はこちら:

NextSeq 1000/2000システム
NovaSeq X シリーズ
DRAGEN二次解析

Enancioは、最近、イルミナグループに加入した会社であり、特にゲノムデータを対象にしたプロプライエタリロスレスデータ圧縮テクノロジを擁しています。フランスのセッソンセビニェに拠点を置くこのソフトウェア企業のおかげで、他に例を見ないバイオインフォマティクスオファリングスィートを、ゲノムデータ処理、ストレージ、転送をより効率的でユーザーフレンドリにするという目標に結び付けることができます。

記事を読む:Enancioがイルミナファミリーに加わりました
DRAGEN ORAの仕組みを可視化

DRAGEN ORAロスレス圧縮は、特にゲノムデータに向けたテクノロジーです。DNAシーケンスはリファレンスベース方式で圧縮されます。すなわち、読み取り値は、圧縮のために考えられた超高速マッピングスキームでリファレンスゲノムにマップされます。ここでは、コンパクトなバイナリフォーマットを使用して読み取り値を位置と差分リストとしてコード化して、エントロピーコーダーで処理します。クオリティスコアは、さまざまなクオリティスキームに採用されているレンジエンコーダーとコンテキストモデルを利用して、ロスレス方式でコード化されています。

圧縮テクノロジーの利点について学ぶ

DRAGEN ORA圧縮テクノロジでは、gzipと比べて、FASTQファイルのデータのフットプリントが、5分の1になります。それはそのままストレージコストの節約になり、より高速なファイル転送の実現になります。

ORA圧縮テクノロジーは、段階的にすべてのイルミナポートフォリオに統合されています。これにより、fastq.gz1の場合よりも最大で5倍コンパクトなFASTQ圧縮ファイルを生成することが可能です。圧縮に関しては、NextSeq 1000システム、NextSeq 2000システム、NovaSeq Xシリーズで利用可能です。v3.8リリース以降、圧縮操作はDRAGEN サーバーでも利用できるほか、FASTQ圧縮ファイルをDRAGENマッパーにネイティブフォーマットで取り込むことが可能です。

NGSワークフローの際に、オプションで圧縮操作をしてfastq.ora圧縮ファイルを生成できます。DRAGEN v3.8リリースでは、fastq.oraファイルをDRAGENマッパーに直接取り込むことで、シームレスな統合が可能です。さらに、fastq.oraファイルは、他のマッピングやダウンストリーム解析のためにその場で解凍可能です。下図に示すとおり、DRAGEN BCL変換における圧縮操作の統合でワークフローが合理化されます。

DRAGENで使用するORA圧縮テクノロジー
DRAGEN二次解析で使用するORA圧縮テクノロジー
従来のプロセスでは、圧縮は追加ステップでした
Enancio加入前:スタンドアロンソフトウェアとしての圧縮。圧縮ステップが余分です。

この圧縮テクノロジーのアウトプットは、圧縮FASTQバイナリファイルフォーマットです: fastq.ora。このファイルフォーマットは、保存と共有が可能なため、ストレージコストの大幅な節約になり、ファイル転送時間も短縮されます。圧縮されたすべてのファイルは、無料で利用できる解凍ソフトウェアで解凍することが可能です。

fastq.oraファイルは、マッピングや下流の解析用に特別な準備をすることなく解凍でき、DRAGENに直接取り込まれます。

235 GBのFASTQローファイルを、gzipでは55 GBに圧縮できます。データのフットプリントは、DRAGEN ORA圧縮テクノロジー2ではさらに11 GBにまで削減します。

FASTQファイルと、BAMファイルやCRAMファイルは、一般に異なる目的で保存します。ただ、fastq.oraファイルでは、MD5サムを保存して対応するCRAMファイルよりも小さいフットプリントで生データの圧縮コピーを保存できます。

DRAGENでは、FASTQとBAMを、それぞれfastq.oraとCRAMのように、2種類のフォーマットの圧縮ができるようになりました。

圧縮機能を利用するかしないかはユーザーの任意です。DRAGENユーザーが必要なストレージストラテジを採用するかしないかは自由です。イルミナのFASTQ圧縮ファイルフォーマットへの変換を実行して、それらのファイルを保存するか、それともDRAGEN ORA圧縮ファイルフォーマットfastq.oraへの変換機能を無効にして、fastq.gzで保存するか、それともBAMファイルやCRAMファイルで保存するかお好きな方法をお選びください。

DRAGEN 3.8リリースでは、データ圧縮はシームレスであり、fastq.ora圧縮ファイルがDRAGENマッパーに直接取り込まれます。

さらに、無料解凍ソフトウェアをインストールすれば、簡単なコマンドで解凍ファイルのアウトプットを特別な準備をすることなく、BWA3、STAR4、Bowtie5などさまざまなマッピングツールに直接パイプ処理できます。

DRAGEN ORA FASTQ 圧縮ファイルは共有できます。解凍ソフトウェアは無料でご利用いただけます。無料解凍ソフトウェアをいったんインストールすれば、BWA3、STAR4、Bowtie5など、さまざまな定評あるマッピングツールに、特別な準備をすることなく簡単なコマンドで、解凍ファイルのアウトプット先を直接パイプ処理できます。

関連ソリューション

ゲノムデータの保存とセキュリティ

ビルトインの高速で拡張性を備えたクラウドで、大量のゲノム/NGSデータセットを安全に保存、処理、共有します。

シーケンシングデータ解析

弊社のシーケンスデータ解析ソフトウェアを使用すると、解析ワークフローの構成と実行にかかる時間が短縮されるため、研究に多くの時間をかけることができます。

イルミナインフォマティクス製品ポートフォリオ

ゲノムデータ解析と管理を合理化するためにデザインされたインフォマティクス製品のさまざまな品揃えをご紹介します。

圧縮テクノロジに関するご質問はありませんか?

詳しい内容については私どもにおたずねください。

参考文献
  1. NextSeq 1000およびNextSeq 2000システム、NovaSeq 6000システムで生成されたファイル上。
  2. この結果は、NovaSeq 6000システムで、有効範囲30xに設定してNA12878シーケンスを実施したDNAサンプルから得られました。データはBaseSpaceプロジェクトで公開しています:basespace.illumina.com/s/3ExEZMlH8Lkq
  3. Li H. and Durbin R. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.
  4. Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29(1): 15–21.
  5. Langmead B. et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology 2009 10:R25