シーケンスファイル形式

シーケンスデータの下流解析に適したファイル形式の選択

イルミナシーケンス用のファイル形式

データを、クオリティスコア付きFASTA形式(FASTQ)ファイルなどの互換性のあるシーケンスファイル形式へ変換するための多様なオプションが用意されており、次世代シーケンシング(NGS)データの下流解析に対応できます。イルミナのシーケンスシステムは、データ管理、解析、および共同作業のために、データをクラウドベースのイルミナインフォマティクスプラットフォームへ容易にストリーミングできるよう設計されています。

生データファイルは、大規模なコホートの合理化された集約とマイニングのために、標準化されたデータ形式と互換性がある、または容易に変換可能なシーケンスファイル形式で提供されます。

Back and profile close up image of a female HCP holding a pen over a notebook, looking at another HCP with an open laptop screen showing results in the background.

FASTQシーケンスファイル形式

FASTQ ファイルには、各塩基のクオリティスコアが、情報交換のための米国標準コード(ASCII)文字として表されたシーケンスデータが含まれるテキストファイルです。

FASTQファイル形式

FASTQは、生シーケンスデータとクオリティスコアの両方を格納する、テキストベースのシーケンスデータファイル形式です。FASTQファイルは、イルミナのシーケンスシステムから得られるNGSのデータを保存する標準形式であり、幅広い二次データ解析ソリューションへの入力として使用できます。

FASTQファイルには最大で数百万のエントリが含まれることがあり、ファイルサイズが数メガバイトまたはギガバイトになる場合があります。そのため、その容量が大きすぎるために一般的なテキストエディターでは開けないことがよくあります。通常、FASTQファイルは下流のデータ解析を行うツールの入力として使用される中間出力ファイルであるため、内容を閲覧する必要はありません。

FASTQ ORAファイル形式

FASTQ Original Read Archive(ORA)ファイルは、大容量のNGSデータファイルの保存、管理、および共有を容易にする可逆データ圧縮ファイルです。このファイル形式により、ファイルサイズ、転送時間、データ保管費用を削減できます。FASTQ ORAファイルは、データの整合性を損なうことなく、従来のfastq.gz形式のFASTQファイルに比べて最大5分の1サイズまで小さくなります。FASTQ ORAファイルはIllumina DRAGEN二次解析ソフトウェアを使用しで生成できます。

すべてのfastq.oraファイル形式は、イルミナが提供する無料のDRAGEN ORA Decompression Softwareにて読み取ることができます。インストール後は、簡単なコマンドを実行するだけで、解凍出力をBWA11、STAR2、Bowtie3など、一般的なマッピングツールに直接渡すことができます。

可逆データ圧縮でコストと時間を削減

可逆ゲノムデータ圧縮のメリットや、DRAGEN二次解析のORAファイルが、どのようにデータ解析時間とデータ保管コストを大幅に削減する方法について、詳細をご覧ください。

BCLシーケンスファイル形式

バイナリーベースコール(BCL)ファイルには、イルミナシーケンスシステムで生成された生データが含まれます。BCLシーケンスファイル形式をユーザー開発またはサードパーティ製のデータ解析ツールで使用するには、FASTQ形式に変換する必要があります。

DRAGEN二次解析では、そのパイプラインパッケージの一環として、BCL形式からFASTQファイルへの迅速な変換が可能な機能を提供しています。また、イルミナもBCLファイルをFASTQファイルに変換するためのBCL Convertソフトウェアを提供しています。BCL Convertは、データのデマルチプレックス処理を行い、下流解析用のBCLファイルを標準的なFASTQファイル形式に変換するスタンドアロンのソフトウェアソリューションです。

その他のシーケンスファイル形式

FASTQファイルは、シーケンスデータ解析における代表的な初期書式です。しかし、BaseSpace Sequence Hubで、二次解析や三次解析のプログラムで使用される一般的なその他のファイル形式も作成できます。

NGSデータの二次解析または三次解析の過程では、イルミナソフトウェアプラットフォームやアプリでは、解析ワークフローの一環として、生シーケンスファイルをFASTQファイルから他のシーケンスファイル形式(*.vcf、*.bamなど)に変換することがよくあります。

Front view of two female HCPs leaning on a standing desk, one is pointing to the monitor and the other is looking at the monitor; office supplies are on the desk next to another desktop and keyboard; blurry in the background is an easel with a hand-drawn chart.

オンコロジー向けイルミナインフォマティクス

イルミナのスタッフ ソフトウェア テクニカルプロダクトマネージャーであるDylan Barfield氏が、イルミナのAIとバイオインフォマティクスの進歩が、個別化がん医療をより身近にするための研究をどのように加速しているかについて解説します。

シーケンスファイル形式 FAQ

FASTQ、FASTQ ORA、BCLなど、イルミナのシーケンスデータに一般的に使用されるファイル形式は多数あります。以下に、イルミナのシーケンスデータで一般的に使用される追加のファイル形式をいくつか示します。

  1. SAM:シーケンスアライメントマップファイルは、リファレンスシーケンスにマップされたシーケンスのアライメント情報を含むテキストファイル形式です。
  2. BAM:バイナリーアライメントマップファイルは、バイナリ形式のシーケンスアライメントから得られる出力です。BAMファイルはSAMファイルよりも小さく、ソフトウェアでより効率的に処理できます。
  3. CRAM:圧縮リファレンスベースのアライメントフォーマットは、リファレンスとは異なるベースコールのみを含むBAMファイルの非常に圧縮された代替です。
  4. VCF:バリアントコール形式は、バリアント情報(一塩基多型(SNP)、Indel、融合遺伝子、および小さなバリアントなど)の保存に使用される標準化されたテキストファイル形式です。

クオリティスコアは、塩基が誤って呼び出される確率を測定し、低品質データをフィルタリングして解析精度を向上させるために不可欠です。クオリティスコアはPhredスケール上にあり、値が高いほどエラーの可能性が低くなります。実際のアプリケーションでは、これらのスコアはリード品質の評価によく使用され、下流のステップの前にトリミングとフィルタリングの決定に情報を提供します。4

シーケンスクオリティスコアの詳細をご確認ください。

大規模なFASTQデータセットの管理には、FastQCなどのツールによるデータ品質チェックの実行、大きなファイルの圧縮、古いデータセットのアーカイブ、クラウドストレージの使用など、いくつかのベストプラクティスがあります。これらのベストプラクティスに従うことで、特にチェックサム検証と組み合わせた場合、データ保管効率を改善し、再現性を確保し、データの完全性を維持するのに役立ちます。5

ゲノムデータ保管のためのクラウドベースソリューションの詳細

DRAGENオリジナルリードアーカイブ(ORA)のロスレスゲノムデータ圧縮技術については、ゲノムデータ圧縮ページをご覧ください。

/

補足資料

開発者ポータル

ユーザーガイド、リリースノート、その他の技術情報をご覧いただけます。

NGSトレーニング

専門インストラクターによるNGSのハンズオントレーニングを実施しています。ライブ形式または自分のペースで学べるオンラインコース、その他の教育リソースも提供しています。

DRAGEN二次解析パイプライン

ゲノム、エクソーム、トランスクリプトーム、メチローム研究など、さまざまなNGS実験タイプをサポートするDRAGEN二次解析パイプラインをご覧ください。

お問い合わせ

シーケンスファイル形式の詳細については、お気軽にご相談ください。

参考文献

  1. Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 2010;26(5):589-595. doi:10.1093/bioinformatics/btp698
  2. Dobin A, Davis CA, Schlesinger F, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29(1):15-21. doi:10.1093/bioinformatics/bts635
  3. Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009;10(3):R25. doi:10.1186/gb-2009-10-3-r25
  4. Hemstrom W, Grummer JA, Luikart G, Christie MR. Next-generation data filtering in the genomics era. Nat Rev Genet. 2024;25(11):750-767. doi:10.1038/s41576-024-00738-6
  5. Kumar S, Singh MP, Nayak SR, et al. A new efficient referential genome compression technique for FastQ files. Funct Integr Genomics. 2023;23(4):333. Published 2023 Nov 11. doi:10.1007/s10142-023-01259-x