サンプルから洞察まで:イルミナ5塩基ソリューションによる解析の効率化

前回のブログでは、1つのサンプルから遺伝情報とエピジェネティック情報の両方をキャプチャーする、迅速で自動化に対応したワークフローであるイルミナ5塩基ソリューションを紹介しました。この2番目のブログでは、遺伝性疾患研究、がん検出、集団エピジェネティクスなど、さまざまなアプリケーションにわたってイルミナ5塩基データを解釈する方法について探ります。

ソフトウェアパイプラインは以下で構成されています。

  • BCL変換:シーケンスおよび生リード出力。

  • DRAGEN Secondary Analysis:アライメントされたリードを出力し、バリアントをコールし、メチル化を報告します。DRAGENレポートは、サンプル全体の主要なQCメトリクスを要約します。

  • Illumina Connected Multiomics:複雑なデータセットの可視化、差異的メチル化コール、バリアント-メチル化ジョイント解析、高度なマルチオミクス解析による三次解析とバイオマーカーの発見。

ソフトウェアパイプラインをクラウド(BaseSpace Sequencing HubのDRAGEN、Illumina Connected Analytics、Illumina Connected Multiomics)で実行し、シーケンスシステムからパイプラインを自動的に起動できます。またDRAGENサーバーでDRAGEN Secondary Analysisを実行することもできます。

DRAGENでは、メチル化を考慮したロジックをコアアルゴリズムに組み込み、メチル化出力を既存の標準化データ形式に統合することで、標準的なDRAGEN DNAワークフローを基にした新しい5塩基二次解析モード[1]を開発しました(図1)

図1:DRAGEN 5塩基二次解析
アルゴリズムモデルは、ハッシュテーブルビルダー、map/align、UMI折り畳み、バリアントコーリング、メチル化レポートに更新されます。アリルごとの統合小型バリアントコールとメチル化レポートは、gVCFに出力されます。従来のメチル化レポートもサポートされています(CXレポート形式)。品質管理メトリクス(Mバイアス、コントロールゲノムメチル化など)により、シーケンスと解析の成功が確認されます。

ラン完了後、DRAGENレポートには品質管理(QC)メトリクスの包括的なサマリーが表示されます(図2)。これらのQCメトリクスには、以下のようなメチル化固有のメトリクスが含まれます。

  • メチル化/非メチル化コントロールゲノムのメチル化率:5塩基ライブラリー調製に小さな細菌ゲノム(Lambda/pUC19)をスパイクインし、既知のメチル化レベルのコントロールとして機能します。Lambdaゲノムは0%のメチル化を有し、pUC19ゲノムはCpG位置で97%超に合成メチル化されます。

  • CpG/CpHコンテキストにおけるサンプル中のメチル化率:哺乳類ゲノムにおけるメチル化は、主にCpGシトシンコンテキストで発生します。

  • 両方のDNA鎖に対するリードアライメント率:5塩基リードは、元のDNA鎖の上鎖(OT、+とも表示)または元の下鎖(OB、-とも表示)に等しい比率でアライメントする必要があります。

図2:DRAGENレポートの新しいメチル化メトリクスにより、シンプルな品質管理を実現
(左)哺乳類ゲノムでは、CpGコンテキストにおける全メチル化率は高く(40~60%)、非CpGコンテキストは非メチル化です。スパイクインメチル化および非メチル化コントロールゲノムは、CpGコンテキストで予想されるメチル化レベルを示します。(右)リードは、予想されるDNA鎖OTまたはOBに等しい割合でマップされます。

従来のDNAライブラリー調製では、特定のリードのDNA原点鎖は不明です。対照的に、5塩基ライブラリー調製では、シーケンスされた断片(リードペア)をその原点鎖に割り当てる指向性アダプターを使用します。一般的に、2本のDNA鎖は、元の上(+)と元の下(-)と表示されます。慣例上、リファレンスゲノムシーケンスは、元の上(+)のDNAシーケンスをコードしています(図3)。次に、標準的なカバレッジ(30X超)にシーケンスすることで、両方のDNA鎖がゲノム領域に現れます。この表現により、シーケンスバリアント(所定のゲノム位置で両方のDNA鎖に存在する)の視覚化とシトシン塩基のメチル化(所定のゲノム位置で1本の鎖にのみ存在する)が可能になります。図3Cでは、典型的なメチル化領域が示されており、ここで連続するCpGジヌクレオチドがメチル化されています。この領域には、CpGメチル化とは対照的に、指定されたゲノム位置で両方のDNA鎖にC>T変異のエビデンスを示すC>Tヘテロ接合性バリアントも含まれます。

図3:シトシンメチル化により、配列バリアントとは異なる鎖状のシグネチャが生成される
(A)メチル化CpGジヌクレオチドを含むDNA断片は、ライブラリー調製でC>T変換を受けます。リファレンスゲノム(+)鎖シーケンスのシーケンスとアライメントの後、断片は(+)鎖リードのC>T変異または(-)鎖リードのG>A変異として現れます。
(B)非メチル化アリルA-C-G-Tは、標準的なDNAライブラリー調製と同様にシーケンスされます。一致するアリル塩基は(+)鎖と(-)鎖の両方に存在します。
(C)メチル化CpGジヌクレオチドとC>Tヘテロ接合性バリアントを含む領域の図。リードはDNA由来鎖(+,−)でグループ化されます。メチル化CpGジヌクレオチドは、一度に1本の鎖にのみ存在する変異で示され、C>T配列バリアントは両方の鎖に同時に変異を持ちます。

ゲノムブラウザでアライメントされたリードを検査することで、関心領域のバリアントとメチル化状態に関する情報を収集することができます。例えば、Kabuki症候群の患者では、KMT2D遺伝子にバリアント(chr12:49,024,720G>C)があり、Kabuki症候群に関連することが知られている関心領域の明確なエピシグネチャーまたは過剰/低メチル化が見られます

図4:Kabuki症候群患者のバリアントとメチル化状態の可視化
(A)Kabuki症候群を示す領域全体で、健常対照と比較して被験者に異なるメチル化が観察されます[2]
(B)KMT2Dリジンメチルトランスフェラーゼ遺伝子のスプライシングバリアント(chr12:49,024,720 G>C)は、Kabuki症候群に関連することが知られています。このバリアントはIntegrative Genomics Viewer(IGV)ブラウザでヘテロ接合性として表示されます。1つのアリルにのみ存在しています。さらに、この領域は、周囲のCpG部位でハイパーメチル化されています。メチル化シトシンはチミンとして読み取られます。(+)鎖からのピンク色のリードではC>T、-鎖からの青色のリードではG>Aとして現れます。リード鎖はリードの向きで符号化されます(ペアの第1リードの鎖にはIGVリードカラーリングを使用します)。

DRAGEN Germlineランから、バリアントコーラーは小さなバリアントVCFファイルに出力されるG>Cヘテロ接合性バリアントをコールします。

#Chrome Pos Ref Alt Qual Filter  
chr12  49024720   G C 50 Pass

 

gVCF(または従来のCXレポート形式)では、関心領域のシトシンメチル化レベルごとにクエリを行い、ゲノムブラウザで視覚化するためにbedGraph形式に変換することができます。イルミナ5塩基ソリューションでは、gVCFファイルに直接メチル化レポートを導入し、1つのファイルでゲノムワイドの小さなバリアントとメチル化の正確なレポート作成と高いファイル圧縮を可能にします。この圧縮は、小規模な単一サンプル解析から大規模な集団規模の研究まで、幅広くサポートします。gVCF出力は、VCF 4.5仕様で新しいメチル化フィールドを導入したものに準拠しています。

  • M5mC:シトシンアリルあたりのメチル化率

  • DPM5mC:シトシンアリルあたりのカバレッジ

  • INFO:M5mC: シトシンアリルコンテキスト

5塩基データからのバリアントコールは、非常に正確です。イルミナ5塩基ソリューションの高いデータ品質(高いカバレッジ均一性、低いエラー率)や、5塩基データ用に調整した最先端のDRAGENアルゴリズムなど、小さなバリアントコールでは5塩基のパイルアップで得られる情報を最大限に活かすように、コーラーを適応させました。具体的には、(+)鎖リード上のチミンがメチル化シトシンになりうるように、コーラーモデルを拡張します(− 鎖リードのアデニンも同様)。重要なのは、(+)鎖と(-)鎖の両方にリードエビデンスを使用することで、遺伝子型を正確に解析できることです(図5)。さらに、DRAGENは、呼び出されたバリアントアリルの各シトシンにおけるメチル化レベルを判定できます。その結果、イルミナ5塩基ソリューションは、CpGをCpHコンテキストに変える、またはその逆によって、ローカルでメチル化レベルを変えるC>GまたはG>Cバリアントなどのバリアントとメチル化の間の微妙な局所的な相互作用を検出します(図5)。

図5:バリアントアリルにおけるシトシンあたりの小さな生殖細胞系列バリアントコーリングとメチル化レベルの推定 
(上) メチル化Cアリルを含むことができる3つのヘテロ接合性遺伝型の例。いずれの場合も、DRAGEN 5塩基ジェノタイパーは両方のDNA鎖にわたる情報を使用して両方のアリルを呼び出します。ジェノタイピング後、CまたはGリファレンスアリルあたりのメチル化レベルは、(+)鎖または(−)鎖上の過剰なC>TまたはG>A変異を定量化することでコールされます。(左下)NA12878のイルミナ5塩基ソリューションの生殖系列SNVコール精度はWGS(Bis-SNPによって処理されたEM-seq およびバイサルファイト、DRAGENによる5塩基およびWGS)。(右下)NA12878におけるヘテロ接合性バリアント(C>GまたはG>C)の検出。これらは、アリル性シトシンコンテキスト(CpGからCpH、またはその逆)を変化させることで、メチル化ステータスのアリル特異的変化(紫、オレンジ色)を導入します。例えば、G>Cバリアントは、CGHアリルをCCHアリルに変換し、そこでCpGコンテキストは代替CCHアリルで失われます。

前述のアルゴリズムの更新により、体細胞Tumor-onlyおよび腫瘍正常モードでの小規模バリアントコーリングもサポートされています。図6は、NA12877およびNA12878からのnpDNAの混合物から、バリアントを0.5%、1%、および2%のバリアントアリル頻度(VAF)でcfDNAを模倣し、NA12877およびNA12878からのgDNAの混合物から2.5%、5%、10%、および20%のVAFで真のバリアントを得るために調製したライブラリーの感度プロットを示しています。75 kbまたは1 Mbのラベルは、Illumina 5-Base DNA Prep with Enrichment用に設計されたイルミナCustom Enrichment Panel v2の2つのパネルの一部で、75 kbまたは1 Mbのゲノムを対象としています。大規模なバリアントコーリングも、コアDRAGENモデルの調整をもって正確であることがわかりました(図6)。その結果、DRAGEN 5塩基ランではコピー数バリアント(CNV)コーリングが利用可能となり、今後のソフトウェアリリースで構造多型コーリング(SV)とショートタンデムリピート(STR)コーリングをリリースする予定です。

図6:DRAGEN 5塩基は、体細胞性小型バリアントコーリングもサポートし、大型バリアントをコールすることができる
(上)さまざまなバリアントアリル頻度での体細胞SNV検出の感度。(下)Rubinstein-Taybi症候群患者のCREBBP遺伝子に病原性コピー数欠失が検出されます。

リードは、リード内のシトシンのジョイントメチル化ステータスに基づいて分類することで、メチル化または非メチル化として、信頼性高く標識できます。これは、個々のリードで低シグナルを検出することを目指すアプリケーションに有用です(例えば、がんの早期発見や微小残存病変(MRD)のスクリーニングなど)。Lambdaの非メチル化ゲノムなどのコントロールゲノムを使用すると、イルミナ5塩基ソリューションのメチル化リード分類エラーは、2つ以上のCpGのリードでは10 PPM(百万分率)未満です(図7)

図7:BAM XMタグを使用したメチル化ステータスによる超高精度のリード分類
(左)Unmethylated Lambda phage DNAは、イルミナ5塩基DNA Prepで処理され、シーケンスされます。低頻度のC>Tエラーにより、シトシン塩基がBAM XMタグでメチル化と誤ってマークされる場合があります。(右)ラムダファージDNA断片のごく一部のみがメチル化に分類されます(2+ CpGジヌクレオチドのリードペアでは10ppm未満)。70%を超えるCpGシトシン塩基がリードペアでメチル化されると、フラグメントはメチル化と分類されます。

マルチオミクスの解釈および統合

Illumina Connected Multiomicsは、5塩基メチル化とゲノムマルチオミクス解析を合理化する強力なデータサイエンスプラットフォームを提供します。このプラットフォームは、DRAGENからの生データを実用的な生物学的洞察に変換する複雑なワークフローをカスタム設計することを可能にします。複数のユーザーが解析の進捗状況を追跡し、データサイエンス実験を並行して共同で実行し、インタラクティブなダッシュボードを作成して結果を伝達できます。

このプラットフォームはDRAGENの出力を取り込み、マルチサンプルデータ構造を作成し、コホートレベルでの合理化された解析を可能にします。このアーキテクチャは、データクオリティフィルター、教師なしクラスター化、および差異的メチル化解析などの一般的なタスクを簡素化します。以下の代表的な解析ワークフローは、急性骨髄性白血病(AML)患者コホートにおけるConnected Multiomicsの機能を示しています。Connected Multiomicsのより詳細な説明は、次のブログ記事に掲載します。

データ品質管理

プラットフォームはまずDRAGENの出力を取り込み、マルチサンプルコホートレベルでデータセットを要約して、品質管理メトリクスによるデータのフィルタリングなどのタスクを合理化します。図8は、コホート全体の一般的な全ゲノムシーケンスの品質管理メトリクスの分布を視覚化するダッシュボードを示しています。

図8:品質管理ダッシュボード

教師ありおよび教師なしのクラスタリング

サンプルコホートの作成後、ユーザーはクラスター化などの探索的解析を行い、コホートの全体的な違いを視覚化することができます。Connected Multiomicsにより、ユーザーはCpG位置に基づいてだけでなく、CpGメチル化がこれらの特徴にわたって平均化されるプロモーター領域などのより大きな特徴に基づいても、クラスター化することができます。解析の生物学または臨床状況に合わせたカスタム機能セットを使用して、クラスター化パフォーマンスを向上させることもできます。図9は、ユーザーまたはチームがさまざまなUMAPパラメーターでクラスター化パフォーマンスを探索する方法を示しています。

図9:UMAPクラスタリングの一般的なパラメータースクリーニング

差異的メチル化領域コーリング

Connected Multiomicsは、分散収縮を使用するシーケンスデータ用(DSS)の広く使用されているDMRコーラーをインタラクティブなサンドボックス環境に直接統合することで、DMR(差異的メチル化領域)の同定を合理化します。サンプルグループは、PCA/UMAPタスクのメタデータまたはクラスターラベルから作成できます。DSSは、CpG位置のメチル化をベータ二項分布としてモデル化し、サンプル群間の統計的に有意な差異的メチル化位置をつなぎ合わせてDMRを作成します[3]。図10は、下流解析のためにDMRを簡単に視覚化し、フィルタリングする方法を示しています。IDH変異を保有するAML患者は、通常、高メチル化表現型を有しており、これは高メチル化DMRの数が多いことに反映されています。diff.Methyは、特定のゲノム領域における2つのサンプル群間の平均メチル化の差を表し、その長さはDMRの塩基対長です。areaStatは、DMR内のすべてのCpG位置の統合された統計的有意性であり、DMR長と最も強く関連しています。メチル化の差が大きく長さの大きいDMRほど、areaStatの絶対値が大きくなります。有意性ラベルは、ユーザーがDMRを解釈するのに役立つガイドとして提供されています。しかし、ユーザーは、特定の研究の文脈において、各DMRの生物学的関連性を最終的に評価する必要があります。

図10:一般的に有用なDMRメトリクスに基づくDSS DMRコーリング結果の火山プロット

結論

イルミナ5塩基ソリューションとDRAGENパイプラインは、ゲノミクスにおいて何が可能かを再定義し、遺伝学とエピジェネティックな洞察を1つの効率的なワークフローに統合します。当社は、サンプルからインサイトまでのプロセスを簡素化し、加速するソフトウェアソリューションを設計しました。これは、複数のアプリケーションにわたり、遺伝性疾患、がん生物学、および集団規模の研究を含みます。

イルミナ5塩基ソリューションの詳細については、ゲノムおよびメチロームシーケンス | メチローム解析とDNAバリアントを参照してください。

参考文献

[1] クラウドでDRAGEN 5塩基を実行するには、https://help.connected.illumina.com/dragen-5-baseを参照してください。ローカルサーバーからDRAGEN 5-baseを実行するには、https://help.dragen.illumina.com/product-guide/dragen-v4.4/dragen-recipesを参照してください。

[2] Aref-Eshghi, E., Schenkel, L. C., Lin, H., Skinner, C., Ainsworth, P., Paré, G., … Sadikovic, B. (2017). The defining DNA methylation signature of Kabuki syndrome enables functional assessment of genetic variants of unknown clinical significance. Epigenetics, 12(11), 923–933. https://doi.org/10.1080/15592294.2017.1381807

[3] Feng, H. & Wu, H. (2019). Differential methylation analysis for bisulfite sequencing using DSS. Quant Biol.  https://doi.org/10.1007/s40484-019-0183-8