Illumina Connected Multiomicsは、5塩基メチル化とゲノムマルチオミクス解析を合理化する強力なデータサイエンスプラットフォームを提供します。このプラットフォームにより、チームはシームレスに設計、実験、コラボレーションし、従来は複雑だったワークフローとリアルタイムで対話できます。Connected Multiomicsは生データを実用的な生物学的洞察に変換します。DRAGENの出力を、コホートレベルの解析を容易にする統一されたマルチサンプルデータ構造にまとめます。このアーキテクチャは、データ品質のフィルタリング、教師なしクラスタリング、および差異的メチル化解析などの一般的なタスクを簡素化します。さらに、有益なメチル化特徴量とゲノムバリアントのマルチオミクス統合を可能にします。ここでは、急性骨髄性白血病(AML)サンプルコホートを用いて、Connected Multiomicsの機能を紹介する代表的な解析ワークフローを実演します。
データ品質管理
プラットフォームはまずDRAGENの出力を取り込み、マルチサンプルコホートレベルでデータセットを要約します。図1は、コホート全体の一般的な全ゲノムシーケンスの品質管理メトリクスの分布を視覚化する自動生成されたダッシュボードを示しています。サンプルあたりのメチル化率は、サンプルゲノムのすべてのCpG位置における平均メチル化レベルとして定義されます。非メチル化コントロールの割合とメチル化コントロールの割合は、スパイクインコントロールゲノムのすべてのCpG位置の平均メチル化を表し、メチル化変換効率の評価に使用されます。メチル化コントロールのメチル化レベルが高く、非メチル化コントロールのメチル化レベルが低い場合、変換品質が向上することを示します。
図2は、関心のあるQCメトリクスのヒストグラムを視覚化し、カスタムフィルターを設定する方法を示しています。これらのフィルターはサンプルを除外して、下流のデータ解析の質を向上させる可能性があります。
教師ありおよび教師なしのクラスタリング
サンプルコホートが定義された後、クラスタリングなどの探索的解析を実行して、データセット内の全体的な構造と不均一性を視覚化できます。Connected Multiomicsは、単一CpG解像度と、プロモーター領域などの集約されたゲノム特徴量(各特徴量にわたってCpGメチル化が平均化される)の両方でのクラスタリングをサポートします。さらに、研究のコンテキストに合わせたカスタム特徴量セットを定義して、クラスタリング性能をさらに高めることができます。
図3は、一般的なプロモーター領域またはAML固有のエピゲノム特徴量のカスタム領域セットを使用して、主成分解析(PCA)のクラスタリング性能を評価する方法を示しています。特に、KMT2ArおよびIDH変異症例を含む特定のAMLサブタイプは、AML固有の特徴量を使用してクラスタリングを行うと分離が改善されます。クラスタリング性能をさらに向上させるために、UMAPやt-SNEなどの非線形次元削減法もサポートされています。しかし、これらの手法ではパラメータの最適化が必要になることがよくあります。
均一マニフォールド近似およびプロジェクション(UMAP)では、主成分の数や最近傍数などのパラメーターを慎重に調整する必要があります。図4に、複数のUMAP最適化を設定し、結果を一緒に視覚化する方法を示します。このUMAPパラメーター画面から、UMAPパラメーターセット3はすべてのAMLサブタイプの強力な分離を達成します。
クラスタリングの結果を検証するために、図5は、クラスター数の範囲にわたってk-meansクラスタリングを適用し、このデータセットの最適な数として5を特定することを示しています。クラスター数パラメーターを5に設定して、UMAPにk-meansのクラスタラベルでアノテーションを付けることができます。この定量的一致により、目視で観察されるクラスターの生物学的関連性が確認されます。
差異的メチル化領域コーリング
Connected Multiomicsは、シーケンスデータの分散収縮(DSS)を使用する、広く使用されているDMRコーラーをインタラクティブな環境に直接統合することで、DMR(差異的メチル化領域)の同定を合理化します。サンプルグループ化は、PCA/UMAPタスクのメタデータまたはクラスターラベルから定義できます。DSSは、CpG位置のメチル化をベータ二項分布としてモデル化し、サンプル群間の統計的に有意な差異的メチル化位置をつなぎ合わせてDMRを作成します。図6は、下流解析のためにDMRを簡単に視覚化し、フィルタリングする方法を示しています。文献と一致して、IDH変異を保有するAML患者は一般的に広範囲の高メチル化表現型を有しており、その結果、低メチル化DMRと比較して高メチル化DMRの数が多くなります。diff.Methyメトリクスは、特定のゲノム領域における2つのサンプル群間の平均メチル化差を表し、長さはDMRの塩基対長です。areaStatメトリクスは、DMRにおけるすべてのCpG位置の統計的有意性と統合されており、これはDMRの長さと最も強く相関しています。メチル化の差が大きいDMRが大きいほど、areaStatの絶対値が大きくなります。有意性ラベルは、DMRの解釈を一目で理解するためのガイドとして提供されています。ただし、DMRの解釈の指針として、生物学的背景と研究固有の事前知識を使用する必要があります。
パスウェイ解析
DMRコーリングの後、Connected MultiomicsはDMRをより機能的な推論に変換しやすくします。図7は、関心のあるDMRを高いメチル化差(例えば、メチル化差が0.2を超える)でフィルタリングし、転写の開始/停止部位から5 kb以内の遺伝子名でアノテーションする方法を示しています。最大ゲノム距離をカスタマイズして、研究の生物学的背景に関連するDMR-遺伝子関連の解釈を調整することができます。
DNAメチル化は通常、プロモーターにおける遺伝子発現を制御するため、遺伝子に関連するほとんどのDMRは転写開始サイト(TSS)領域に局在します。適用されるフィルタリング基準に応じて、同定された遺伝子は、IDH変異患者群と比較して、低メチル化または高メチル化のいずれかを示す可能性があります。これらの遺伝子レベルの結果は、Connected Multiomics統合遺伝子セットエンリッチメント解析を使用して、パスウェイレベルでさらに文脈化できます。この機能によって、根底にある生物学的プロセスのより広範な解釈が可能になります。
マルチオミクス解析
バリアント解析モジュール
Connected Multiomicsは、メチル化とゲノムバリアント解析を統合するための統合環境を提供し、Illuminaの5塩基アッセイのマルチオミクスの可能性を解き放ちます。このセクションで説明する代表的なワークフローは、一塩基多型(SNP)や小さな挿入/欠失(indels)など、小さなゲノムバリアントを含む遺伝子とDMRを重ね合わせたものです。図8は、深度(DP)などの標準バリアントコールフォーマット(VCF)フィールドを使用してバリアントをフィルタリングする方法を示しています。さらに、Connected MultiomicsはIllumina固有および一般的な公開データベースを使用して、関心のあるバリアントをさらに絞り込みます。例えば、gnomAD、DRAGEN Haplotype Database、およびPrimate AIを使用して、体細胞バリアントコーリング結果から生殖細胞系列バリアントを削除することができます。Promoter AIは、遺伝子活性の予測に使用できます。図9は、コホートレベルでもバリアントを表示して、コホート内で共有されるバリアントを観察する方法を示しています。
メチル化とバリアント統合モジュール
Connected Multiomicsは、メチル化とバリアント情報を遺伝子レベルで統合するため、まずDMRとバリアントの両方に、それぞれ図7と図10に示すように遺伝子のアノテーションを付ける必要があります。この遺伝子中心の統合では、ゲノムの機能的に関連する領域が優先され、将来のリリースで追加の制御遺伝子座への拡張が計画されています。図11は、DMRとバリアントが交差した後の出力テーブルを示しています。この出力には、領域メチル化ビューとConnected Multiomicsの外部で生成された追加のグラフィックが組み込まれており、文脈を提供します。この例では、KMT2Ar変異患者のHOXA9遺伝子にバリアントのクラスターがあり、HOXA9遺伝子の低メチル化と相関しています。この相関関係は、これらのHOXA9バリアントが、遺伝子発現に関連するHOXA9遺伝子の低メチル化に伴って機能的影響を持つことを示唆している可能性があります。したがって、DMRは、意義不明のバリアントを解釈するための機能的推論を与えることができます。
ワークフローの視覚化
提示されたAMLケーススタディを通して、図12のデータ品質管理から始まるエンドツーエンドの解析を示します。Connected Multiomicsは、Illuminaの5塩基データタイプのマルチオミクス特性を活用するためのメチル化およびバリアント解析ツールを提供します。厳密なクラスター検証、メタデータとクラスターラベルに基づくDMRコール、および遺伝子とパスウェイ情報によるDMRのコンテキスト化を実行できます。並行して、ゲノムバリアントにアノテーションとフィルタリングを行い、コホートレベルでバリアントを視覚化できます。DMRでバリアントにさらにアノテーションを付けることで、疾患の基礎となる制御および遺伝的ドライバーをより完全に解釈できます。図12は、チームがリアルタイムで進捗状況を追跡し、解析を分岐できるため、共同解析の透明性も示しています。要約すると、これらの機能は、Connected Multiomicsがマルチオミクスデータ、解析、解釈を単一の透明で協働的な環境にもたらし、Illuminaの5塩基データセットからの生物学的洞察を加速させることを示しています。
詳細については、Illumina Connected Multiomics 5-baseフライヤーをご参照いただくか、アクセスしてIllumina Connected Multiomicsのウェブページをご覧ください。
関連リンク:
ブログ- イルミナ5塩基ソリューションの紹介
ブログ- サンプルから洞察まで:イルミナ5塩基ソリューションによる解析の効率化