ファーマコゲノミクスのスター役:DRAGEN Bio-IT Platformを用いた、20の重要なPGx遺伝子を呼び出す「スターアリル」の開発と検証

Kingshuk Mukherjee, Eric Roller, Vitor Onuchic, Ioan Filip, Sam Strom, Shay Tzur, Severine Catreux, and James Han of Illumina; Michelle Axford, Meredith Curtis, and Lynette Lau of Sick Kids Toronto; published October 17, 2022

はじめに

ファーマコゲノミクス(PGx)は、薬物の有効性、適切な用量、および副作用の遺伝的リスクに関する研究を強化することができます。研究者は、各ゲノムの薬物代謝に影響を与えることが知られている遺伝因子のステータスを考慮することで、既存の薬物がどのように作用するかをより詳しく理解し、新薬開発をサポートする上で十分な統計的証拠を収集する機会を増やすことができます。

技術的な理由から、これらの遺伝子の多くは評価が難しい場合があります。研究室では、コピー数のステータスを測定し、相同ゲノム領域からの干渉を解決し、個々のコールを「スターアリル」と呼ばれるマージ遺伝子レベルの結果に組み合わせるためのツールが必要です。これらのツールはすべて、全ゲノムシーケンス(WGS)を用いたPGx解析を実施する研究者やラボで初めて利用できるようになりました。

本稿では、イルミナのDRAGEN 4.0 Bio-ITプラットフォームに組み込まれた、20の最重要PGx遺伝子に対応するWGSベースの統合PGxスターアリルコーラーを紹介します。さまざまな手法がどのように機能するかを説明し、ゴールドスタンダードデータセットと実世界のデータセットの両方でパイプラインの有効性を実証します。

一般的に使用される用語集

PGxの目的は、薬物代謝、薬物反応、および薬剤の潜在的な副作用を予測することです。これらの形質を集合的に「表現型」と呼びます。表現型は、「遺伝型」、すなわち「ハプロタイプ」の組み合わせに基づいて予測できます。ハプロタイプは、同じ染色体上に存在する遺伝子バリアントのセットであり、一塩基多型、挿入/欠失、および/またはコピー数バリアントを含む場合があります。多くのPGxハプロタイプ表記にはアスタリスク(*1/*2のように)が含まれているため、ハプロタイプは「スターアリル」と呼ばれることがよくあります。私たちはほとんどのPGx遺伝子を2コピー持っているため、最終的なステップとして、検出された2つのハプロタイプを組み合わせて「ディプロタイプ」と呼ばれるペアとして決定します。

遺伝子とバリアントの選択

PGx検査の分野全体での一貫性をサポートするために、Clinical Pharmacogenetics Implementation Consortium(CPIC)1は、査読済みの遺伝子/薬剤臨床診療ガイドラインをキュレーションし、自由に利用できるよう掲載しています。2022年3月現在、CPICは、遺伝子と薬物の相互作用について強力なエビデンスがあるもの(レベルA)として、20の遺伝子を分類しています。これらはPGx解析を実施する際に必ず含めるべき遺伝子です。Pharmacogenomic KnowledgeBase(PharmGKB)2、Pharmacogene Variation(PharmVar)3、および米国食品医薬品局(FDA)の「セクション1」リスト4などのその他のデータベースには、追加の詳細が記載されています。

これらのリソースを使用して、最初にCPICがレベルAとマークした20の遺伝子に焦点を当て、どの遺伝子とバリアントをコーラーに含めるかを決めました。

表 1 CPICレベルAおよびFDAセクション1の実用的なPGx遺伝子のリスト。

「DRAGEN support」列:
✓ = この遺伝子をDRAGEN 4.0+でGRCh38に対してサポート
✓+ = この遺伝子をDRAGEN 4.0でGRCh38とhg19の両方に対してサポート

ジェノタイピングへのアプローチ

一部の遺伝子は、次世代シーケンサーテクノロジーでジェノタイピングすることがその他の遺伝子よりも困難です。DRAGEN v4.0で現在サポートされている20の遺伝子のうち16の遺伝子のバリアントは、標準的なDNAシーケンスマッピングとバリアントコールパイプラインを使用して高精度でコールすることができます。しかし、次の4つの遺伝子については標準的な手法では対応できず、特別な処理が必要となります。ゲノムのパラロガス領域による影響があるCYP2B6CYP2D6、および多型レベルが高いHLA-AHLA-B

したがって、DRAGEN v4.0で現在サポートされている20の遺伝子のリストを次の3つの手法カテゴリーに分類します。

PGxカテゴリー1:標準バリアントコーリング

スターアリルコーラーが解決する最初のカテゴリーでは、まず標準的なマッピングとバリアントコーリングを使用して以下の16の遺伝子をジェノタイピングします。次に、PharmGKBからの既定のハプロタイプの組み合わせを使用して、最も可能性の高いディプロタイプを構成します。以下はカテゴリー1の遺伝子です。

CACNA1S、CFTR、CYP2C19、CYP2C9、CYP3A5、CYP4F2、IFNL3、RYR1、NUDT15、SLCO1B1、TPMT、UGT1A1、VKORC1、DPYD、G6PD、MT-RNR1

これらの遺伝子内のバリアントは、ゲノムのマッピングしやすい領域にあります。つまり、これらの遺伝子はゲノムのその他の部分と高い相同性を共有しません。したがって、リードはこれらの遺伝子に精確かつ固有にアライメントされるため、精確なバリアントコールが可能になります。例えば、図1では、スターアリルコーラー遺伝子であるCYP3A5の領域全体で高い一貫したMAPQが見られます。

図1. PGxカテゴリー1遺伝子であるCYP3A5のMAPQ分布。

各遺伝子のスターアリルを出力するだけでなく、PharmCATの遺伝型-代謝ステータスのマッピングリソースを直接使用して、PGxレポートに代謝ステータスも含めます5

PGxカテゴリー2:ターゲットパラログコーラー

2つ目のカテゴリーには、特別な目的のターゲットコーラーによってコールされるCYP2D6およびCYP2B6遺伝子が含まれます6。これらの遺伝子のジェノタイピングは、パラロガスの偽遺伝子が存在するため、標準的なバリアントコーリングアプローチでは困難です。CYP2B6には、約93%の共有配列相同性を持つ1つの偽遺伝子(CYP2B7)があり、CYP2D6には2つの偽遺伝子、CYP2D7(約97%の相同性)およびCYP2D8P(約91%の相同性)があります。この相同性により、これらの遺伝子のリードマッピング精度が低下し(図2に示されるMAPQの低い領域)、バリアントコーリングエラーが発生しやすくなります。さらに、これらの遺伝子は、標準的な小規模バリアントコールでは特定できない多数の一般的な構造多型を特徴とします。 

ターゲットコーラーは、コピー数解析、構造多型コーリング、および遺伝子が位置するゲノムのターゲット領域への小規模バリアントコーリングを組み合わせることで、この問題を解決します。バリアントフェージングは、遺伝子と偽遺伝子の部位を区別するためにアライメントされたリードを使用して行われます。コールされたバリアントのスターアリルアノテーションはPharmVarから抽出され、コーラーはPharmCATからのマッピングリソースを使用して、代謝ステータスもレポートに追加します5

図2. PGxカテゴリー2遺伝子であるCYP2D6のMAPQ分布。CYP2D6(REP6、chr22:42123192-42125972)およびCYP2D7(REP7、chr22:42135344-42138124)の下流にある2つの2.8 kbリピート領域は、ほぼ同一で、実質上アライメントできません。遺伝子内の2つの主要な相同領域もMAPQが低く、マッピング精度が低い領域が示されています。

PGxカテゴリー3:ターゲットHLAコーラー

第3のカテゴリーは、HLA-AおよびHLA-B遺伝子のジェノタイピングで、これらは高度に多型性です。つまり、これらの遺伝子には集団全体で何千ものハプロタイプが定義されており、それぞれに何百ものバリアントが含まれています。これらの遺伝子は、HLAコーラーと呼ばれる別の特殊用途のワークフローによってジェノタイピングされます。このコーラーは、期待値を最大化して、IMGT/HLAデータベース7およびAllele Frequency Net Database8からのフルシーケンスアリルにアラインメントされたリードを分析し、HLAの2領域分解能を出力します。

DRAGEN PGxワークフロー

全体的なDRAGEN PGxワークフローを図3に示します。DRAGEN v4.0では、スターアリルコーラーとターゲットコーラーはそれぞれが独自のファイルを別々に出力します。

図3:DRAGEN v4.0のPGxワークフローとv4.2の計画。

コーラーの検証 

カテゴリー1遺伝子の内部検証

DRAGEN v4.0 スターアリルコーラーは、利用可能なデータがある16遺伝子のうち15遺伝子について、細胞株に対するその出力の外部PGxコーラー(PharmCATおよびAldy9)との比較を通じて包括的にテストされました。これらの遺伝子全体で100%の一致が見られました(表2)。

表2 DRAGENスターアリルコーラーの内部検証。

*一部のコールは、公開後に1つ以上のアリルの定義が変更されたため、本解析から除外されました。

カテゴリー1遺伝子の外部検証

トロントのHospital for Sick Children(SickKids11)の外部協力者は、DRAGEN v4.0のスターアリルコーラーの独立検証を実施しました。彼らは、20以上のサンプルで14の遺伝子について、直交バイオインフォマティクス(PharmCAT)とウェットラボテスト(MassArray12)を実施しました。

この解析では、DRAGEN v4.0スターアリルおよびPharmCATとMassArrayの両者の間に、テストしたサンプルと遺伝子のさまざまな組み合わせについて100%の一致が見られました(表3)。

表3 SickKidsによるDRAGENスターアリルコーラーの外部検証

CYP2D6コーラー

CYP2D6コーラーは、Coriell13および1000 Genomes Project(1KGP)14の143のバリアントサンプルに対して検証されました。コールは、GeT-RMまたはロングリードシーケンスデータから手動でキュレーションされたコールのいずれかと比較されました。以下の表4に、DRAGEN v4.0 CYP2D6コーラーの一致結果、および同じインプットシーケンスデータを使用したAldyの一致を示します。リファレンスコールセットに対する一致率は、DRAGENの方がAldyよりも高くなります。

表4 DRAGEN CYP2D6コーラーの検証。

CYP2B6コーラー

DRAGEN CYP2B6コーラーは、1KGPおよび76 Coriellサンプルからの125サンプルに対して検証されました。Coriellサンプルのコールは、GeT-RMまたはStargazerからのコールのいずれかと比較されました15。コールがGeT-RMと一致しなかった6つのサンプルについては、DRAGENは5つのサンプルでStargazerと一致しており、Stargazerは6番目のサンプルでコールしませんでした。1KGPの125サンプルにおけるコールは、ロングリードシーケンスデータから手作業でキュレーションされたコールと比較されました。以下の表5に、DRAGEN v4.0 CYP2B6コーラーの一致結果を示します。

表5 DRAGEN CYP2B6コーラーの検証。

*複数の遺伝型が報告された場合の代謝能ステータスに基づく一致(例:*1/*6、*4/*9)。
2つの不一致サンプルには、複数の遺伝型の可能性がある新しいスターアリル(*U1)が含まれます。

HLAコーラー

DRAGEN v4.0 HLAコーラーについては、1000 Genomesコンソーシアムの117のWGSサンプルを用いてジェノタイピング精度を検証しました14。 351のコール(各サンプルに3つの遺伝子)のうち、349のコールはサンガーシーケンスと一致しました(精度99.6%)。

表6 DRAGEN HLAコーラーの検証

表示されている全体精度は、DRAGEN v4.0による3つのHLA遺伝子、HLA-A、HLA-B、およびHLA-Cの集計です。

今後の方向性

PGxは比較的新しい研究分野であるため、どの遺伝子やバリアントがPGxの成果に影響を与えるかについての理解は進化し続けています。当社はあらゆる進展に注意を払い、DRAGENが遅れをとらないように最善を尽くします。

DRAGEN 4.0のソフトウェア開発サイクル中に、CPICはレベルA遺伝子のリストにABCG2を追加しました。NAT2BCHEUGT2B17など、その他のいくつかの遺伝子は、将来のリリースに含めるべき強力な候補です。

次のDRAGENリリース(4.2)では、hg19ヒトゲノムリファレンスへのサポートを拡大する予定ですが、hg19リファレンスで定義されたスターアリルを持つ遺伝子はカテゴリー1遺伝子の部分集合のみです。

すべてのPGx結果を単一の出力ファイルにマージするために、追加の後処理が計画されています(図3)。

学術用途向けの詳細情報またはDRAGEN試用版ライセンスについては、dragen-info@illumina.comまでお問い合わせください。