Customer Interview

LipidSeqによる脂質異常症バリアントの探索

Robarts Research Instituteの研究者は、脂質関連の遺伝子変異をプロファイリングするためのカスタムターゲットリシーケンスパネルをデザインしています。

LipidSeqによる脂質異常症バリアントの探索

脂質異常症バリアントの探索

はじめに

心血管疾患は、北米における主な死因の1つです。1 高コレステロール、高血圧、糖尿病などの心血管疾患リスク因子の素因となる多くの遺伝性疾患や変異があります。これらの遺伝子異常の多くは、脂質代謝と血中脂質濃度の制御に関与しています。このような遺伝的バリアントの同定は、患者の介入を促進し、基礎疾患の分子生物学の理解を深めることができます。

従来、遺伝的バリアントはキャピラリー電気泳動(CE)/サンガーシーケンスで同定されてきました。しかし、この反復プロセスは時間と労力がかかります。次世代シーケンサー(NGS)などの新しいテクノロジーにより、サイエンティストは研究の範囲を広げ、発見までの道のりを短縮することができます。

カナダのオンタリオ州ロンドンにあるRobarts Research InstituteのBlackburn Cardiovascular Genetics LaboratoryのディレクターであるRobert Hegele医学博士は、20年以上にわたり、サンガーシーケンスを使用して脂質異常症と関連する代謝障害に関連する遺伝子変異を研究してきました。2013年、彼のチームはMiSeq SystemとNextera Rapid Capture Enrichmentを使用してNGSに移行しました。iCommunityは、研究マネージャーのJohn Robinsonに、LipidSeqターゲットリシーケンスパネルの開発と、新しいバリアントを発見するためにどのように使用しているかについて話しました。

 

John Robinsonは、カナダのオンタリオ州ロンドンにあるRobarts Research InstituteのRobert Hegele博士の研究室の研究マネージャーです。

Q:脂質研究に関わったのはいつですか?

John Robinson(JR):私はRobarts Research Instituteに約22年間勤務し、当社のディレクターであるRob Hegele博士と12年以上勤務しています。Hegele博士は、ヒトの脂質異常症やリポジストロフィーなどの脂質障害を専門とする内分泌学者です。

Q:脂質疾患の潜在的な原因バリアントに関するデータを最初にどのように収集しましたか?

JR:Hegele博士は、当社のレポジトリに約12,000種のヒトDNAサンプルを持っています。典型的なプロセスワークフローは、Hegele博士がクリニックで異常な血中脂質値を示す患者を診察した時点から始まります。患者さんが研究被験者となることに合意し、同意説明文書に署名した後、サンプルを取得します。臨床診断、脂質レベル、家族歴に基づいて、ラボスタッフが調査対象の候補遺伝子を選びます。

例えば、研究対象が家族性高コレステロール血症を有する可能性があるという証拠がある場合、低比重リポタンパク質受容体遺伝子(LDLR)のシーケンスを行います。原因バリアントを収容している可能性があると疑ったエクソンを選択し、遺伝子の他のエクソンに移動します。LDLR遺伝子に変異が見つからない場合は、脂質カスケードの次の遺伝子に移ります。これらの各解析ワークフローは、エクソンごとに1000 bpずつ実施されました。遺伝子の一部は、40~50エクソンと非常に大きく、サンガーが個々のDNAサンプルをシーケンスするまでに最大1か月かかることがあります。研究時間に加えて、シーケンス、サンプル調製、PCRなどのコストと労力も発生しました。

約4年前に、私たちは、再シーケンスパネルケミストリーがNGSシステムで利用可能であることを知りました。ラボのスタッフが、私たちが望む遺伝子のウィッシュリストをまとめました。

Q:NGSベースのターゲットリシーケンスへの移行を決定した理由は何ですか?

JR:約4年前、NGSシステムで再シーケンスパネルケミストリーが利用可能であったことに気づきました。当社のラボスタッフ(博士課程の学生、研究員、技術者、Hegele博士を含む)は、シーケンスパネルに表示させたい遺伝子のウィッシュリストを作成しました。

パネルの内容はいくつかの層から成ります。最初の階層は、かなり確立された標準的な単一遺伝子脂質異常症遺伝子でした。これらは、変異がある場合に表現型の原因になる可能性のある遺伝子です。この第1段階の遺伝子には、高次低比重リポタンパク質コレステロール(LDL-C)、高比重リポタンパク質コレステロール(HDL-C)、高トリグリセリド(TG)表現型が含まれます。これらは通常、Hegele博士が臨床で目にする表現型です。

Hegele博士は、リポジストロフィーによる脂質異常症や、若年の成熟期発症糖尿病などの遺伝性糖尿病の患者も診察しています。遺伝子パネルの第2階層には、脂質異常症のこれらの二次的原因に関連する遺伝子が含まれていました。3番目の階層は、私たちの関心と発見のための脂質遺伝子でした。これらは動物モデルで同定された遺伝子ですが、ヒトの遺伝子変異は記載されていません。これらの3つの遺伝子階層が、今ではLipidSeqと呼ばれる69遺伝子パネルのウィッシュリストになりました。Journal of Lipid Researchの論文を含む、この論文を公開しました。2,3

Q:バリアントの発見にパネルをどのように使用していますか?

JR:現在、1回のMiSeqランで週24サンプルを処理しています。MiSeqシステムは24ペアのFASTQファイルを生成し、その後、アライメントされ、ローカルに再アライメントされ、PCRの重複が除去され、24のVCFファイルを生成するためにバリアントが呼び出されます。VCFファイルにはアノテーションが付いており、表現型を引き起こす原因となりうる、馴染みのある新しいバリアントを同定することができます。

Q:ポリジェニックバリアントとモノジェニックバリアントを同定できますか?

JR:はい、LipidSeqパネルを使用してポリジェニックバリアントを同定できます。ポリジェニック形質スコアと呼ばれる、特定の形質に対する遺伝的感受性の別の次元を特定しました。研究対象におけるGWAS SNPのアリルパターンが異なっており、アリルの1つがその対象における形質を上昇させるという報告など、公開されたゲノムワイド関連解析(GWAS)で特定された一塩基多型(SNP)ターゲットを使用しています。以前は、TaqManアッセイを使用してこれらのアッセイを行い、単一のSNPの集団をアッセイしていました。例えば、パネル上のLDL-C上昇に関連するいくつかの遺伝子に加えて、パネル上にはLDL-C上昇に関連する10のGWAS SNPターゲットもあります。 各SNPターゲットについて、非形質上昇LDL-Cアリルのホモ接合体である被験者は0点となります。被験者は、ヘテロ接合性高LDL-Cアリルで1、ホモ接合性高LDL-Cアリルで2のスコアを付けます。各SNPについて、被験者は0、1、または2のスコアを付けることができます。形質を構成する10のSNPがある場合、被験者は0~20のポリジェニック形質スコアを持つ可能性があります。次に、重み付け係数を適用します。

原因となるバリアントを見つける前に、Sangerが個々のDNAサンプルをシーケンスするのに最大1か月かかることがあります。研究時間に加えて、コストと労力も発生しました。

Q:LipidSeqパネルの開発において、どのような課題に直面しましたか?

JR:LipidSeqパネル上の遺伝子のエクソン領域のキャプチャープローブファイルをデザインできるように、テキストファイルとして保存されたExcelファイルであるBEDファイルを生成する方法を学ぶ必要がありました。カリフォルニア大学サンタクルーズ校(UCSC)のゲノムブラウザのトラックをキュレーションすることで、特定の遺伝子のすべての代替アイソフォームの領域を手動でマッピングしていました。問題は、一部の転写産物の代替アイソフォームを考慮に入れたBEDファイルを取得する方法でした。正しく行わなかった場合、オリゴがDNAを正確に捕捉する能力が損なわれる可能性があります。また、GCのコンテンツや反復配列領域に適応して、正確なジェノタイプコールを行うのに十分なカバレッジを得る必要があったことも、設計の反復を通して学びました。BEDファイルは、パネル上のプローブの関心領域を正確に示すことが重要でした。最終的には、これらのタイプのBEDファイルを組み立てるスクリプトを作成しました。LipidSeqパネルには3番目のバージョンを使用しており、2017年に4番目のバージョンを実装する予定です。

Q:DesignStudio Softwareと連携し、LipidSeqパネルを開発するのはどうでしたか?

JR:DesignStudio Softwareは、LipidSeqパネルの設計に使いやすくなりました。BEDファイルをデザインし、エクソン境界に基づいて適切な塩基対パディングを行った後、当社のパネルは、エクソンとSNPをコーディングするための700 kbのキャプチャーオリゴで構成されていることに気づきました。その後、MiSeqシステムの特性を活かすようになりました。サンプルマルチプレックスとさまざまなシーケンスキットを検討し、実際のリード数、つまり達成するカバレッジの深さを決定しました。

Q:LipidSeqパネルのワークフローは何ですか?

JR:1週間に24のサンプルを処理し、所要時間は約2週間です。ゲノム濃度から5 ng/µLまでDNAを希釈することは容易ではありませんが、実現可能なため、完了までに数日かかります。当初、Nextera Rapid Capture Custom Enrichment Kitで同時に12のヒトDNAサンプルを解析しました。MiSeq v3試薬キットの登場により、24のサンプルを同時に測定できるようになりました。

現在は2週間のプロセスです。1~3日目に、Nextera Rapid Capture Custom Enrichment Kitを用いて24のDNAサンプルをランした後、MiSeqシステム24プレックスでシーケンスします。24組のFASTQファイルが当社のサーバーに配信され、CLC Genomics Workbenchソフトウェアを使用してそれらをバッチ処理し、当社のアノテーションパイプラインに入るVCFファイルを作成します。

LipidSeqパネルとサンガーシーケンスの出力とターンアラウンドタイムは同等ではありません。MiSeqシステムLipidSeqパネルで24のサンプルのシーケンスを行うと、1人あたり700 kbのシーケンスデータが得られます...サンガーシーケンスでは、ランあたりわずか1000 bpしか得られません。

Q:MiSeqシステム上のLipidSeqパネルの出力とターンアラウンドタイムは、Sangerシーケンスを使用したバリアントの同定と比較してどうですか?

JR:LipidSeqパネルとサンガーシーケンスの出力とターンアラウンドタイムは同等ではありません。MiSeqシステムLipidSeqパネルで24のサンプルのシーケンスを行うと、1人あたり700 kbのシーケンスデータが得られます。2週間以内に、希少性と病原性についてアノテーションされ分類されたファイルがあり、単一遺伝子バリアントと多遺伝子バリアントが含まれます。サンガーシーケンスでは、1ランあたり1000 bpしか得られません。これは、原因バリアントを持つエクソンの最良の推測です。さらに、TaqManアッセイを使用してポリジェニック形質スコアを取得する必要があります。

Q:MiSeqシステムが生成するデータ品質はどのようなもので、データはどのように解析されますか?

JR:MiSeqシステムはうまく機能しており、優れたデータセットを生成します。当社のバイオインフォマティクスソフトウェアは、サンプルのバッチを同時に処理し、高品質のVCFファイルとアノテーションファイルを生成できます。これらのファイルを入手したら、研究関係者に個人データのキュレーションを依頼します。最終的には、70万ヌクレオチドのキャプチャーがVCFファイル上の約800ヌクレオチドまたは足場位置まで減少します。これら800ヌクレオチドは、さまざまな脂質異常症症候群の有害性および希少性について約20の候補に還元されます。その時点で、当社のスタッフが小さなサブセットをキュレーションし、Hegele博士が研究対象者に返事ができるレポートを作成しています。

MiSeqシステムが最適なプラットフォームとなりました。顧客は高品質のデータと大量のデータを必要としています。他のシーケンス技術ではターンアラウンドが速くなるかもしれませんが、MiSeqシステムから得られた高品質のデータとは競合できません。

Q:LipidSeqパネルに新しい遺伝子座をどのように追加しますか?

JR:DesignStudio Softwareのインポートフォーマットで標準BEDファイルを作成し、スプレッドシートにすべてのアイソフォームと重複プローブデザインが組み込まれています。DesignStudio Softwareはそこから引き継ぎ、デザインを教えてくれます。カバレッジが低い場合やGC含量の警告がある場合、そのためにプローブをすでにレプリケートしていることがよくあります。UCSC Genome Browserにいつでもリンクして、プローブがどのようなものになるかを確認できます。

Q:研究でLipidSeqパネルを使用した際に、何か驚きがありましたか?

JR:候補遺伝子の一部には異なるタイプのバリエーションパターンがあり、ポリジェニック形質のスコアプロファイルは、どの表現型または表現型の四肢かによって異なります。これらは、私たちが準備している科学論文の焦点です。

LipidSeqパネルにより、表現型に関係なく、これまでにシーケンスした2000の研究対象すべてについて完全なデータセットを取得できます。VCFファイルは、1人あたり800~1000のバリアントを報告しています。これにより、個々の症例の評価(どのバリエーションが被験者の表現型を説明しているのか)から、シーケンスカーネル関連検査などのツールを用いた関連検査へと移行する機会が得られます。そのため、NGSを使用して、他の研究者がマイクロアレイを用いて実施している実験を実施して、個人からコホートや集団に移行することができます。今回のケースでは、被験者のバリアントコールファイルとしてVCFファイルを使用しています。

Q:ラボの他の研究にMiSeqシステムを使用していますか?

JR:MiSeqシステムは、ラボからのサンプルの実行に常に忙しくなっています。当社は、ロンドン地域ゲノミクスセンター(LRGC)の顧客です。LRGCは、Robarts Research Instituteのヘゲル博士が率いるコアラボです。当ラボは、オンタリオ州脳研究所の一部であるオンタリオ神経変性研究イニシアチブ(ONDRI)のコアラボとしても活動しています。MiSeqシステムは、神経変性疾患に関連するバリアントを同定するために設計されたONDRISeqリシーケンスパネルを用いてサンプルを処理しています。LRGCには、ファーマコゲノミクスベースのパネルを開発した別の顧客がいます。また、LRGCは多くの細菌ゲノムとトランスクリプトームをシーケンスし、MiSeqシステムで微生物叢解析を実行します。

Q:MiSeqシステムのデータについて研究者たちはどう考えていますか?

JR:彼らは、DNAとRNAのサンプルを提供し、その見返りとして高品質のデータを受け取ることができるという事実が好きです。例えば、LRGCのスタッフと協力して、顧客のニーズに合った実験をセットアップします。MiSeqシステムが小さな細菌ゲノムやトランスクリプトームをシーケンスできるという事実、1つのランカートリッジでサンプルをマルチプレックスしてコストを削減し、最終的には高品質のデータセットを提供できるという事実が気に入っています。CLC Genomics Workbenchソフトウェアにより、さまざまなフォーマットや実験設計のDNAおよびRNA解析を実行できます。これらのデータセットは、複雑な環境の細菌トランスクリプトームと微生物叢プロファイルの異なる条件間で発現差を生成します。

LipidSeqパネルにより、これまでにシーケンスした2,000の研究テーマすべてに関する完全なデータセットを取得できます...そのため、NGSを使用して、他の研究者がマイクロアレイを用いて実施している実験を実施して、個人からコホートや集団に移行することができます。

Q:MiSeqシステムを選んだ理由は何ですか?

JR:当社はカナダで初めてIon Torrentパーソナルゲノムマシン(PGM)を所有したラボの1つです。PGMの出力は500 Mbで、大きなチップは理論上の出力では1 Gbであり、MiSeqシステム14 Gbの理論上の出力と一致しなかったことは明らかでした。MiSeqシステムが最適なプラットフォームとなりました。顧客は高品質のデータと大量のデータを必要としています。他のシーケンス技術ではターンアラウンドが速くなるかもしれませんが、MiSeqシステムから得られる高品質のデータとは競合できません。

Q:Nextera Rapid Capture Custom Enrichment Kitは、あなたの研究でどのように機能しましたか?

JR: Nextera Rapid Capture Custom Enrichmentの使用は、LipidSeq研究で有益であることがわかりました。ベースペアパディングで遊び、ターゲット領域で十分なカバレッジを確保することを学びました。通常、Nextera Rapid Capture Custom Enrichmentターゲットでは、ほとんどのコーディング領域で200~400倍のカバレッジを達成しています。

Q:サンガーシーケンスからNGSへの移行について、ラボではどのような認識をお持ちですか?

JR:当社の研究関係者や上級職員の中には、移行に関わっており、時間とコストの面でも、移行がいかに成功したかを目の当たりにしてきました。しかし、4年生と新卒の学生は、2週間で700 kbのデータが得られると予想しています。

Q:Robarts Research Instituteの文化は、LipidSeqパネルの設計に必要な創造性をどのようにサポートしましたか?

JR:Robarts Research Instituteの文化は、科学者をサポートする強固なインフラを提供します。Hegele博士は確かに研究の世界的リーダーであり、創造的な人々を引き付ける優れた作業環境と科学プログラムを生み出しています。サンガーの枠を超えて考え、NGSなどの新しいテクノロジーを取り入れるようになります。完璧な例としては、同じリシーケンスアッセイでエクソンリシーケンスとポリジェニック形質スコアのSNPスコアリングを実行し、LipidSeqパネルでそれを実現するという概念が挙げられます。これは、SangerとTaqManのアッセイワークフローを組み合わせ、NGSを使用したハイスループットプロセスに変革した、創造性と優れた洞察の成果です。

この記事で言及されているイルミナシステムの詳細はこちら:

Nextera Rapid Capture Custom Enrichment Kitは製造中止となりました。イルミナDNA Prep with Enrichmentは交換を推奨します。

MiSeqシステム、www.illumina.com/systems/sequencing-platforms/miseq.html

DesignStudio Custom Assay Design Tool、www.illumina.com/informatics/sample-experiment-management/custom-assay-design.html

ターゲットリシーケンス、
www.illumina.com/techniques/sequencing/dna-sequencing/targeted-resequencing.html

参考文献
  1. 米国心臓協会。心疾患と脳卒中の統計 – 201年更新:米国心臓協会からのレポート。Circulation . 2017;135:e146–e603。
  2. Johansen CT, Dube JB, Loyzer MN, et al. LipidSeq:単一遺伝子脂質異常症の次世代臨床リシーケンスパネル。J of Lipid Res . 2014;55(4):765–772。
  3. Hegele RA、Ban MR、Cao H、McIntyre AD、Robinson JF、Wang J。モノジェニック脂質異常症における次世代シーケンスをターゲットにしました。Curr Opin Lipidol . 2015;26(2):103–113。