Customer Interview

LipidSeqによる脂質異常症バリアントの探索

Robarts Research Instituteの研究者は、脂質関連の遺伝子変異をプロファイリングするためのカスタムターゲットリシーケンスパネルをデザインしています。

LipidSeqによる脂質異常症バリアントの探索

脂質異常症バリアントの探索

はじめに

心血管疾患は、北米における主な死因の1つです。1 高コレステロール、高血圧、糖尿病などの心血管疾患リスク因子にかかりやすい遺伝的障害や変異が多数あります。これらの遺伝子異常の多くは、脂質代謝と血中脂質濃度の制御に関与しています。このような遺伝的バリアントの同定は、患者の介入を促進し、基礎疾患の分子生物学の理解を深めることができます。

従来、遺伝的バリアントは、キャピラリー電気泳動(CE)/サンガーシーケンスで同定されてきました。しかし、この反復的なプロセスは時間と労力がかかります。次世代シーケンサー(NGS)などの新しいテクノロジーにより、サイエンティストは研究の範囲を広げ、発見までの道のりを短縮することができます。

カナダのオンタリオ州ロンドンにあるRobarts Research InstituteのBlackburn Cardiovascular Genetics LaboratoryのディレクターであるRobert Hegele医学博士は、20年以上にわたり、サンガーシーケンスを使用して脂質異常症と関連する代謝障害に関連する遺伝子変異を研究してきました。2013年、彼のチームはMiSeqシステムおよびNextera Rapid Capture Enrichmentを使用してNGSに移行しました。iCommunityは、研究マネージャーのJohn Robinsonと、LipidSeqターゲットリシーケンスパネルの開発と、新しいバリアントを発見するためにどのように使用しているかについて話しました。

John Robinsonは、カナダのオンタリオ州ロンドンにあるRobarts Research InstituteのRobert Hegele博士の研究室の研究マネージャーです。

Q:脂質研究に関わったのはいつですか?

John Robinson(JR):私はRobarts Research Instituteに約22年間勤務し、当社のディレクターであるRob Hegele博士と12年以上勤務しています。Hegele博士は、ヒトの脂質異常症やリポジストロフィーなどの脂質障害を専門とする内分泌学者です。

Q:脂質疾患の潜在的な原因バリアントに関するデータを最初にどのように収集しましたか?

JR:Hegele博士は、当社のレポジトリに約12,000種のヒトDNAサンプルを持っています。典型的なプロセスワークフローは、Hegele博士がクリニックで血中脂質濃度が異常な患者を診察した時に始まります。患者さんが研究被験者となることに合意し、同意説明文書に署名した後、サンプルを採取します。臨床診断、脂質レベル、家族歴に基づいて、ラボスタッフが調査対象の候補遺伝子を選びます。

例えば、研究対象が家族性高コレステロール血症を有する可能性があるという証拠がある場合、低密度リポタンパク質受容体遺伝子(LDLR)をシーケンスします。原因バリアントを収容している可能性があると疑ったエクソンを選択し、遺伝子の他のエクソンに移ります。LDLR遺伝子に変異が見つからない場合は、脂質カスケードの次の遺伝子に移ります。これらの各解析ワークフローは、エクソンごとに1000 bpずつ実施されました。遺伝子の一部は、40~50エクソンと非常に大きなものでした。サンガーが個々のDNAサンプルをシーケンスするまでに、原因となるバリアントを見つけるまでに最大1か月かかることがあります。研究時間に加えて、シーケンス、サンプル調製、PCRなどのコストと労力も発生しました。

"約4年前、NGSシステムで再シーケンスパネルケミストリーが利用できることがわかりました。ラボのスタッフが、私たちが望む遺伝子のウィッシュリストを作成しました。"

Q:NGSベースのターゲットリシーケンスへの移行を決定した理由は何ですか?

JR:約4年前、私たちは、NGSシステムで再シーケンスパネルケミストリーが利用可能であったことに気づきました。ラボのスタッフ(博士課程の学生、研究員、技術者、Hegele博士など)が、シーケンスパネルで見たい遺伝子のウィッシュリストをまとめました。

パネルの内容はいくつかの層から成ります。第1階層は、かなり確立された標準的な単一遺伝子脂質異常症遺伝子でした。これらは、変異がある場合に表現型の原因になる可能性のある遺伝子です。この第1段階の遺伝子には、低比重リポタンパク質コレステロール(LDL-C)、高比重リポタンパク質コレステロール(HDL-C)、高トリグリセリド(TG)表現型の上昇が含まれます。これらは通常、Hegele医師が臨床で目にする表現型です。

Hegele博士は、リポジストロフィーによる脂質異常症や、若年の成熟期発症糖尿病などの遺伝性糖尿病の患者も診察しています。遺伝子パネルの2番目の階層には、脂質異常症のこれらの二次的原因に関連する遺伝子が含まれていました。3番目の階層は、興味と発見のための脂質遺伝子でした。これらは動物モデルで同定された遺伝子ですが、ヒトの遺伝子変異は記載されていません。この3つの遺伝子階層が、今ではLipidSeqと呼ばれる69遺伝子パネルのウィッシュリストになりました。Journal of Lipid Researchの論文を含め、この論文を掲載しています。2,3

Q:バリアントの発見にパネルをどのように使用していますか?

JR:現在、1回のMiSeqランで1週間に24のサンプルを処理しています。MiSeqシステムは24ペアのFASTQファイルを生成し、その後、24のVCFファイルを生成するために、整列し、ローカルに再整列し、PCRの重複を削除し、バリアントを呼び出します。VCFファイルにはアノテーションが付いており、表現型を引き起こす原因となりうる、馴染みのある新しいバリアントを同定することができます。

Q:ポリジェニックバリアントとモノジェニックバリアントを同定できますか?

JR:はい、LipidSeqパネルを使用してポリジェニックバリアントを同定できます。ポリジェニック形質スコアと呼ばれる、特定の形質に対する遺伝的感受性の別の次元を特定しました。研究対象におけるGWAS SNPのアリルパターンが異なっており、アリルの1つがその対象における形質を上昇させるという報告など、公開されたゲノムワイド関連解析(GWAS)で特定された一塩基多型(SNP)ターゲットを使用しています。以前は、TaqManアッセイを使用してこれらのアッセイを行い、単一のSNPの集団をアッセイしていました。例えば、パネル上のLDL-C上昇に関連するいくつかの遺伝子に加えて、パネル上にはLDL-C上昇に関連する10のGWAS SNPターゲットもあります。 各SNPターゲットについて、非形質上昇LDL-Cアリルのホモ接合体である被験者は0点となります。被験者は、ヘテロ接合性の高LDL-Cアリルで1、ホモ接合性の高LDL-Cアリルで2のスコアを付けます。各SNPについて、被験者は0、1、または2のスコアを付けることができます。形質を構成する10のSNPがある場合、被験者は0~20のポリジェニック形質スコアを有する可能性があります。次に、重み付け係数を適用します。

"サンガーが個々のDNAサンプルをシーケンスするまでに、原因となるバリアントを見つけるまでに最大1か月かかる場合があります。研究時間に加えて、コストと労力もありました。"

Q:LipidSeqパネルの開発において、どのような課題に直面しましたか?

JR:LipidSeqパネル上の遺伝子のエクソン領域用のキャプチャープローブファイルをデザインできるように、テキストファイルとして保存されたExcelファイルであるBEDファイルを生成する方法を学ぶ必要がありました。カリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザのトラックをキュレーションすることで、特定の遺伝子のすべての代替アイソフォームの領域を手動でマッピングしていました。問題は、一部の転写産物の代替アイソフォームを考慮に入れたBEDファイルを取得する方法でした。正しく行わなかった場合、オリゴがDNAを正確に捕捉する能力が損なわれる可能性があります。また、GCのコンテンツや反復配列領域に適応して、正確なジェノタイプコールを行うのに十分なカバレッジを得る必要があったことも、設計の反復を通して学びました。BEDファイルは、パネル上のプローブの関心領域を正確に示すことが重要でした。最終的には、これらのタイプのBEDファイルを組み立てるスクリプトを作成しました。LipidSeqパネルには3番目のバージョンを使用しており、2017年に4番目のバージョンを実装する予定です。

Q:DesignStudio Softwareと連携し、LipidSeqパネルを開発するのはどうでしたか?

JR:DesignStudio Softwareは、LipidSeqパネルの設計に使いやすくなりました。エクソン境界に基づいてBEDファイルをデザインし、適切な塩基対パディングを行った後、当社のパネルは、コードエクソンとSNP用の700 kbのキャプチャーオリゴで構成されていることに気づきました。その後、MiSeqシステムの特性を活用しました。サンプルマルチプレックスとさまざまなシーケンスキットを調べ、実際のリード数、つまり達成するカバレッジの深さを決定しました。

Q:LipidSeqパネルのワークフローは何ですか?

JR:1週間に24のサンプルを処理し、所要時間は約2週間です。ゲノム濃度から5 ng/μLまでDNAを希釈することは容易ではありませんが、実現可能なため、完了までに数日かかります。当初は、Nextera Rapid Capture Custom Enrichment Kitで12のヒトDNAサンプルを同時に実行しました。MiSeq v3試薬キットの登場により、24のサンプルを同時に測定できるようになりました。

現在、2週間のプロセスです。1~3日目に、Nextera Rapid Capture Custom Enrichment Kitを用いて24のDNAサンプルをランした後、MiSeqシステム24プレックスでシーケンスします。24組のFASTQファイルが当社のサーバーに配信され、CLC Genomics Workbenchソフトウェアを使用してそれらをバッチ処理し、当社のアノテーションパイプラインに入るVCFファイルを作成します。

"LipidSeqパネルとサンガーシーケンスの出力とターンアラウンドタイムは同等ではありません。MiSeqシステムLipidSeqパネルで24のサンプルのシーケンスを行うと、1人あたり700 kbのシーケンスデータが得られます...サンガーシーケンスでは、ランあたり1000 bpしか得られません。"

Q:MiSeqシステム上のLipidSeqパネルの出力とターンアラウンドタイムは、Sangerシーケンスを使用したバリアントの同定と比較してどうですか?

JR:LipidSeqパネルとサンガーシーケンスの出力とターンアラウンドタイムは同等ではありません。MiSeqシステムLipidSeqパネルで24のサンプルのシーケンスを行うと、1人あたり700 kbのシーケンスデータが得られます。2週間以内に、希少性と病原性についてアノテーションされ分類されたファイルがあり、単一遺伝子バリアントと多遺伝子バリアントが含まれます。サンガーシーケンスでは、1ランあたり1000 bpしか得られません。これは、原因バリアントを持つエクソンの最良の推測です。さらに、TaqManアッセイを使用してポリジェニック形質スコアを取得する必要があります。

Q:MiSeqシステムが生成するデータ品質はどのようなもので、データはどのように解析されますか?

JR:MiSeqシステムはうまく機能しており、優れたデータセットを生成します。当社のバイオインフォマティクスソフトウェアは、サンプルのバッチを同時に処理し、高品質のVCFファイルとアノテーションファイルを生成できます。これらのファイルを入手したら、研究関係者に個人データのキュレーションを依頼します。最終的には、70万ヌクレオチドのキャプチャーがVCFファイル上の約800ヌクレオチドまたは足場位置まで削減されます。これらの800ヌクレオチドは、さまざまな脂質異常症症候群の有害性および希少性について約20の候補に還元されます。その時点で、当社のスタッフが小さなサブセットをキュレーションし、Hegele博士が研究対象者に返事ができるレポートを作成しています。

"MiSeqシステムが最適なプラットフォームとなりました。顧客は高品質のデータと大量のデータを必要としています。他のシーケンス技術ではターンアラウンドが速くなるかもしれませんが、MiSeqシステムから得られる高品質のデータとは競合できません。"

Q:LipidSeqパネルに新しい遺伝子座をどのように追加しますか?

JR:標準BEDファイルをDesignStudio Softwareのインポート形式で作成し、すべてのアイソフォームと重複プローブデザインをスプレッドシートに組み込みます。DesignStudio Softwareはそこから引き継ぎ、デザインを教えてくれます。カバレッジが低い場合やGC含量の警告がある場合、そのためにプローブを複製することがよくあります。UCSC Genome Browserにいつでもリンクして、プローブがどのようなものになるかを確認できます。

Q:LipidSeqパネルを研究に使った際、驚きはありましたか?

JR:候補遺伝子の一部には異なるタイプのバリエーションパターンがあり、どの表現型または表現型の四肢かによって異なるポリジェニック形質スコアプロファイルがあります。私たちが準備している科学的原稿の焦点です。

LipidSeqパネルでは、表現型に関係なく、これまでにシーケンスした2000の研究対象すべてについて完全なデータセットを取得できます。VCFファイルは、1人あたり800~1000のバリアントを報告しています。これにより、個々の症例の評価(どのバリエーションが被験者の表現型を説明しているのか)から、シーケンスカーネル関連検査などのツールを用いた関連検査へと移行する機会が得られます。そのため、NGSを使用して、他の研究者がマイクロアレイを用いて実施している実験を実施して、個人からコホートや集団に移行することができます。この場合、被験者のバリアントコールファイルとしてVCFファイルを使用します。

Q:ラボで他の研究にMiSeqシステムを使用していますか?

JR:MiSeqシステムは、ラボからのサンプルの実行に常に忙しくなっています。ロンドン地域ゲノミクスセンター(LRGC)の顧客です。LRGCは、Robarts Research Instituteで指揮を執るコアラボです。当研究所は、オンタリオ州脳研究所の一部であるオンタリオ神経変性研究イニシアチブ(ONDRI)のコアラボとしても活動しています。MiSeqシステムは、神経変性疾患に関連するバリアントを同定するために設計されたONDRISeqリシーケンスパネルを用いてサンプルを処理しています。LRGCには、ファーマコゲノミクスベースのパネルを開発した別の顧客がいます。また、LRGCは多くの細菌ゲノムとトランスクリプトームをシーケンスし、MiSeqシステム上でマイクロバイオーム解析を実行します。

Q:MiSeqシステムのデータについて研究者たちはどう考えていますか?

JR:彼らは、DNAとRNAのサンプルを提供し、その見返りとして高品質のデータを受け取ることができるという事実が気に入っています。例えば、LRGCのスタッフと協力して、顧客のニーズに合った実験をセットアップします。MiSeqシステムが小さな細菌ゲノムやトランスクリプトームをシーケンスできるという事実、1つのランカートリッジでサンプルをマルチプレックスしてコストを削減し、最終的には高品質のデータセットを提供できるという事実が気に入っています。CLC Genomics Workbenchソフトウェアにより、さまざまなフォーマットや実験設計のDNAおよびRNA解析を行うことができます。これらのデータセットは、複雑な環境の細菌トランスクリプトームと微生物叢プロファイルの異なる条件間で発現差を生成します。

"LipidSeqパネルにより、これまでにシーケンスした2000の研究テーマすべてに関する完全なデータセットを取得できます...そのため、NGSを使用して、他の研究者がマイクロアレイを用いて実施している実験を、個人からコホートや集団に移行することができます。"

Q:MiSeqシステムを選んだ理由は何ですか?

JR:当社は、カナダで初めてIon Torrentパーソナルゲノムマシン(PGM)を導入したラボの1つです。PGMの出力は500 Mbで、大きなチップは理論上の出力では1 Gbで、MiSeqシステム14 Gbの理論上の出力と一致しなかったことがわかりました。MiSeqシステムが最適なプラットフォームとなりました。顧客は高品質のデータと大量のデータを必要としています。他のシーケンス技術ではターンアラウンドが速くなるかもしれませんが、MiSeqシステムから得られる高品質のデータとは競合できません。

Q:Nextera Rapid Capture Custom Enrichment Kitは、あなたの研究でどのように機能しましたか?

JR: Nextera Rapid Capture Custom Enrichmentの使用は、LipidSeq研究で有益であることがわかりました。ベースペアパディングで遊び、ターゲット領域で十分なカバレッジを確保することを学びました。通常、Nextera Rapid Capture Custom Enrichmentターゲットのほとんどのコーディング領域で200~400倍のカバレッジを達成しています。

Q:サンガーシーケンスからNGSへの移行について、ラボではどのような認識をお持ちですか?

JR:当社の研究スタッフや上級スタッフが移行に加わり、時間とコストの面で成功しています。しかし、4年生と新卒の学生は、2週間で700 kbのデータが得られると予想しています。

Q:Robarts Research Instituteの文化は、LipidSeqパネルの設計に必要な創造性をどのようにサポートしましたか?

JR:Robarts Research Instituteの文化は、科学者を支援する強固なインフラを提供します。Hegele博士は確かに研究の世界的リーダーであり、創造的な人々を引き付ける優れた作業環境と科学プログラムを生み出しています。サンガーの枠を超えて考え、NGSなどの新しいテクノロジーを取り入れるようになります。完璧な例として、同じリシーケンスアッセイでエクソンリシーケンスとポリジェニック形質スコアのSNPスコアリングを実行し、LipidSeqパネルでそれを実現させるという概念が挙げられます。これは、SangerとTaqManのアッセイワークフローを組み合わせ、NGSを使用したハイスループットプロセスに変えた、創造性と優れた洞察の結果です。

イルミナシステムの詳細については、こちらの記事をご覧ください。

Nextera Rapid Capture Custom Enrichment Kit、
www.illumina.com/products/by-type/sequencing-kits/library-prep-kits/nextera-rapid-capture-custom-enrichment.html

MiSeqシステム、www.illumina.com/systems/sequencing-platforms/miseq.html

DesignStudio Custom Assay Design Tool、www.illumina.com/informatics/sample-experiment-management/custom-assay-design.html

ターゲットリシーケンス、
www.illumina.com/techniques/sequencing/dna-sequencing/targeted-resequencing.html

参考文献
  1. 米国心臓協会。心疾患と脳卒中の統計 – 201年最新情報:米国心臓協会からのレポート。Circulation . 2017;135:e146–e603。
  2. Johansen CT, Dube JB, Loyzer MN, et al. LipidSeq:単一遺伝子脂質異常症の次世代臨床リシーケンスパネル。J of Lipid Res . 2014;55(4):765–772。
  3. Hegele RA、Ban MR、Cao H、McIntyre AD、Robinson JF、Wang J。モノジェニック脂質異常症における次世代シーケンスをターゲットにしました。Curr Opin Lipidol 2015;26(2):103–113。