NGS基因检测Panel的探针设计
背景
目前市面上的肿瘤靶向用药基因检测Panel已非常常见,除了直观层面的gene种类、数目、捕获建库方法的不同外,对于肿瘤panel, 探针定制之初相关的MSI位点、融合断点等设计,直接影响着同一个Panel下每一批探针的实际检测效果。在探针设计层面,简单直接的办法就是确定gene列表后,直接外包探针定制公司代为设计或者自行在开源网站上设计优化:
优势:所有gene全外显子覆盖,简便高效;
弊端:对于中小型Panel,探针大小处于临界值的情况不容易控制;遗漏掉内含子区域的有害突变;外显子比例偏低的重要基因的CNV检测的准确性会受到影响;对于肿瘤用药检测Panel,MSI位点跟融合断点通常不在外显子区间中,需要额外补充;测序成本较高--以TMB相伴而生的大Panel为例,市面上500个gene左右的大Panel,若所有gene采用全外显子设计,探针大小普遍超过2Mb,在cfDNA样本低频突变要求的高深度测序模式下,即便10000X的原始测序深度,也需要20G以上的数据量,单测序费用就超过1000RMB,同时也延长了数据分析时间及交付周期。
为此,我们提出一种:结合Clinvar、COSMIC等数据库,对重点gene和非重点gene区别对待,以有害或可能有害突变分布密度为单位的选择性设计方案:
方法
具体步骤:
SNV/INDEL部分:
step1. 在Suredesign等软件上获取候选gene list对应基因组版本的外显子 3'/5’UTR区间信息,同时根据用药、检测内容等信息确定候选gene list中的核心gene与非核心gene;
step2. 使用STIF、Polyphen2等主流突变有害性预测软件对COSMIC、Clinvar数据库中的全部位点进行注释,设定判断条件获得原始有害候选位点集合,进一步将候选集和按exon、UTR、intron等注释信息分类;
step3. 将step2得到的exon UTR区域的有害位点信息mapping回step1得到的染色体区间,根据落入各区间的有害位点数目及区间长度得到有害位点分布密度;
step4. 结合step1确定的核心gene及非核心gene集合,设定对应的有害位点分布密度cutoff值,确定需要保留exon UTR区域后,再引入intron等区域的有害位点;
CNV部分:
结合step1确定的gene exon区间总长、NCBI等数据库收录的gene全长信息,计算该gene全外显子区域占比,若比例过低,则需随机引入内含子区间作为补充,如果有文献明确报道其CNV区域,也可直接引入文献报道区间。
融合/微卫星部分:
融合断点以及微卫星位点一般都不在exon区域,需要结合文献、数据库及同行同类产品收集整理并引入。
汇总迭代:
合并SNV/INDEL、CNV、融合/微卫星部分的基因组位置信息,结合探针区间的目的大小,迭代优化。
查遗:
1. 在终版探针定出之前,对TERT基因 promoter等特殊位点以及EGFR靶向用药相关突变、FGFR融合断点等重要位点进行查遗确认。
升级:
对于大panel: 如果对TMB与WES的相关性更关注,可以进一步根据目的癌种的不同,从SNV/INDEL的区间中迭代计算,选取与目的癌种spearman相关系数最高的区间,作为TMB计算的候选区域。
***注意软件版本及参数更新对默认区间的影响:以AKT1基因为例:
原因:2020年7月份上线的基于机器学习方法进行探针区间优化的“Select Optimized Probes” 默认参数,对AKT1基因来讲,虽然可以减少34%的探针数目和24%的区间,有效降低了探针合成与定制成本,但这个功能目前是存在bug的,会遗遗漏exon末端区间,而有些是包含重要用药信位点的,导致下一步用默认的“Coding Exons”参数却并不是真正的外显子设计!
解决办法:
1.需要控制区间大小——上一步改回原来的“Design new probes by tiling genes or regions”参数;
2. 关注UTR区域——选择Coding Exons UTRs参数;
3. 在探针定出后发现bug——适当延长原bed文件中每个外显子的上下游区间,以回收部分遗漏区域。
建议每批探针设计完成后,随机挑选重要基因或重要区域,在UCSC上加一步确认,以避免因更新优化引入的新bug!
讨论
1.市面上各家肿瘤基因检测公司的产品,尤其是拼基因数目的大Panel,有多少是真正的所有gene全外显子设计?
2、对肿瘤患者及药企伴随诊断而言,所有gene外显子全部引入的设计模式性价比?