是否可以根据10X转录组数据来推断基因组CNV信息呢?

有学员问10x的3'端测序来infer CNV 是否可靠?

这个问题,说实话,很难回答,因为要是能完整回答这个问题,其实就是一篇正经的生物信息学文章了。

而且以前的确有文章这样做,我看到过的文章是是 Comprehensive analysis of immune evasion in breast cancer by single-cell RNA-seq , 链接是. doi: http://dx.doi.org/10.1101/368605 bioRxiv preprint first posted online Jul. 13, 2018;   就是使用10X转录组数据来推断CNV信息,如下:

他们分析的结果看起来还行,反正是肿瘤恶性细胞和其它细胞是可以区分开来的,但是我没有看到原始数据可以下载,所以也无法复现这个分析流程,姑且只能是先相信他们。

那么10X数据跟其它单细胞转录组差异在哪呢?

在我们推荐的各种单细胞转录组技术比较的文章,Ziegenhain et al., 2017, Molecular Cell  http://dx.doi.org/10.1016/j.molcel.2017.01.023 其实提到过:

虽然这篇文章没有比较10X,不过,只要是你的文章足够多,其实很容易想到,因为10X技术出来的单个细胞的reads数量太少,检测到的基因数量太少。

很容易从10X的数据分析报告看出来,10X单细胞转录组数据处理流程在我们单细胞天地有详细介绍:

报告如下:

显示平均每个细胞的测序数据量是45K条reads。

当然,并不是10x一个技术是这样单个细胞的reads数量太少,检测到的基因数量太少。比如文章:Li et al., Dysfunctional CD8 T Cells Form a Proliferative, Dynamically Regulated Compartment within Human Melanoma, Cell (2019), https://doi.org/10.1016/j.cell.2018.11.043 :同样的,平均每个细胞也就40K左右的reads数量啦。

而其它技术,通常可以达到百万条reads的量级。

比如汤富酬的 A single-cell RNA-seq survey of the developmental landscape of the human prefrontal cortex

再比如张泽明的 Lineage tracking reveals dynamic relationships of T cells in colorectal cancer

这跟10X来说,都是数量级的差异。

如果你想让你的 10X达到百万级别的测序量该如何

从40K到1M,需要25倍的扩大,如果从包lane的角度来说,有点太贵了,现在哪怕是Nova-seq,一条lane也得好几千块钱,虽然是10X费用是一个样本2万块钱,但是给一个10X样本测25条lane,就把成本优势给搞没有了。

不过,并不是说推断CNV就一定需要1M的reads,实际上是可以通过模拟不同文库大小数据,来测试什么样的数据量,是可以足够推断CNV的,比如就可以在bulk数据,或者那样的C1数据里面测试。

这个课题,就交给大家了哦。

(0)

相关推荐