药物预测R包之oncoPredict

有了前面的教程:药物预测之认识表达量矩阵和药物IC50 的背景知识铺垫,认识了Cancer Therapeutics Response Portal (CTRP) 和 Genomics of Drug Sensitivity in Cancer (GDSC) 两个数据库资源。

现在我们可以尝试一下使用R包之oncoPredict对你的表达量矩阵进行药物反应预测啦!

发表oncoPredict这个包的文献非常新:《oncoPredict: an R package for predicting in vivo or cancer patient drug response and biomarkers from cell line screening data》,这个通讯作者就是2014年r包pRRophetic同一个人,相当于是炒冷饭吧!

使用oncoPredict之前先安装,代码如下:

install.packages("oncoPredict")

如果遇到版本问题,请看:https://mp.weixin.qq.com/s/HGfePIQP4yP_nvhjiWdpAQ

使用方法超级简单

首先需要读入训练集的表达量矩阵和药物处理信息,参考前面的教程:药物预测之认识表达量矩阵和药物IC50

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
library(oncoPredict)
library(data.table)
library(gtools)
library(reshape2)
library(ggpubr)
th=theme(axis.text.x = element_text(angle = 45,vjust = 0.5))
dir='./DataFiles/Training Data/'
GDSC2_Expr = readRDS(file=file.path(dir,'GDSC2_Expr (RMA Normalized and Log Transformed).rds'))
GDSC2_Res = readRDS(file = file.path(dir,"GDSC2_Res.rds"))
GDSC2_Res <- exp(GDSC2_Res) 

这里仍然是以Genomics of Drug Sensitivity in Cancer (GDSC) 的v2作为例子,有了训练集的表达量矩阵和药物处理信息,还需要读入你需要做预测的表达量矩阵。

因为我们这个是教程,所以我就不读取自己的表达量矩阵了,直截了当的从Genomics of Drug Sensitivity in Cancer (GDSC) 的v2里面随机挑选10个细胞系作为要预测的矩阵。

testExpr<- GDSC2_Expr[,sample(1:ncol(GDSC2_Expr),10)]
testExpr[1:4,1:4]  
colnames(testExpr)=paste0('test',colnames(testExpr))
dim(testExpr)  

了训练集的表达量矩阵和药物处理信息,然后也有了待预测的表达量矩阵,接下来就是一个函数的事情啦!这个函数calcPhenotype就是R包 oncoPredict的核心,超级方便!

calcPhenotype(trainingExprData = GDSC2_Expr,
              trainingPtype = GDSC2_Res,
              testExprData = testExpr,
              batchCorrect = 'eb',  #   "eb" for ComBat  
              powerTransformPhenotype = TRUE,
              removeLowVaryingGenes = 0.2,
              minNumSamples = 10, 
              printOutput = TRUE, 
              removeLowVaringGenesFrom = 'rawData' )

这个函数运行取决于你的计算资源,需要半个小时左右。好像也没有多线程的可能性,所以只能是慢慢等了,喝一杯咖啡吧,如果可以的话希望你在咱们《生信技能树》公众号任意教程末尾打赏一杯咖啡也行,我们一起慢慢喝,慢慢等!

从函数运行的log日志来看,本质上就是一个岭回归:

17419  gene identifiers overlap between the supplied expression matrices... 
 
Found2batches
Adjusting for0covariate(s) or covariate level(s)
Standardizing Data across genes
Fitting L/S model and finding priors
Finding parametric adjustments
Adjusting the Data 
 4650 low variabilty genes filtered. 
Fitting Ridge Regression model 
Calculating predicted phenotype... 
Done making prediction for drug 1 of 198 
Fitting Ridge Regression model... 
Calculating predicted phenotype... 
Done making prediction for drug 2 of 198

差不多是最简单的最常用的机器学习统计学方法了,如果你对其它机器学习方法感兴趣,可以看生信菜鸟团鲍志炜的专栏分享:

其实在生物信息学领域,可能仍然是R语言应用更为广泛,简单的一个R包或者函数即可。所以并不是一定要学习python哈。

解读药物预测结果

前面的R包 oncoPredict的核心函数calcPhenotype运行完毕后,会在当前工作目录下面输出 calcPhenotype_Output 文件夹,里面有一个 DrugPredictions.csv的文件,这个都是函数calcPhenotype写死了的。

library(data.table)
testPtype <- fread('./calcPhenotype_Output/DrugPredictions.csv', data.table = F)
testPtype[1:4, 1:4]

不同的数据库资源作为函数的训练集,得到的结果必然是不一样的哦!而且函数也可以调整很多参数。

(0)

相关推荐

  • GCN-GAN:加权动态网络的非线性时序链路预测模型

    GCN-GAN:加权动态网络的非线性时序链路预测模型

  • 【学术论文】基于LSTM网络的IGBT参数预测硬件系统设计

    摘要: 对绝缘栅双极型晶体管进行参数预测可以有效地避免因其失效带来的经济损失和安全问题.对绝缘栅双极型晶体管参数进行分析,设计了一个基于LSTM网络的绝缘栅双极型晶体管参数预测SoC硬件系统.该系统使 ...

  • 风险策略中的五层决策

    领取风控资料合集 文末有惊喜小福利,记得看到底呦 在量化风险管理中,策略人员每天都会碰到各种各样的场景需要进行决策,通常决策都会需要大量的数据分析结果来做支撑. 一套完整的策略决策层级总体分成五个阶段 ...

  • 药物预测R包之pRRophetic

    有了前面的教程:药物预测之认识表达量矩阵和药物IC50 的背景知识铺垫,认识了Cancer Therapeutics Response Portal (CTRP) 和 Genomics of Drug ...

  • Microbiome:animalcules-交互式微生物组分析和可视化的R包

    animalcules-交互式微生物组分析和可视化的R包 animalcules: interactive microbiome analytics and visualization in R Mi ...

  • R Documentation:整合的R包说明平台

    R包是我们生息分析中不可缺少的工具,在学习和使用过程中,我们常会遇到:无法找到解决实际需要的函数,或希望有汇总的网站可以找到相关包的具体说明.搜索R包的途径有很多,例如分别通过RCRAN mirror ...

  • 5个画热图的R包,你都知道吗?

    2017-03-21 17:45 之前我们分享过R语言绘制热图(),用的是pheatmap包.其实画热图还可以用heatmap函数.ggplot2包.gplot包.lattice包来画,惊呆了吧~~ ...

  • 如何获取R自带数据集与R包数据集说明文档?

    学习R的时候,我们都会用到R到自带数据集,或者第三方R包内含的数据集,比如iris鸢尾花数据. 有数据集,比如上面这个iris数据,但是我们不了解该数据集具体背景的话,就难以理解它的分析目的,统计分析 ...

  • R包animalcules-一键式交互探索微生物组数据

    写在前面 这个包最优雅的地方在于交互式,所以学习的主要目的也就是交互式的实践.交互 图可以很好的探索数据,但一般不支持输出矢量图,不方便下游编辑和修改和用于发表.如果你找到了导出矢量图方法,请留言. ...

  • 免疫细胞相关药物预测数据库

    由于现在免疫相关方面的内容十分的热,也因此诞生了很多理由高通量测序来进行疾病免疫细胞评估的文章以及数据库.我们之前介绍的TIMER2以及GEPIA2021都属于这类的数据库.这两个数据库只要还是集中在 ...

  • FEMS:微生物群落生态学数据挖掘的R包microeco

    英文原名:microeco: An R package for data mining in microbial community ecology 中文译名:微生物群落生态学数据挖掘的R包micro ...

  • 既往抗CD19药物治疗R/R大B细胞淋巴瘤不影响对Liso-Cel的缓解

    试验发现 对变革性TRANSCEND NHL 001试验(NCT02631044)的事后分析显示,复发/难治性大B细胞淋巴瘤(LBCL)患者接受抗CD19治疗不影响对 lisocabtagene ma ...