R语言for循环-批量完成相关系数计算

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO数据挖掘。


在数据分析过程中,尤其是在做基因筛选时,常会应用到批量筛选,这也是应用R语言分析数据的优势之一。在这一点上往往在线工具不能提供这样的功能。

我们来构建一个虚拟数据,来完成基因之间的批量分析,并导出结果

先产生一个矩阵

data<-matrix(rnorm(120),nrow=20,ncol = 6)

模仿一个矩阵数据

rownames(data)<-paste("gene",1:20,sep = "")
colnames(data)<-paste("sample",1:6,sep ="" )
head(data)
##          sample1    sample2    sample3     sample4    sample5     sample6
## gene1  0.6713704  0.9258705  0.6584580  0.87819034  1.3191532 -0.18602102
## gene2 -0.3275014  1.2083650  0.1699489  0.54841864  0.3195813 -0.04661051
## gene3  1.3187930  0.8165928 -0.6706707  0.11174014 -0.1358276 -0.43858189
## gene4 -0.8040756  0.3348103 -1.5573817 -0.45613542 -0.3221384 -0.59782362
## gene5 -0.9396341  0.7283671 -1.3389603 -0.50145046 -0.2183778  0.88841818
## gene6  1.1326463 -1.5588096  0.3842358  0.06078977 -1.0196727  0.61900583

实现批量完成基因间的相关系数计算

首先明确实现这个目的可以使用for循环 ### 构建好需要得出的结果表,包括基因名,相关系数,Pvalue
在使用for循环前,需要先来思考for循环的三个部分

  • 输出:即想得到的结果

  • 序列:如何进行循环迭代(三种循环模式:位置,元素,名称

  • 函数体:使用函数解决的问题

首先创建空向量

gene_name1<-c()##也可用vector
gene_name2<-c()
cor_r<-c()
pvalue<-c()

准备好循环体-可使用嵌套的for循环,完成完整的计算但不重复

注意第二个for循环的值为 i: nrow(data),这一点很巧妙

for (i in 1:nrow(data)){
  for (r in i:nrow(data)){
    g1=rownames(data)[i]
    g2=rownames(data)[r]
    c_r=cor(as.numeric(data[i,]),as.numeric(data[r,]),method="pearson")
    p=cor.test(as.numeric(data[i,]),as.numeric(data[r,]),method ="pearson")[[3]]
    ##保存每一步的数据,而不可直接以空向量作为每一步运行的结果
    gene_name1=c(gene_name1,g1)
    gene_name2=c(gene_name2,g2)
    cor_r=c(cor_r,c_r)
    pvalue=c(pvalue,p)
       }
}

输出为数据框,导出结果

data_cor<-data.frame(gene_name1,gene_name2,cor_r,pvalue)
head(data_cor)
##   gene_name1 gene_name2      cor_r       pvalue
## 1      gene1      gene1  1.0000000 7.395571e-32
## 2      gene1      gene2  0.4436884 3.781395e-01
## 3      gene1      gene3  0.2553650 6.252788e-01
## 4      gene1      gene4  0.2900609 5.771108e-01
## 5      gene1      gene5 -0.3356649 5.154125e-01
## 6      gene1      gene6 -0.6095215 1.989414e-01
dim(data_cor)
## [1] 210   4

(0)

相关推荐

  • 你只能哭着说明明没有相关性

    最近有粉丝在我们<生信技能树>公众号后台提出来了一个很有意思的问题, 他做的是2X3X3=18个样品的转录组测序,做完了各种各样的组合的差异分析,也做了WGCNA,想多加一个花样,就是最近 ...

  • 使用R实现批量方差分析(aov)和多重比较(LSD)

    Tao Wen 2019年1月5日 新 年 快 乐 引子 由我的工作来看,coding存在的意义就是无序重复机械的分析过程,让自己的时间集中在科学问题上,然而实现这个过程却花费了更多的?时间. 我们可 ...

  • clusterProfiler|GSEA富集分析及可视化

    GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,无需设定阈值来区分上调下调基因,使用所有的基因进行分析. GO 和 KEGG 可参考:R|clusterProfi ...

  • 硬核干货:如果样本量不一一样多,或者不是一一对应关系,如何做差异?相关?

    写在前面 因为我们测定的样本不总是可以匹配上的,但是最少的样本也不能太少,我们测定的三个样本做相关其实还是被质疑,但是测定了5或者6个重复,这个时候直接将样本比较多的样本过滤掉比较少的样本不就可以了吗 ...

  • R绘图笔记 | 柱状图绘制

    R绘图笔记 | 柱状图绘制

  • 【R分享|实战】科白君教你定义函数批量计算微生物α多样性

    " 突破."   --科白君 "R分享实战"专刊·第9篇   编辑 | 科白维尼   500字 | 10分钟阅读 本期推送内容 最近在处理一批数据量较大的数据, ...

  • 假设检验的几种常见方法

    前言 Z检验 T检验 独立样本t检验 配对样本t检验 单样本t检验 前言 在这篇文章中,我不会具体去推导检验统计量和相应拒绝域的得出,这对于大部分非统计学专业的人士来说是晦涩的,我只想通过一个案例告诉 ...

  • R语言相关系数计算与可视化

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 如何解释相关系数 相关系数的值在 -1~1之间,1表示强正相关,0不相关, ...

  • R语言-相关系数计算

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 应用R语言完成相关性检验,相关性矩阵及相关性可视化 首先安装相应的R包 r ...

  • 技术贴 | R语言:大样本多组学的相关性计算、热图绘制

    本文由可爱的乔巴根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 上期介绍了利用psych包计算两组小样本的相关性并进行热图可视化,但当样本数据量非常大时,psych包会耗费的时 ...

  • 技术贴 | R语言:小样本多组学的相关性计算、热图绘制

    本文由可爱的乔巴根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 在多组学数据关联挖掘中,在我们筛选到目标基因集以及目标蛋白质集合或目标代谢物集合后,在进行基因与蛋白质或代谢关联 ...

  • R语言计算资本资产定价模型(CAPM)中的Beta值和可视化

    原文链接:http://tecdat.cn/?p=22588 今天我们将计算投资组合收益的CAPM贝塔.这需要拟合一个线性模型,得到可视化,从资产收益的角度考虑我们的结果的意义. 简单的背景介绍,资本 ...

  • R语言相关系数、显著性检验及可视化的尝试

    最近在练习R实现相关分析,不试一下不知道,用R去做一个相关系数矩阵以及显著性检验,还这么麻烦,输出的结果也并不能灵活的展示,如果和SPSS或JASP相比的话,的确不怎么方便. 案例数据:犯罪数据sta ...

  • R语言 ROC曲线 截断值、特异性、敏感性和曲线下面积AUC值的计算和显示

    ** R语言绘制ROC曲线在临床医学中的应用 ** #计算体脂率对诊断妊娠期糖尿病的ROC曲线.截断值 sumExcel1.2018合4_列合并症<- read.csv("C:\Use ...

  • R语言Warning踩坑记之人鼠混合样本基因线粒体百分比计算

    前言:之前参加过几个生信培训班也听了一些视频,好几个老师们都是说R语言里面warning不用管,error才重要,我一直牢记于心.Warning从来不看.下面开始正文. 1 首先读入数据,并查看前几行 ...

  • R语言简单for循环

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 简单for循环  创建一个简单数据框 1Sys.setlocale('LC ...