公共数据库挖掘视频学习心得体会
公共数据库挖掘 -1- 导论
生物信息的公共数据库有哪些?
GEO、TCGA的数据挖掘是指什么?
开篇第一节,jimmy介绍了GEO和TCGA数据挖掘的概念以及一些数据库背景知识。
我们在谈数据挖掘时,通常指的是找到合适数量的基因集,通过各种统计学方法注释和解释基因集的意义。
当然,听完这个课,大概需要1.5小时,但要真正掌握数据挖掘,还需要大家自行练习一些案例,如此才能更好地学会公共数据库数据挖掘。
公共数据库挖掘 -2- 下载GEO数据库数据
视频详细介绍了如何使用R语言进行GEO数据的下载,得到基因表达矩阵以及样本信息。
在进行GEO数据挖掘时,找到文章中的GSE号,使用GEOquery包中的getGEO()函数下载数据,用exprs()函数得到基因表达矩阵,用pData()函数来获得样本信息。
本课程中,jimmy还讲解了如何查看、理解R里面的数据对象的方法,比如用str()、class()、help() 等来帮助大家更好地理解数据特点,明白为什么要这样做。
另外,课程中的代码都是已经写好的,大家只需跟着教程一步步做,就能得到自己需要的数据。
公共数据库挖掘 -3- 表达矩阵过滤
视频介绍了如何对已经从GEO下载的基因表达矩阵进行过滤。需要注意的是,我们从GEO得到的表达矩阵中的gene ID是基因探针,因此我们需要进行gene ID的转换,找到探针对应的gene symbol。
具体来讲,在进行gene ID转换时,jimmy介绍了2种方法:
一种是通过GPL平台相对应的bioconductor包来找到匹配探针的gene symbol。
另一种方法是使用GEOquery包中的getGEO()函数下载探针信息,并用Table()函数获取探针的gene symbol。
转换gene ID后,我们就得到了过滤后的表达矩阵。视频还介绍了如何对表达矩阵进行可视化,来探究表达量数据的特点。
值得一提的是——jimmy在整个视频的录制过程中,保留了真实的代码演示过程,包括遇到问题后,如何分析问题和解决问题,全程真实回放,期间还讲解了ls()、table()、unique()、%in%、apply()等函数的使用,相信学习掌握这些思路后,将会对大家日后的学习大有裨益。
公共数据库挖掘 4- 差异分析
得到基因表达矩阵后,接着就需要做差异分析。
jimmy详细讲解了差异分析的统计学原理,包括pvalue、p.adj、log2FC等结果指标的计算。在进行差异分析时,我们可以使用t.test()函数,也可以使用limma包进行差异分析,或者其他统计学检验方法。
在GEO数据挖掘中,我们常用limma包进行差异分析。
公共数据库挖掘 -5- 使用R语言进行科研绘图
大部分生物信息的绘图,基本思路就是:先理解那个图,接着找到相应的代码,使用自己的数据,得到自己想要的图。
本视频中,jimmy介绍了生物信息中常见绘图,并在案例中演示绘图过程,包括箱式图、散点图、火山图等。仅仅能绘图是不够的,理解图形给我们展示的信息,是十分重要的。
jimmy在视频中还介绍了如何根据图形来发现数据中可能存在的信息。使用R语言绘图并不难,只要会从网上找到你想要画的图和相应的代码,学会调试代码,用自己的数据就可以做出你想做的图。
公共数据库挖掘 -6 - 生信技能树学徒文献导读
视频中,jimmy带领大家浏览生信领域的一些重要文献,介绍了我们在做生物信息时需要学习、了解的一些背景知识。
这些文献涵盖了GEO数据挖掘、TCGA数据挖掘、string数据库、共表达网络、ceRNA网络、转录组分析、CHIP-seq、全基因组测序、全外显子测序等各种组学分析的背景知识。
通过这系列课程的学习,相信大家会有很多收获。
最后,祝愿大家能在生信学习中,收获满满,学业有成!
1. 导论
生物学背景知识
公共数据库有哪些
通常我们说的是GEO和TCGA
GEO为表达芯片数据 NGS数据
TCGA为NGS数据,一点芯片数据,肿瘤学数据
技术分析有限,很少挖掘突变信息
实际上是3大国际数据中心的了解,NCBI, ENSEMBL, UCSC
我们谈挖掘的时候指的是什么
基因集的概念(找基因集)
通过各种统计学分析方法得到合适数量大小的基因集
通过各种统计学方法注释和解释这个基因集的意义
MSigDB collections 上调/下调
多看文章,找临床意义,可以发表文章的点
GEO部分
选择GSE号-表达矩阵-差异分析得到基因集(limma)-五大数据库的注释-PPI等网络
TCGA部分
扩展的统计学方法得到基因集
背景介绍+阅读文献
介绍TCGA项目纳入的不同组学数据
有参组学的NGS数据分析的异同点分析
TCGA数据挖掘的文章思路
TCGA可以辅助证明我们自己的实验数据
Oncotarget, 2018: 作者自己单细胞转录组分析得到GSEA-enriched ECM-associated基因集,可以去TCGA里面获取表达量矩阵,做聚类热图,条形图看差异
绘图美化:survminer R package
载入ariway练手
临床信息,理解
导入R
文章礼包
差异分析
Principle component analysis (PCA)
Partial least squares (PLS)
Least Absolute shrinkage selection operator (lasso)
芯片表达矩阵和测序表达矩阵
signature
整合多少种数据
使用多少种统计学方法
预测哪个生物学意义(预后,生存,分期)
甚至横跨多少种癌症
WGCNA
miRNA-mRNA配对或者ceRNA等其他
TCGA数据探索最基本的三个需求
根据各种指标(某基因突变与否,肿瘤分期)把样本分组来比较感兴趣基因的表现情况
看某个感兴趣基因的重要性,如生存分析,差异分析等
下载及理解TCGA数据
GDC
UCSC的XENA
文章框架及还原
使用R根据TCGA表型数据制作临床三线表
差异基因(表达数据,表达矩阵归一化,DESeq2)
各种注释,GO/KEGG, GSEA
使用多种统计算法定位
生存分析
WGCNA
FAQs
lincRNA提取问题
补充材料
上游数据分析流程
转录组
肿瘤外显子组
甲基化
蛋白质组
多组学数据整合
其他网页工具
GEO2R
http://mexpress/be/
基因甲基化和表达数据库MethHC
lncRNA功能研究神器:TANRIC数据库
TCGA可视化网站GEPIA
免疫:The cancer immune atlas
生存分析
值得听六遍的视频
2. 下载GEO数据库数据
string()
class()
ExpressionSet()
view()
head()
samplenames()
3. 表达矩阵过滤
对象要用函数取
找每个平台对应的R包
没有的话用GEOquery, 通用代码
toTable
找规律
dim()
True or false 用来过滤
不同代码殊路同归
多个探针对应一个基因需要筛选,可以选用最大值,最小值,平均值,得到新的表达矩阵
看高还是低,boxplot()看一下,看管家基因表达高还是低
对着代码都打一遍,了解一下参数
pData()
字符串处理函数,学分割
class()
apply()
需要确定探针是如何对应探针的
a=c(1,2,3,3,2)
unique(a)
legnth(unique(a))
[1] 3
table(a) # 频率
1:3 %in% 1:5
[1] TRUE TRUE TRUE
4. 差异分析
得表达矩阵,后续分析
画图看有基因对应的探针有多少boxplot()
过滤后得到处理好的表达矩阵,进行下游分析
理解数据之后代表的生物学意义
差异分析最简单的是T检验 t.test
写循环 apply()
得到p值,t.test(exprSet[4,]~group_list)$p.value.
class()
str()
火山图形容差异分析的结果
矫正p值,看统计学原理,先学会用
5. 使用R语言进行科研绘图
大部分生物信息学绘图是理解图的含义之后找到相应代码
生物信息学常用的图的类型就二十多种
load() # 首先载入数据
view()
table()
fivenum(dat$gene) #gene 表达量
fivenum(dat[dat$stage=='i',1])
写循环
plot()一下p.value
上调下调,标基因名——找现成的代码
借助AI, PI后期修饰
每个通路都可以注释一个p_value
ggpubr
看懂代码,调参数
GenID
6. 生信技能树学徒文献导读
需要零星去查的概念及好的文献学习
■ ■ ■