公共数据库挖掘视频学习心得体会

公共数据库挖掘 -1- 导论

生物信息的公共数据库有哪些?

GEO、TCGA的数据挖掘是指什么?

开篇第一节,jimmy介绍了GEO和TCGA数据挖掘的概念以及一些数据库背景知识。

我们在谈数据挖掘时,通常指的是找到合适数量的基因集,通过各种统计学方法注释和解释基因集的意义。

当然,听完这个课,大概需要1.5小时,但要真正掌握数据挖掘,还需要大家自行练习一些案例,如此才能更好地学会公共数据库数据挖掘。

公共数据库挖掘 -2- 下载GEO数据库数据

视频详细介绍了如何使用R语言进行GEO数据的下载,得到基因表达矩阵以及样本信息。

在进行GEO数据挖掘时,找到文章中的GSE号,使用GEOquery包中的getGEO()函数下载数据,用exprs()函数得到基因表达矩阵,用pData()函数来获得样本信息。

本课程中,jimmy还讲解了如何查看、理解R里面的数据对象的方法,比如用str()、class()、help() 等来帮助大家更好地理解数据特点,明白为什么要这样做。

另外,课程中的代码都是已经写好的,大家只需跟着教程一步步做,就能得到自己需要的数据。

公共数据库挖掘 -3- 表达矩阵过滤

视频介绍了如何对已经从GEO下载的基因表达矩阵进行过滤。需要注意的是,我们从GEO得到的表达矩阵中的gene ID是基因探针,因此我们需要进行gene ID的转换,找到探针对应的gene symbol。

具体来讲,在进行gene ID转换时,jimmy介绍了2种方法:

一种是通过GPL平台相对应的bioconductor包来找到匹配探针的gene symbol。

另一种方法是使用GEOquery包中的getGEO()函数下载探针信息,并用Table()函数获取探针的gene symbol。

转换gene ID后,我们就得到了过滤后的表达矩阵。视频还介绍了如何对表达矩阵进行可视化,来探究表达量数据的特点。

值得一提的是——jimmy在整个视频的录制过程中,保留了真实的代码演示过程,包括遇到问题后,如何分析问题和解决问题,全程真实回放,期间还讲解了ls()、table()、unique()、%in%、apply()等函数的使用,相信学习掌握这些思路后,将会对大家日后的学习大有裨益。

公共数据库挖掘 4- 差异分析

得到基因表达矩阵后,接着就需要做差异分析。

jimmy详细讲解了差异分析的统计学原理,包括pvalue、p.adj、log2FC等结果指标的计算。在进行差异分析时,我们可以使用t.test()函数,也可以使用limma包进行差异分析,或者其他统计学检验方法。

在GEO数据挖掘中,我们常用limma包进行差异分析。

公共数据库挖掘 -5- 使用R语言进行科研绘图

大部分生物信息的绘图,基本思路就是:先理解那个图,接着找到相应的代码,使用自己的数据,得到自己想要的图。

本视频中,jimmy介绍了生物信息中常见绘图,并在案例中演示绘图过程,包括箱式图、散点图、火山图等。仅仅能绘图是不够的,理解图形给我们展示的信息,是十分重要的。

jimmy在视频中还介绍了如何根据图形来发现数据中可能存在的信息。使用R语言绘图并不难,只要会从网上找到你想要画的图和相应的代码,学会调试代码,用自己的数据就可以做出你想做的图。

公共数据库挖掘 -6 - 生信技能树学徒文献导读

视频中,jimmy带领大家浏览生信领域的一些重要文献,介绍了我们在做生物信息时需要学习、了解的一些背景知识。

这些文献涵盖了GEO数据挖掘、TCGA数据挖掘、string数据库、共表达网络、ceRNA网络、转录组分析、CHIP-seq、全基因组测序、全外显子测序等各种组学分析的背景知识。

通过这系列课程的学习,相信大家会有很多收获。

最后,祝愿大家能在生信学习中,收获满满,学业有成!

1. 导论

生物学背景知识

  • 公共数据库有哪些

  • 通常我们说的是GEO和TCGA

    • GEO为表达芯片数据 NGS数据

    • TCGA为NGS数据,一点芯片数据,肿瘤学数据

    • 技术分析有限,很少挖掘突变信息

  • 实际上是3大国际数据中心的了解,NCBI, ENSEMBL, UCSC

  • 我们谈挖掘的时候指的是什么

  • 基因集的概念(找基因集)

    • 通过各种统计学分析方法得到合适数量大小的基因集

    • 通过各种统计学方法注释和解释这个基因集的意义

    • MSigDB collections 上调/下调

    • 多看文章,找临床意义,可以发表文章的点

  • GEO部分

  • 选择GSE号-表达矩阵-差异分析得到基因集(limma)-五大数据库的注释-PPI等网络

  • TCGA部分

  • 扩展的统计学方法得到基因集

  • 背景介绍+阅读文献

  • 介绍TCGA项目纳入的不同组学数据

    • 有参组学的NGS数据分析的异同点分析

  • TCGA数据挖掘的文章思路

    • TCGA可以辅助证明我们自己的实验数据

    • Oncotarget, 2018: 作者自己单细胞转录组分析得到GSEA-enriched ECM-associated基因集,可以去TCGA里面获取表达量矩阵,做聚类热图,条形图看差异

    • 绘图美化:survminer R package

    • 载入ariway练手

    • 临床信息,理解

    • 导入R

    • 文章礼包

    • 差异分析

    • Principle component analysis (PCA)

    • Partial least squares (PLS)

    • Least Absolute shrinkage selection operator (lasso)

    • 芯片表达矩阵和测序表达矩阵

    • signature

    • 整合多少种数据

    • 使用多少种统计学方法

    • 预测哪个生物学意义(预后,生存,分期)

    • 甚至横跨多少种癌症

    • WGCNA

    • miRNA-mRNA配对或者ceRNA等其他

    • TCGA数据探索最基本的三个需求

    • 根据各种指标(某基因突变与否,肿瘤分期)把样本分组来比较感兴趣基因的表现情况

    • 看某个感兴趣基因的重要性,如生存分析,差异分析等

    • 下载及理解TCGA数据

    • GDC

    • UCSC的XENA

    • 文章框架及还原

    • 使用R根据TCGA表型数据制作临床三线表

    • 差异基因(表达数据,表达矩阵归一化,DESeq2)

    • 各种注释,GO/KEGG, GSEA

    • 使用多种统计算法定位

    • 生存分析

    • WGCNA

    • FAQs

    • lincRNA提取问题

  • 补充材料

    • 上游数据分析流程

    • 转录组

    • 肿瘤外显子组

    • 甲基化

    • 蛋白质组

    • 多组学数据整合

    • 其他网页工具

    • GEO2R

    • http://mexpress/be/

    • 基因甲基化和表达数据库MethHC

    • lncRNA功能研究神器:TANRIC数据库

    • TCGA可视化网站GEPIA

    • 免疫:The cancer immune atlas

    • 生存分析

  • 值得听六遍的视频

2. 下载GEO数据库数据

string()

class()

ExpressionSet()

view()

head()

samplenames()

3. 表达矩阵过滤

对象要用函数取

找每个平台对应的R包

没有的话用GEOquery, 通用代码

toTable

找规律

dim()

True or false 用来过滤

不同代码殊路同归

多个探针对应一个基因需要筛选,可以选用最大值,最小值,平均值,得到新的表达矩阵

看高还是低,boxplot()看一下,看管家基因表达高还是低

对着代码都打一遍,了解一下参数

pData()

字符串处理函数,学分割

class()

apply()

需要确定探针是如何对应探针的

a=c(1,2,3,3,2)
unique(a)
legnth(unique(a))
[1] 3
table(a)  # 频率

1:3 %in%  1:5
[1] TRUE TRUE TRUE

4. 差异分析

得表达矩阵,后续分析

画图看有基因对应的探针有多少boxplot()

过滤后得到处理好的表达矩阵,进行下游分析

理解数据之后代表的生物学意义

差异分析最简单的是T检验 t.test

写循环 apply()

得到p值,t.test(exprSet[4,]~group_list)$p.value.

class()

str()

火山图形容差异分析的结果

  • 矫正p值,看统计学原理,先学会用

5. 使用R语言进行科研绘图

大部分生物信息学绘图是理解图的含义之后找到相应代码

生物信息学常用的图的类型就二十多种

load()  # 首先载入数据
view()
table()
fivenum(dat$gene)  #gene 表达量
fivenum(dat[dat$stage=='i',1])
写循环
plot()一下p.value
上调下调,标基因名——找现成的代码
借助AI, PI后期修饰
每个通路都可以注释一个p_value

  • ggpubr

  • 看懂代码,调参数

  • GenID

6. 生信技能树学徒文献导读

需要零星去查的概念及好的文献学习

■   ■   ■

(0)

相关推荐

  • 精讲|TCGA&GEO数据库挖掘,如何预测肾细胞癌患者预后,精彩!

    我是小助理 启帆医学专注于SCI量身定制,SCI免费评估. SCI翻译润色.SCI发表协助:职称/硕博论文写作:科研课题标书设计撰写.如果有需要,您可以随时和我联系~~ 题目:Construction ...

  • 其实,GEO数据挖掘也很好发文章

    GEO is a public functional genomics data repository supporting MIAME-compliant data submissions. Arr ...

  • 生物医学大数据挖掘分析

    随着高通量测序技术的迅猛发展,各种生物医学数据库应运而生,大数据挖掘技术已成为生物医学领域中最新最重要驱动力之一.GEO是当今最大.最全的公共基因数据资源库,包括基因的表达.突变.修饰等信息,涵盖几乎 ...

  • 一篇最基本生信分析文献解读

    利用一周多的时间,我们把最最基本的生信套路来讲解了一遍.正好前几天一个小伙伴拿了一篇相关文献在咨询问题.这里就拿这篇文献来总结一下我们目前写的这些东西. 这次我们来讲解的这边文献是2019-10-12 ...

  • 大数据时代最全的医学公共数据库合集整理

    数据库技术是研究.管理和应用数据库的一门软件科学.通过研究数据库的结构.存储.设计.管理和应用的基本理论和实现方法,对数据库中的数据进行处理和分析. 本文我们将介绍几种数据库和数据挖掘技术,帮助临床研 ...

  • 现代农业学习心得体会(全文)

    在县政协陈立贵主席带领下,随县赴山东省市委党校现代农业培训班到..等现代农业先进市县进行了为期一周的学习考察.其间,既有政府部门领导.知名专家授课,又实地考察了许多园区.基地.研究所.示范点.典型村. ...

  • 张怡 || 引领 学习 提升—2021年城乡教师学习共同体名师引领行动学习心得体会

    5月19日,我有幸参加了"渭南市2021年城乡教师学习共同体名师引领行动语文学科" 培训专场.这次培训与以往不同--教师课堂授课能力培训.我深知本次培训会带给我怎样的益处,因此自始 ...

  • 外出学习心得体会

    宋淑娟 9月29日柳河县进修学校音乐教研会在进修五楼举行,会议由音乐教研员丛宇飞主持,来自全县名音乐教师和主管音乐教育工作的领导参加了大会,会议回顾了近几年新课改成果,反思了教学效果,为今后音乐课教学 ...

  • 学习心得体会

    参加"柳河县教育局组织的2021年骨干教师送教下乡" 听课心得体会 柳南乡中心小学 王硕 3月26日,我参加了在三源浦中心校举行的柳河县骨干教师送教下乡活动,作为一名农村乡镇小学的 ...

  • 榜样5学习心得体会汇编(5篇)

    [汇编599期] 目录 1.榜样5学习心得体会--最是"初心"见品质 2.榜样5学习心得体会--用榜样精神铸就5把"锤" 3.榜样5学习心得体会--扛起&quo ...

  • 畜牧养殖学习心得体会3篇

    来自简单日记网精选推荐.通过畜牧养殖学习,不断得到更新.认识.提高,原来在生产中遇到过的困难和问题茅塞顿开,以后可以迎刃而解,农技推广水平大大长进,在此分享心得体会. 畜牧养殖学习心得体会篇1 胜利的 ...

  • 上消化道早癌病理的学习心得体会(附胃牵手癌的病例特点文献学习)

    作者:   张  黎    上海市松江区中心医院病理科   (网名  黎叔) 基层消化内镜交流学习群邀请到黎叔为大家分享上消化道早癌病理的学习心得体会,现在在小树林发布,希望能对我们基层消化医生有所帮 ...

  • 近期学习心得体会

    近期参加了中国作协副主席张炜的新书<爱的川流不息>分享会,之前没有真正意义上研究他的书,因为参加活动,买了两本,才发现此君是一座思想宝库,分析问题很有深度. 他的知识储备相当惊人,这次最大 ...

  • 中医师承学习心得体会范文

    推荐度: 当我们心中积累了不少感想和见解时,可以记录在心得体会中,这么做可以让我们不断思考不断进步.是不是无从下笔.没有头绪?以下是小编精心整理的中医师承学习心得体会范文,欢迎大家分享. 中医师承学习 ...