资源 | PH525x series - 使用R语言进行统计分析理论教学与实战
Biomedical Data Science 是哈佛大学PH525x系列课程之一。课程内容全部是使用R语言进行统计分析理论教学与实战,以下是课程大纲。
教材采用Rmarkdown语言编写,详见链接http://genomicsclass.github.io/book/ ,轻松易读,上手快,方便大家学习,同时,我们不仅可以系统学习生信工程师所要掌握的统计知识,还能用代码复现,并达到SCI发表的要求。
关于作者:
Rafael A Irizarry 是哈佛大学公共卫生学院丹娜法伯癌症研究院的生物统计和计算生物学教授,有20年分析基因组数据的经验。
Michael I Love 是北卡教堂山大学 生物统计与遗传系助理教授。研究方向为利用统计模型发现基因组数据中的生物规律,并开发了Bioconductor中开源统计软件,github:https://github.com/mikelove。
课程源代码:https://github.com/genomicsclass/labs 包括课程所有源代码、测试数据和结果
网页版教程: https://genomicsclass.github.io/book/ ,包括课程的Rmd运行结果网页教程,和Rmd源代码的每节导航和下载链接。
电子书:https://leanpub.com/dataanalysisforthelifesciences/ 方便下载各版本在移动端阅读
关注我们《生信技能树》资源专辑,下期我们继续推荐更多更好的资源。
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
了解常量和变量概念 加减乘除等运算(计算器) 多种数据类型(数值,字符,逻辑,因子) 多种数据结构(向量,矩阵,数组,数据框,列表) 文件读取和写出 简单统计可视化 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘! 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。 第5阶段:任务提交及批处理,脚本编写解放你的双手。 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。