手把手教你用R语言做PCA主成分分析，不存在学不会

作者简介

本文作者Trigo Hoang，作者目前在香港攻读博士学位，硕士期间发表了多篇生信相关的SCI，累计影响因子35+,公众号简书会记录作者学习生信期间的一些小笔记，希望能跟正在学习生信的同学们多交流多进步。
编辑校稿：白介素2

简介

主成分分析（Principal Component Analysis，PCA），顾名思义，即是拿来分析’‘主成分“的。通常和 PCA 联系在一起的是降维，当手里的数据集有成千上万个特征时，PCA可以减少数据集的维数，同时保留对数据集贡献最大的特征。

本质上主成分分析是「找到一个欧式空间的线性变换，把原始数据从“一组旧的标准正交基下的表示”转化成“另一组新的标准正交基下的表示”，降维发生在新的标准正交基下的表示，直接去掉了后面几个维度的坐标值」。简单来说就是利用线性变换，将分析数据的方差投影到二维的坐标上。

在学生信学习过程中，PCA是我们经常用到的分析方法，目的是为了找到有共同特征的不同聚类，在处理RNA-seq数据中发挥作用，可用于判断批次效应或者离群点。

PCA用到的R包

在pca常用的R包就俩个，一个是FactoMineR包，此包常用于分析；另外一个是factoextra包，是用来做可视化的，factoextra包内含了基于ggplot2的数据可视化的函数，是一个非常实用的包。

以iris数据集为例，提取并可视化特征值

代码示例

library("FactoMineR") library(factoextra) iris.pca <- PCA(iris[,-5], graph = T) fviz_screeplot(iris.pca, addlabels = TRUE, ylim = c(0, 75) )

提取可视化变量的结果（coord，cor，cos2，contribution）

var <- get_pca_var(iris.pca) View(var) head(var$coord) # Dim.1 Dim.2 Dim.3 Dim.4 #Sepal.Length 0.8901688 0.36082989 -0.27565767 -0.03760602 #Sepal.Width -0.4601427 0.88271627 0.09361987 0.01777631 #Petal.Length 0.9915552 0.02341519 0.05444699 0.11534978 #Petal.Width 0.9649790 0.06399985 0.24298265 -0.07535950 head(var$cos2) # Dim.1 Dim.2 Dim.3 Dim.4 #Sepal.Length 0.7924004 0.130198208 0.075987149 0.0014142127 #Sepal.Width 0.2117313 0.779188012 0.008764681 0.0003159971 #Petal.Length 0.9831817 0.000548271 0.002964475 0.0133055723 #Petal.Width 0.9311844 0.004095980 0.059040571 0.0056790544 head(var$contrib) # Dim.1 Dim.2 Dim.3 Dim.4 #Sepal.Length 27.150969 14.24440565 51.777574 6.827052 #Sepal.Width 7.254804 85.24748749 5.972245 1.525463 #Petal.Length 33.687936 0.05998389 2.019990 64.232089 #Petal.Width 31.906291 0.44812296 40.230191 27.415396

利用fviz_pca_ind函数进行可视化

fviz_pca_ind(iris.pca, geom.ind = 'point', habillage = iris$Species, # color by groups palette = c("#00AFBB", "#E7B800", "#FC4E07"), addEllipses = T # Concentration ellipses)

参考资料-PCA的定义

「主成分分析」（英语：「Principal components analysis」，「PCA」）是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分（Principal Components）。具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感（相对缩放）。

「基本思想：」

将坐标轴中心移到数据的中心，然后旋转坐标轴，使得数据在C1轴上的方差最大，即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为「第一主成分」。
C2「第二主成分」：找一个C2，使得C2与C1的协方差（相关系数）为0，以免与C1信息重叠，并且使数据在该方向的方差尽量最大。
以此类推，找到第三主成分，第四主成分。。。。第p个主成分。p个随机变量可以有p个主成分[1]。

主成分分析经常用于减少数据集的维数，同时保留数据集当中对方差贡献最大的特征。这是通过保留低维主成分，忽略高维主成分做到的。这样低维成分往往能够保留住数据的最重要部分。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。

博士师兄手把手教你用R语言做PCA分析，不存在学不会！

手把手教你用R语言做PCA主成分分析，不存在学不会

作者简介

简介

PCA用到的R包

代码示例

参考资料-PCA的定义

相关推荐