初学《R数据科学》之——tidyverse是什么

初学《R数据科学》之——tidyverse是什么

写在前面

在学《R数据科学》这本书之前,首先要知道,这本书不是讲各种类型的图用R是怎么做出来的,而是通过一些示例来讲解如何用R语言分析数据,更多的是其中呈现出的科研思维特别值得我们学习。而且,本书的书写方式、组织结构,甚至语言都很亲民,仿佛知道你在想什么。读完本书后,你将掌握R言的精华,并能够熟练使用多种工具来解决各种数据科学难题。

典型数据分析项目的工作流程

在介绍tidyverse之前,首先介绍一个典型的数据科学项目需要的工具模型,大体如下:

中文版:

英文版:

  1. 导入(Import)数据。

  2. 数据初级处理之——数据整理(Tidy)

    将数据整理成R可识别的格式,整理好的数据形式:

    每列是一个变量,每行是一个观测。

  3. 数据二次处理之——数据转换(Transform)

    将数据转换成分析直接需要的数据,即数据的二次加工,如:

    选出感兴趣的行、用现有变量创建新变量、计算一些统计量等。

  4. 生成知识的方式之一——可视化(Visulise):将数据用更直观的方式呈现,以便更好的发现规律。

  5. 生成知识的方式之二——模型(Model):弥补可视化缺点的工具。

    如果已经将问题定义得足够清晰,那么就可以使用一个模型来回答问题。

  6. 数据科学的最后一步——沟通(Communicate)

    在模型和可视化对数据理解透彻后,与他人交流分析结果。

  7. 编程(Program):

    编程围绕在这些技能之外,又贯彻数据科学分析项目的各个环节。

tidyverse是什么

tidyverse是一个连贯的数据包操作系统,用于数据操作,探索和可视化,其中包含了一些核心R包,这些包按功能可以分为数据导入、数据整理、数据转换、可视化、建模、编程。它们与数据分析工作流程的关系大体如下:

下面列出了本书中涉及到的核心R包,主要看看各个包都是什么功能,在什么情况下用,关于包的使用及具体问题这里暂时不谈。

1. 数据导入

readr:本书第二部分《数据处理》第8章——用readr进行数据导入;提供常规的csv,txt等文件导入,注意导入格式不同于data.frame。是tibble。

readxl:导入excel文件

haven:支持spss和SAS数据导入

httr:支持网络数据导入

rvest:支持网页数据爬取等网页数据导入,配合httr和xml2包使用

xml2:xml格式数据支持

2. 数据整理

tibble:本书第二部分《数据处理》第7章——用tibble实现简单数据框;最大的特征就是没有行名。

tidyr :提供缺失值处理

3. 数据转换

dplyr:本书第一部分《探索》第3章——用dplyr进行数据转换;本书第二部分《数据处理》第9章——用dplyr处理关系数据;

forcats:本书第二部分《数据处理》第11章——用forcats处理因子;

hms:用于存储和转化时间数据

lubridate:本书第二部分《数据处理》第12章——用lubridate处理日期和时间;

stringr:本书第二部分《数据处理》第10章——用stringr处理字符串;

4. 可视化

ggplot2:本书第一部分《探索》第1章——用ggplot2进行数据可视化;本书第五部分《沟通》第21章——用ggplot2进行图形化沟通;

5. 建模

broom:本书第四部分《模型》第18章——用purrr和broom处理多个模型;

modelr:本书第四部分《模型》第17章——用modelr实现基础模型;

6. 编程

purrr:本书第三部分《编程》第16章——用purrr实现迭代;本书第四部分《模型》第18章——用purrr和broom处理多个模型;

magrittr:本书第三部分《编程》第13章:用magrittr进行管道操作;

结语

从本书目录我们也可以看出,本书并不是按照分析数据的流程来书写的,而是以一种更能为新手接受的方式来呈现,足见作者用心良苦,因此我们也按书中顺序学习即可。

(0)

相关推荐