数据科学导论
内容简介:
《数据科学导论(面向新工科专业建设计算机系列教材)》主要介绍数据科学的通识入门知识,可以作为高等院校数据科学与大数据专业的专业基础课程教材。该书以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,为数据科学与大数据及相关专业的学生深入学习数据科学和大数据技术奠定基础。该书系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理、回归、聚类、分类等智能分析技术)、大数据分析的基本T具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。该书通过系统全面的理论介绍与丰富翔实的程序实践相结合,帮助数据科学与大数据及相关专业的学生树立大数据意识,学习数据科学的知识体系,掌握基本的数据处理方法。
《数据科学导论(面向新工科专业建设计算机系列教材)》适合作为数据科学与大数据及相关专业学生的教材,也可作为大数据开发工程师的参考书。
作者简介:
石川,北京邮电大学教授、博士生导师。长期从事计算机专业基础课程教学工作,参与多项教改项目。主要研究方向为数据挖掘和机器学习,发表高水平学术论文100余篇,中英文专著3部,成果应用于IT企业。研究成果获得省部级奖励3项,本人获得北京市高等学校青年英才和师德先锋等称号。
王啸,北京邮电大学讲师、硕士生导师。天津大学博士,圣路易斯华盛顿大学联培博士,清华大学博士后,主要研究方向为数据挖掘与机器学习,曾主持国家自然科学基金项目,发表高水平论文50余篇,获得微软亚洲研究院“铸星计划”支持。
胡琳梅,北京邮电大学副教授,硕士生导师。清华大学博士,北京市优秀毕业生。主要研究方向为自然语言处理与知识图谱,获2019年微软亚洲研究院“铸星计划”支持。
目录:
第1章 数据科学概论
1.1 数据和大数据
1.1.1 数据
1.1.2 数据化进程
1.1.3 大数据
1.2 数据科学理论基础
1.2.1 数据科学发展历程
1.2.2 数据科学的概念
1.2.3 数据科学的主要内容
1.3 数据科学应用实践
1.3.1 数据科学家
1.3.2 数据科学工作流程
1.3.3 数据科学实践案例
1.4 小结
1.4.1 本章总结
1.4.2 扩展阅读材料
1.5 习题
1.6 参考资料第2章 数学基础
2.1 线性代数
2.1.1 向量
2.1.2 矩阵
2.1.3 矩阵导数
2.1.4 实例:利用SVD进行评分预测
2.2 概率统计
2.2.1 随机事件与概率
2.2.2 条件概率与事件独立性
2.2.3 随机变量及其数字特征
2.2.4 数理统计
2.2.5 信息论
2.2.6 实例:利用朴素贝叶斯算法进行文本分类
2.3 优化理论
2.3.1 基本概念
2.3.2 优化问题的一般形式
2.3.3 优化方法
2.3.4 实例:SVM分类器
2.4 图论基础
2.4.1 图的定义
2.4.2 图的概念
2.4.3 图的矩阵表示
2.4.4 拉普拉斯矩阵与谱
2.4.5 实例:谱聚类算法
2.5 小结
2.5.1 本章总结
2.5.2 扩展阅读材料
2.6 习题
2.7 参考资料第3章 Python语言初步
3.1 Python语言概述
3.1.1 Python语言简介
3.1.2 Python语言环境搭建
3.2 Python的基本用法
3.2.1 列表与元组
3.2.2 字符串
3.2.3 字典
3.2.4 条件与循环语句
3.2.5 函数
3.2.6 文件
3.2.7 综合实例
3.3 重要库的使用方法与案例
3.3.1 NumPy
3.3.2 Pandas
3.3.3 SciPy
3.3.4 Matplotlib
……
第4章 数据预处理
第5章 分析方法初步
第6章 数据科学实践
第7章 数据科学的重要研究领域
第8章 大数据处理技术简介