想学习机器学习,数学的问题怎么解决?需要具备哪些数学知识?
自2012年以来,随着深度学习与强化学习的兴起,机器学习与人工智能成为科技领域热门的话题。越来越多的在校生与在职人员开始学习这些知识。然而,机器学习(包括深度学习与强化学习)对数学有较高的要求。不少数学知识(如最优化方法、矩阵论、信息论、随机过程、图论)超出了理工科本科和研究生的学习范畴。即使对于理工科学生学习过的微积分、线性代数与概率论,机器学习中所用到的不少知识超出了本科的教学范畴。看到书或论文中的公式和理论而不知其意,是很多读者面临的一大难题。
如果你想学好机器学习并打下坚实的数学基础,那么这本《机器学习的数学》再适合不过。
人工智能深度学习领域经典教程,AI程序员的数学参考书
透彻理解机器学习算法,从数学层面搞懂核心算法原理的逻辑
python程序讲解,众多专家学者力荐
全书共由8章组成,用非常小的篇幅精准而系统地覆盖了机器学习、深度学习、强化学习所必需的数学知识,内容基本上涵盖了这3门课所需的绝大部分数学知识。针对理工科本科阶段的“高等数学/微积分”,“线性代数”,“概率论与数理统计”进行了精确地补充。下面介绍每一章的主要内容。
第1章 一元函数微积分
这一章的内容包括极限与连续性,一元函数的导数与微分,微分中值定理,泰勒公式,不定积分,定积分及其应用,以及常微分方程。这一章讲述了可数集与不可数集,上确界与下确界,李普希茨连续性这些常规微积分课程所没有讲述的知识。它们对于理解后续章节以及对机器学习算法的理论分析是至关重要的。作为应用,还对机器学习中常用的logistic函数、ReLU函数等函数的特性与用途进行了介绍。
第2章 线性代数与矩阵论
这一章的内容向量及其运算,矩阵及其运算,行列式,线性方程组,特征值与特征向量,二次型,矩阵分解。特别地,本章讲述了向量的范数、向量的阿达玛积,矩阵的范数,Houserholder变换、QR算法、广义特征值、瑞利商、条件数等特征值相关的内容,以及矩阵分解。作为机器学习中的应用实例,本章讲述了线性回归,线性分类器与支持向量机,人工神经网络,谱归一化与谱正则化的原理。
第3章 多元函数微积分
这一章的内容包括偏导数,方向导数与梯度,Hessian矩阵,雅克比矩阵,向量与矩阵求导,微分算法,多元函数泰勒公式,多重积分,以及无穷级数。其中,Hessian矩阵、雅克比矩阵、多元函数泰勒公式是本科微积分课程通常没有讲述的。它们对于多元函数极值、凹凸性,以及机器学习算法的推导分析是非常重要的,也是理解最优化方法的基础。微分算法在机器学习算法中非常重要,而绝大多数读者在之前的数学课程中并没有接触过。这一章还讲述了最小二乘法、反向传播算法这些应用实例。
第4章 最优化方法
最优化方法在机器学习中处于核心地位,几乎所有机器学习算法最终都归结于求解最优化问题,遗憾的是绝大部分读者之前并没有学习这些课程。这一章系统地介绍了机器学习中的最优化方法,包括基本概念,一阶优化算法(包括梯度下降法,最速下降法,梯度下降法的改进,随机梯度下降法),二阶优化算法(包括牛顿法,拟牛顿法),分治法,凸优化问题,带约束的优化算法(包括拉格朗日乘数法,拉格朗日对偶,KKT条件),多目标优化问题,泛函极值与变分法,以及机器学习中的目标函数构造(包括有监督学习,无监督学习,强化学习)。作为应用实例,讲解了人工神经网络的训练算法,支持向量机的SVM算法,求解logistic回归对偶问题的坐标下降法,机器学习中的典型凸优化问题,线性判别分析,支持向量机原问题与对偶问题的推导以及特性,多目标神经结构搜索。下面这张图是本章的知识结构。
下面这张图列出了机器学习中所用到的最优化方法以及其所用的数学知识。这两张图对于理解机器学习中的优化问题是非常有用的。
第5章 概率论
概率论对于机器学习来说同样至关重要,用概率论的观点对机器学习问题进行建模,是一种常用的手段。这一章讲述了随机事件与概率,随机变量与概率分布,机器学习中的常用概率分布,概率分布变换,随机向量与联合概率分布,极限定理,参数估计问题,随机算法,以及采样算法。下面这张图是本章的知识结构。
需要重点强调的是,机器学习所用的概率论知识,有不少超出了一般本科概率论课程的范围。典型的包括条件独立性,Jensen不等式,多项分布,t分布,概率分布变换,多元正态分布,最大后验概率估计,贝叶斯估计,核密度估计,随机数生成问题,遗传算法,蒙特卡洛算法,以及采样算法。这一章对这些知识进行了系统的补充。另外还讲解了贝叶斯分类器,高斯混合模型,logistic回归,EM算法,Mean Shift算法等机器学习算法。下图总计了机器学习中的概率模型以及所用的概率论知识。
第6章 信息论
信息论是绝大部分读者在本科、研究生期间没有学过的课程,而交叉熵、KL散度等频繁的出现在机器学习、深度学习的书籍与论文中。这一章从机器学习的角度讲述信息论的知识,内容包括熵与联合熵,交叉熵,KL散度,JS散度,互信息,以及条件熵。下图对这些常用的信息论概念进行了总结。
作为应用,本章还讲述了决策树的训练算法,softmax回归,流形降维(SNE算法),变分推断,生成对抗网络,特征选择等机器算法与技术。
第7章 随机过程
随机过程对于绝大部分读者也是陌生的,而高斯过程、马尔可夫过程等知识在机器学习中被广泛应用。这一章系统地介绍了机器学习里常用的随机过程,包括马尔可夫过程与高斯过程。对于在机器学习中的应用,重点讲述了隐马尔可夫模型,强化学习中的马尔可夫决策过程,马尔可夫链采样算法(MCMC),高斯过程回归,以及贝叶斯优化。随机过程较为抽象,本章力求用机器学习的实际应用来直观地解释这些数学概念。
第8章 图论
除计算机、软件工程等专业之外,绝大部分读者并没有学习过图论的知识,但图论对于机器学习的作用丝毫不逊色于对整个计算机科学的作用。流形降维,谱聚类,图神经网络中都离不开它的身影。这一章讲述了机器学习中最常用的图论知识,包括基本概念,一些特殊的图,重要的图算法,以及谱图理论。作为应用,讲述了计算图与自动微分,概率图模型,流形降维与谱聚类中所用的样本集的相似度图,受限玻尔兹曼机,神经结构搜索(NAS),以及流形降维(拉普拉斯特征映射)。
为何要选择《机器学习的数学》这本书?
1.用尽可能小的篇幅精准地覆盖了机器学习所需的数学知识
对于机器学习究竟需要哪些数学知识,本书给出了一个非常精确的答案。力求用最小的篇幅覆盖机器学习领域所需的主要数学知识,以减轻读者的学习负担。只需把本书系统地学习一遍,即可满足几乎绝大部分读者在机器学习、深度学习、强化学习以及它们的各个应用方向做学术、产品研发的要求。
2.从机器学习的角度讲述数学,从数学的角度讲述机器学习
本书的一大特色是从机器学习的角度讲述数学,从数学的角度讲授机器学习,实现了二者的无缝衔接。读者之前在学数学课的时候通常面临一个问题:这些数学知识有什么用,应该怎么用?本书通过大量的机器学习实例讲解,在数学与机器学习之间架起了桥梁。既有利于理解数学知识本身,又能培养数学建模思维,同时还理解机器学习算法的数学本质,可谓一举多得。
3.结构合理,脉络清晰
对于全书的内容安排以及章节结构,作者有细致的考量。得利于扎实的数学功底以及机器学习领域的造诣。作者非常清晰的知道应该讲述哪些数学知识,以及它们之间的顺序、衔接安排。在更细的粒度上,对于数学、机器学习算法之间的联系与演化脉络,作者也进行了大量的总结。下面是对各种梯度下降法演化关系的总结。
4.讲解透彻,深入浅出
数学本身是抽象难懂的,如何把一些概念、理论清晰的讲述出来,是一个非常有挑战的问题。在这一方面,作者也进行了大量的思考与设计,力求用浅显易懂的语言把晦涩的知识讲述清楚。下面是对Householder变换的讲解。
5.推导、证明详细
对于绝大部分数学知识和机器学习算法的推导,我们都在篇幅允许的范围内做到尽可能的详细,不给读者留下知识的空白。有不少推导和证明过程,以及解释,是读者进行构思的,市面上不曾有过。
关于作者
雷明资深机器学习、机器视觉专家。2009年毕业于清华大学计算机系,研究方向为机器视觉、机器学习,曾发表论文数篇。《机器学习-原理、算法与应用》(清华大学出版社,2019.09)作者,该书为清华大学出版社2019年度畅销书,销量超过2万册。曾就职于百度,任高级软件工程师、项目经理;zmodo/meShare公司CTO、平台研发中心负责人。2018年创立SIGAI,致力于研发零编程、可视化的机器视觉框架,用标准化的算法赋能各个行业,已于2020年6月完成pre-A轮融资。