最流行的用于预测的机器学习算法简介及其优缺点说明

2024-05-30 08:58:21

预测问题一直是机器学习领域最重要的问题之一。很多算法包括回归、决策树等都是用来解决预测的常用算法。预测问题的核心是基于已有的有标签的数据来判断新数据的标签。一般来说，根据预测标签是离散的还是连续的可以分成分类问题和回归问题。注意，本篇博客主要是快速回顾描述各个模型的优缺点，因此不会对模型有很深的介绍。

本文主要总结一下常见的六种预测算法，每一类算法都会简要地描述其概念及其优缺点。

一、线性回归（Linear Regression）
二、逻辑回归（Logistic Regression）
三、决策树（Decision Tree）
四、随机森林（Random Forest）
五、梯度提升（Gradient Boosting）
六、神经网络（Neural Networks）

一、线性回归（Linear Regression）

描述：线性回归是一种统计的方法，它尝试使用一个线性方程来拟合两个变量之间的关系。其中一个变量是解释变量，另一个是因变量。在线性回归中，使用线性预测函数对关系进行建模，其未知的模型参数是根据数据估计的。

优点：1、易于理解；2、可以看到哪个变量对模型影响最大。
缺点：1、对于复杂的变量关系难以捕捉；2、容易过拟合。

二、逻辑回归（Logistic Regression）

描述：逻辑回归其实算是线性回归的一种，但是其预测标签是只有0和1。所以它其实是一种分类模型。如下图所示，逻辑回归最终是由一个sigmoid函数将结果映射到0-1之间，并且一般会设置一个threshold，高于这个值的预测结果为1，低于这个值的结果为0。

优点：：易于理解
缺点：：与线性回归一样，有时候容易过拟合，且不能捕捉过于复杂的关系。

三、决策树（Decision Tree）

描述：它使用树模型来描述观察特征到目标变量之间的路径。在这些树结构中，叶子代表类标签，树枝代表导致这些类标签的特征的连接。目标变量可以取连续值（通常为实数）的决策树被称为回归树。

优点：容易理解且易于实现
缺点：对于复杂数据的建模能力较差，现实使用较少。

四、随机森林（Random Forest）

描述：随机森林或随机决策森林是一种用于分类、回归和其他任务的集合学习方法，它通过在训练时构建大量的决策树来操作。

优点：使用多棵树群体决策，有时候会产生非常好的结果，同时训练的速度很快。
缺点：与其它算法相比，产生预测结果可能比较慢。是一个相对黑盒的模型，不太容易理解预测结果。

五、梯度提升（Gradient Boosting）

描述：梯度提升是一种用于回归、分类和其他任务的机器学习技术，它以弱预测模型（通常是决策树）的集合形式产生预测模型。当决策树是弱学习者时，产生的算法被称为梯度提升树，它通常优于随机森林。它像其他提升方法一样以阶段性的方式建立模型，它通过允许优化任意可分损失函数对它们进行泛化。

优点：预测性能很好。
缺点：训练集或者是预测集微小的变化会导致模型巨大的改变。同时对于预测结果不太容易理解。

六、神经网络（Neural Networks）

描述：神经网络或者说深度学习是这几年很火的模型了，在预测领域它也有很好的表现，有不同的隐层组成的神经网络结构是预测很好的模型。

优点：可以处理非常复杂的数据集，规模越大效果可能越好。
缺点：训练过程很慢，且需要很多的资源。几乎无法对结果理解。

赞 (0)

R机器学习：分类算法之logistics回归分类器的原理和实现

一看到logistics回归分类器,第一反应这个不是统计上的logistics回归嘛,其实是一样的,之前也给大家写过logistics回归的做法,今天放在机器学习的框架下再写一次. logistic ...
11种最常见的机器学习算法简介

常见机器学习算法的摘要. > Photo by Santiago Lacarta on Unsplash 近年来,由于对技术的高需求和进步,机器学习的普及已大大增加. 机器学习可以从数据中创造价 ...
【彤心飞传】中国原创研究 | 储慧民教授团队：机器学习算法精准预测左右室流出道室性心律失常

栏目介绍彤心飞传是由天津医科大学第二医院心脏科刘彤教授和郑州大学附属洛阳中心医院心内科谷云飞共同推出的一档心血管前沿文献速读栏目.每期精选国际顶级期刊心血管领域的最新文献进行深度呈现,以期让国内相关 ...
啊哈，原来如此！4种流行的机器学习算法的顿悟时刻

> Source: Pixabay 直观地知道为什么,而不仅仅是知道大多数人都在两个营地中: · 我不了解这些机器学习算法. · 我了解算法的工作原理,但不了解其工作原理. 本文不仅试图解释算 ...
机器学习算法：绕开所有物理规律，直接从数据给出精确的预测

https://m.toutiao.com/is/JEm1mJR/ 美国能源部(DOE)普林斯顿等离子体物理实验室(PPPL)的科学家设计出最新的机器学习算法,可以直接由输入数据输出结果,精确预测太阳 ...
ML之分类预测：基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测

ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测输出结果数据集展示输出结果 1.k-NN k-NN:Accuracy of K ...
ML/DL之预测分析类：利用机器学习算法进行预测分析的简介、分析、代码实现之详细攻略

ML/DL之预测分析类:利用机器学习算法进行预测分析的简介.分析.代码实现之详细攻略机器学习算法进行预测的简介 1.推荐论文 <An Empirical Comparison of Super ...
ML之回归预测：利用13种机器学习算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)来比较各模型性能

ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集[13+1,506]进行回归预测(房价预测)来比较各模型性能导读通过利用13种机器学习算法,分别是LiR.kNN.SVR.D ...
ML之分类预测：以六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测的模板流程

ML之分类预测:以六类机器学习算法(kNN.逻辑回归.SVM.决策树.随机森林.提升树.神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测的模板流程相关文章 ML之 ...
常见的人工智能机器学习算法优缺点

众所周知机器学习是人工智能领域中的主要领域之一,机器学习算法有很多,例如:分类.回归.聚类.推荐.图像识别领域等等.要想找个合适算法是非常不容易的,为了能够寻找到合适的算法,需要明白机器学习算法的优缺 ...