人工智能基础课堂纪要8

2024-06-23 08:34:23

5.3 Boosting【**】

1.boosting集成原理

随着学习的积累从弱到强

2.实现过程

1.初始化训练数据权重，初始权重是相等的

2.通过这个学习器，计算错误率

3.计算这个学习期的投票权重

4.对每个样本进行重新赋权

5.重复前面1-4

6.对构建后的最后的学习器进加权投票

3.bagging集成与boosting集成的区别：

数据方面：

bagging:重新采样

boosting:对数据进行权重调整

投票方面：

bagging:平权

boosting:加权

学习顺序方面：

bagging:并行

boosting:串行

主要作用：

bagging:过拟合

boosting:欠拟合

2 GBDT

梯度提升决策树(GBDT Gradient Boosting Decision Tree)

GBDT = 梯度下降 + Boosting + 决策树

3.XGBoost

XGBoost= 二阶泰勒展开+boosting+决策树+正则化

6.聚类算法

6.1 聚类算法简介

1.聚类算法分类

粗聚类

细聚类

2.定义

一种典型的无监督学习算法，

主要用于将相似的样本自动归到一个类别中

计算样本和样本之间的相似性，一般使用欧式距离

6.2 聚类算法api初步使用

1.api

sklearn.cluster.KMeans(n_clusters=8)

参数:

n_clusters:开始的聚类中心数量

6.3 聚类算法实现流程【***】

k-means其实包含两层内容：

k -- 选几个中心店

means -- 均值计算

流程

1、随机设置K个特征空间内的点作为初始的聚类中心

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）

4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

kmeans小结

kmeans由于要计算质心到每一个样本的距离，所以其收敛速度比较慢

6.4 模型评估【**】

0.sse

误差平方和

值越小越好

1. 肘部法

下降率突然变缓时即认为是最佳的k值

2. SC系数

a是族内距离，b是组间距离

取值为[-1, 1]，其值越大越好

3. CH系数

分数s高则聚类效果越好

CH需要达到的目的：

用尽量少的类别聚类尽量多的样本，同时获得较好的聚类效果。

6.5 算法优化【***】

1.k_means

优点：

简单，容易理解

缺点：

特别人容易陷入到局部最优解

2.Canopy

通过绘制同心圆，进行k值选择筛选

需要确定同心圆的半径t1,t2

3.K-means++

距离平方进行求解

保证下一个质心到当前质心，距离最远

4.二分k-means

通过误差平方和，设置阈值，然后进行划分

5.k-medoids

和kmeans选取中心点的方式不同

通过从当前点选择中心点（质心）进行判断

6.kernel kmeans【了解】

映射到高维空间

7.ISODATA【了解】

动态聚类

可以更改k值的大小

8.Mini-batch K-Means【了解】

大数据集分批聚类

6.6 特征降维【***】

1.定义

就是改变特征值，选择哪列保留，哪列删除

目标是得到一组”不相关“的主变量

2.降维的两种方式

特征选择

主成分分析（可以理解一种特征提取的方式）

3.特征选择

定义：提出数据中的冗余变量

方法：

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联

方差选择法：低方差特征过滤

相关系数

Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）

决策树:信息熵、信息增益

正则化：L1、L2

深度学习：卷积等

4.低方差特征过滤

把方差比较小的某一列进行剔除

api:

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)

删除所有低方差特征

注意，参数threshold一定要进行值的指定

5.相关系数

主要实现方式：

皮尔逊相关系数

斯皮尔曼相关系数

5.1 皮尔逊相关系数

通过具体值的大小进行计算

相对复杂

api:

from scipy.stats import pearsonr

返回值，越接近|1|，相关性越强；越接近0，相关性越弱

5.2 斯皮尔曼相关系数

通过等级差进行计算

比上一个简单

api:

from scipy.stats import spearmanr

返回值，越接近|1|，相关性越强；越接近0，相关性越弱

6.pca

定义：

高维数据转换为低维数据，然后产生了新的变量

api:

sklearn.decomposition.PCA(n_components=None)

n_components

整数 -- 表示降低到几维

小数 -- 保留百分之多少的信息

6.7 案例：探究用户对物品类别的喜好【***】

1.获取数据

2.数据基本处理

2.1 合并表格

2.2 交叉表合并

2.3 数据截取

3.特征工程 — pca

4.机器学习（k-means）

5.模型评估

赞 (0)

供应链选址（1）-基于自定义距离的广义Kmeans 聚类

low profile,no profile 背景介绍出于种种原因,在供应链环节需要添加新的配送中心(Distribution Center)来满足业务需求.这些原因可能是因为需求逐年增长,也有可能 ...
机器学习，KMeans聚类分析详解

来源:数据STUDIO 作者:Jim 大量数据中具有'相似'特征的数据点或样本划分为一个类别.聚类分析提供了样本集在非监督模式下的类别划分.聚类的基本思想是'物以类聚.人以群分',将大量数据集中相似的 ...
人工智能基础课堂纪要1

人工智能基础课堂纪要1
人工智能基础课堂纪要2

3.3 常见图形绘制[*] 1.折线图 -- plt.plot 变化 2.散点图 -- plt.scatter() 分布规律 3.柱状图 -- plt.bar 统计.对比 4.直方图 -- plt.h ...
人工智能基础课堂纪要3

5.2 基本数据操作 1.索引操作 1.直接 -- 先列后行 2.loc -- 先行后列,索引值 3.iloc -- 先行后列,索引值的下标 4.ix -- 先行后列,混合索引 2.赋值操作 1.对象 ...
人工智能基础课堂纪要4

人工智能基础课堂纪要4
人工智能基础课堂纪要5

1.9 k近邻算法总结[**] 优点: 1.简单有效 2.重新训练代价低 3.适合类域交叉样本 4.适合大样本自动分类缺点: 1.惰性学习 2.类别评分不是规格化 3.输出可解释性不强 4.对不均衡 ...
人工智能基础课堂纪要6

2.6 api介绍[**] 1.梯度下降法 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept ...
人工智能基础课堂纪要7

4.2 决策树分类原理[*****] 1.信息增益信息增益 = entroy(前) - entroy(后) 注意:信息增益越大,我们优先选择这个属性进行计算信息增益优先选择属性总类别比较多的进行划 ...
【基础课堂】仓库选址流程图仓库选址方法（带公式）

【基础课堂】仓库选址流程图仓库选址方法（带公式）
手绘基础课堂——景观树的画法

景观树的画法解析 END