人工智能基础课堂纪要6

2.6 api介绍【**】

1.梯度下降法

sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)

参数:

1.loss -- 损失 (最小二乘)

2.learning_rate -- 学习率

一般时都是进行动态的更新,也可以指定成为一个常数,但是不推荐。

2.8 欠拟合和过拟合【****】

欠拟合

在训练集上表现不好,在测试集上表现不好

解决方法:

继续学习

1.添加其他特征项

2.添加多项式特征

过拟合

在训练集上表现好,在测试集上表现不好

解决方法:

1.重新清洗数据集

2.增大数据的训练量

3.正则化

4.减少特征维度

正则化

通过限制高次项的系数进行防止过拟合

L1正则化

理解:直接把高次项前面的系数变为0

Lasso回归

L2正则化

理解:把高次项前面的系数变成特别小的值

岭回归

2.9  正则化线性模型【***】

1.Ridge Regression 岭回归

就是把系数添加平方项

然后限制系数值的大小

α值越小,系数值越大,α越大,系数值越小

2.Lasso 回归

对系数值进行绝对值处理

由于绝对值在顶点处不可导,所以进行计算的过程中产生很多0,最后得到结果为:稀疏矩阵

3.Elastic Net 弹性网络

是前两个内容的综合

设置了一个r,如果r=0--岭回归;r=1--Lasso回归

4.Early stopping

通过限制错误率的阈值,进行停止

2.10 线性回归的改进-岭回归【**】

1.api

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)

具有l2正则化的线性回归

alpha -- 正则化

正则化力度越大,权重系数会越小

正则化力度越小,权重系数会越大

normalize

默认封装了,对数据进行标准化处理

2.11 模型的保存和加载【*】

api:

sklearn.externals import joblib

保存:joblib.dump(estimator, 'test.pkl')

加载:estimator = joblib.load('test.pkl')

注意:

1.保存文件,后缀名是**.pkl

2.加载模型是需要通过一个变量进行承接

3.逻辑回归

3.1 逻辑回归介绍【****】

1.逻辑回归概念

解决的是一个二分类问题

逻辑回归的输入是线性回归的输出

2.原理

1.输入:

线性回归的输出

2.激活函数

sigmoid函数

把整体的值映射到[0,1]

再设置一个阈值,进行分类判断

3.损失

对数似然损失

借助了log思想,进行完成

真实值等于0,等于1两种情况进行划分

4.优化

提升原本属于1类别的概率,降低原本是0类别的概率。

3.2 逻辑回归api介绍【*】

sklearn.linear_model.LogisticRegression()

注意:回归,分类api有时候是可以混合使用的

3.3 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测【**】

1.获取数据

2.基本数据处理

2.1 缺失值处理

2.2 确定特征值,目标值

2.3 分割数据

3.特征工程(标准化)

4.机器学习(逻辑回归)

5.模型评估

3.4 分类评估方法【***】

1.混淆矩阵

真正例(TP)

伪反例(FN)

伪正例(FP)

真反例(TN)

2. 精确率(Precision)与召回率(Recall)

准确率:(对不对)

(TP+TN)/(TP+TN+FN+FP)

精确率 -- 查的准不准

TP/(TP+FP)

召回率 -- 查的全不全

TP/(TP+FN)

F1-score

反映模型的稳健性

3.api

sklearn.metrics.classification_report(y_true, y_pred)

4.roc曲线和auc指标

roc曲线

通过tpr和fpr来进行图形绘制,然后绘制之后,行成一个指标auc

auc

越接近1,效果越好

越接近0,效果越差

越接近0.5,效果就是胡说

注意:

这个指标主要用于评价不平衡的二分类问题

5.api

sklearn.metrics.roc_auc_score(y_true, y_score)

y_true -- 要把正例转换为1,反例转换为0

3.5 ROC曲线的绘制【###】

1.构建模型,把模型的概率值从大到小进行排序

2.从概率最大的点开始取值,一直进行tpr和fpr的计算,然后构建整体模型,得到结果

3.其实就是在求解积分(面积)

4.决策树算法

4.1 决策树算法简介【**】

1.简介

定义:

是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树

4.2 决策树分类原理【****】

1.熵

用于衡量一个对象的有序程度

系统越有序,熵值越低;系统越混乱或者分散,熵值越高。

2.信息熵

1.从信息的完整性上进行的描述:

当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。

2.从信息的有序性上进行的描述:

当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。

3.把信息转换成熵值

-plogp

(0)

相关推荐

  • 【AI初识境】深度学习模型评估,从图像分类到生成模型

    这是<AI初识境>第10篇,这次我们说说深度学习模型常用的评价指标.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 凡事用数据说话,一个深度学习模型在各类任务中的表现都需要定量 ...

  • 你真的了解模型评估与选择嘛

    前面几讲我们基于数据分析师需要掌握的基本技能,从SQL出发,学习了统计学的基本知识,在系统层面基本讲完了数据分析师需要具备的能力.下面几讲,我们会围绕数据挖掘工程师需具备的知识体系展开,今天会着重介绍 ...

  • 进阶版ROC曲线来了!教你优雅地给ROC“添油加醋”!你一定会爱上!(附代码)

    R语言绘图之ROC曲线进阶版 大家好,我是阿琛.在上一期的内容中,从SPSS和R软件出发,我给大家介绍了ROC曲线的简单绘制方法(临床生信SCI加分必备!ROC可视化教程看这篇就够了!你一定要试试!) ...

  • 搞懂机器学习的常用评价指标!

    每日干货 & 每月组队学习,不错过  Datawhale干货  作者:陈安东,湖南大学,Datawhale成员 我与评价指标的首次交锋是第一次实习面试时,面试官开头就问分类任务的评价指标.我当 ...

  • ROC绘制工具介绍

    关于ROC曲线,在STATQUEST系列当中讲得十分的明白.所以如果不是很清楚ROC以及曲线下面积(AUC)的介绍的话,可以看一下下面的这个视频 PS: B站之前是有关于这个STATQUEST所有视频 ...

  • 机器学习:模型评价指标总结

    子曰:"温故而知新,可以为师矣. 混淆矩阵 混淆矩阵是一种特定的矩阵用来呈现算法性能的可视化效果,通常用于二分类模型.其每一列代表预测值,每一行代表的是实际的类别. 其实就是把所有类别的预测 ...

  • 人工智能基础课堂纪要1

    人工智能基础课堂纪要1

  • 人工智能基础课堂纪要2

    3.3 常见图形绘制[*] 1.折线图 -- plt.plot 变化 2.散点图 -- plt.scatter() 分布规律 3.柱状图 -- plt.bar 统计.对比 4.直方图 -- plt.h ...

  • 人工智能基础课堂纪要3

    5.2 基本数据操作 1.索引操作 1.直接 -- 先列后行 2.loc -- 先行后列,索引值 3.iloc -- 先行后列,索引值的下标 4.ix -- 先行后列,混合索引 2.赋值操作 1.对象 ...

  • 人工智能基础课堂纪要4

    人工智能基础课堂纪要4

  • 人工智能基础课堂纪要5

    1.9 k近邻算法总结[**] 优点: 1.简单有效 2.重新训练代价低 3.适合类域交叉样本 4.适合大样本自动分类 缺点: 1.惰性学习 2.类别评分不是规格化 3.输出可解释性不强 4.对不均衡 ...

  • 人工智能基础课堂纪要7

    4.2 决策树分类原理[*****] 1.信息增益 信息增益 = entroy(前) - entroy(后) 注意:信息增益越大,我们优先选择这个属性进行计算 信息增益优先选择属性总类别比较多的进行划 ...

  • 人工智能基础课堂纪要8

    5.3 Boosting[**] 1.boosting集成原理 随着学习的积累从弱到强 2.实现过程 1.初始化训练数据权重,初始权重是相等的 2.通过这个学习器,计算错误率 3.计算这个学习期的投票 ...

  • 【基础课堂】仓库选址流程图 仓库选址方法(带公式)

    【基础课堂】仓库选址流程图 仓库选址方法(带公式)

  • 手绘基础课堂——景观树的画法

    景观树的画法解析 END