如何信任机器学习模型的预测结果？（下）

2024-08-04 04:31:22

◆ ◆ ◆ ◆

在上一篇中，我们向大家说明了机器学习模型预测结果的解释技术 LIME（Local Interpretable Model-Agnostic Explanations），并介绍了 MATLAB 实现 LIME 的三个主要函数：lime，fit 和 plot。

在本篇中，我将通过一个例子演示在 MATLAB 如何使用 LIME 进行复杂机器学习模型预测结果的解释。

我使用数据集 carbig（MATLAB 自带的数据集）训练一个回归模型，用于预测汽车的燃油效率。数据集 carbig 是 70 年代到 80 年代生产的汽车的一些数据，包括：

其中：MPG 为响应变量（预测结果），其它变量为预测变量（数据特征），训练一个回归模型 f，该回归模型可以通过汽车的气缸数量、排量、生产年份等信息预测汽车的燃油效率，数学表达如下:

MPG = f(Cylinders,Displacement,Horsepower,modelyear,Weight,Acceleration)

利用 LIME 技术对回归模型 f 的预测结果进行解释，查看是那些特征对预测结果产生影响。具体的实现过程如下。

训练机器学习模型

导入数据集并构建数据表：

rng(0);

load carbig

tbl =table(Acceleration,Cylinders,Displacement,…

Horsepower,Model_Year,Weight,MPG);

进行数据预处理，去除带有缺失值的行：

tbl =rmmissing(tbl);

生成变量数据表：

tblX =removevars(tbl,'MPG');

head(tblX)

将变量按数据类型进行划分。其中第二列 Cylinders 和第五列 Model_Year 是分类变量，其它列是数值变量

tblX_num= removevars(tblX,{'Cylinders','Model_Year'});

tblX_cate= tblX(:,{'Cylinders','Model_Year'});

对于数值变量查看变量之间的相关性

cor =corr(tblX_num{:,:});

h =heatmap(cor);

h.XDisplayLabels= tblX_num.Properties.VariableNames;

h.YDisplayLabels= tblX_num.Properties.VariableNames;

图 1

从图 1 的计算结果得出，Displacement 与 Weight 具有强相关性，Displacement 与 Horsepower 的相关性也较大。因此，去除 Displacement 变量。

tblX_num= removevars(tblX_num,{'Displacement'});

再次计算变量之间的相关性：

cor =corr(tblX_num{:,:});

h =heatmap(cor);

h.XDisplayLabels= tblX_num.Properties.VariableNames;

h.YDisplayLabels= tblX_num.Properties.VariableNames;

图 2

图 2 显示，变量之间的相关性都小于 0.9，因此保留相关性小于 0.9 的变量作为预测变量。

对数值型预测变量进行标准化，缩放到[0,1]之间，以消除量纲对预测结果的影响。

tblX_num= normalize(tblX_num,'range');

tbl.MPG =normalize(tbl.MPG,'range');

head(tblX_num)

将数值变量和分类变量合并成训练数据集：

tblX =[tblX_num tblX_cate];

head(tblX)

训练一个随机森林回归模型，预测变量是表 tblX 中的变量，响应变量是 MPG，并指明第 4 和第 5 列是分类变量。

mdl_bag= fitrensemble(tblX,tbl.MPG,'Method','Bag',…

'CategoricalPredictors',[4 5]);

对机器学习模型进行解释

利用 LIME 对训练好的回归模型进行解释。

首先构建使用 lime 函数构建一个 LIME，简单的解释模型选择决策树，同时 lime 中也指明了原始回归模型的训练样本的第 4 和第 5 列是分类变量。

lime_bag = lime(mdl_bag,'CategoricalPredictors',[4 5],… 'SimpleModelType','tree');

我们从训练集中选取一个样本作为预测数据（即 QueryPoint），测试模型的预测结果，以及模型的解释结果。选择训练集中的第 257 个样本作为预测数据。

num =257;

queryPoint= tblX(num,:)

以预测数据为基础生成合成数据，并训练一个可解释模型（决策树模型）。对于可解释模型，指定变量个数为 5。也就是说，我们最多只分析 5 个对预测结果产生影响的变量。

lime_bag= fit(lime_bag,queryPoint,5);

根据预测变量对预测结果的影响程度进行排序并可视化。

f =plot(lime_bag);

title('随机森林回归模型的LIME');

f.CurrentAxes.TickLabelInterpreter= 'none';

图 3

从图 3 可以看出，预测变量 Weight，对回归模型预测的结果影响最大，其次是 Cylinders 和 Horsepower。

可以解释为：基于输入数据预测出的汽车燃油效率，主要依次考虑了汽车的重量（Weight）、汽车的动力（Horsepower）、汽车汽缸数量（Cylinders）。

这种解释也是符合我们的先验知识：汽车自重越大燃油效率越低，也就是每加仑行驶的里程数越少。汽车功率越大、汽缸数量越多，耗油越大。

因此说，回归模型预测的结果是可信的。

模型自解释结果与 LIME 解释结果的对比

随机森林回归模型是基于决策树的集成模型，因此，模型本身也具有可解释性。我们对训练好的模型查看模型属性 predictorImportance，并进行可视化：

bagTreeMdl= mdl_bag;

bar(bagTreeMdl.predictorImportance);

f =gca;

f.XTickLabel= bagTreeMdl.PredictorNames;

f.XTickLabelRotation= 45;

图 4

从图 4 可以看出，对随机森林模型预测结果有重要影响的预测变量依次是 Cylinders、Weight、Horsepower、Model_Year 以及 Acceleration。

与 LIME 的解释相比，Weight 和 Cylinders 重要顺序不同，但都是对预测结果有重要影响的。

因此，对于当前的输入数据，LIME 的解释结果与随机森林的自解释结果是相近的。

对不用机器学习模型的 LIME 解释结果对比

使用同样的训练集，训练一个支持向量机回归模型。并且，对同一个预测数据的预测结果使用 LIME 进行解释。对比两个机器学习模型预测结果以及解释结果。

支持向量机的回归模型指定采用高斯核函数，并指明第 4 和第 5 个预测变量是分类变量。

mdl_svm= fitrsvm(tblX,tbl.MPG,'CategoricalPredictors',[4 5],…

'KernelFunction','gaussian');

对回归模型使用 LIME 进行解释。首先构建使用 lime 函数构建一个 LIME 对象，解释模型使用决策树，同时 lime 中也指明了原始机器学习模型的训练样本的第 4 和第 5 列是分类变量。

lime_svm= lime(mdl_svm,'CategoricalPredictors',[45],…

'SimpleModelType','tree');

以预测数据为基础生成合成数据集，并训练一个可解释模型（决策树模型）。对于可解释模型，指定变量个数为 5。

lime_svm= fit(lime_svm,queryPoint,5);

根据预测变量对预测结果的影响程度进行排序并可视化

f =plot(lime_svm);

title('支持向量机回归模型的LIME');

f.CurrentAxes.TickLabelInterpreter= 'none';

图 5

从图 5 可以看出，预测变量 Weight 对支持向量机回归模型的预测结果影响最大，其次是 Cylinders 和 Model_Year。

也就是说，对于当前的预测数据，支持向量机模型产生预测结果时，重点考虑了 Weight、Cylinders 和 Model_Year 三个变量，而并没有考虑Horsepower。

这与图 3 显示的随机森林模型预测结果的解释有些不同。

对于相同的预测数据，从预测结果和预测结果的解释两个角度，对比分析随机森林模型和支持向量机模型，结果如下表所示（标准化后的数据）：，

注：表中的变量是按照重要性降序排列。

从上表中可以看出，两个模型的预测结果差别不大，但是解释的结果却是不同。因此解释结果与领域先验知识的匹配程度，可以作为判定模型可信性的依据。

到这里，只是得到了 LIME 对单个预测数据的预测结果的可信性，也就是模型局部的可信性。

那如何对整个模型的可信性如果获取呢？

如果训练数据集的规模不是很大，最直接的想法就是获取全部训练样本的可信性，也就是获取每个训练集样本的影响较大的预测变量，综合所有的结果取得对模型影响比较大的预测变量，并根据先验知识判断模型整体的可信性。

如果训练数据集规模较大，我们可以利用训练数据集的概率分布进行抽样，获取抽样数据预测结果影响较大的预测变量，综合所有的结果取得对模型影响比较大的预测变量，并根据先验知识判断模型整体的可信性。

以上的例子只是说明了 MATLAB 中利用 LIME 做机器学习模型解释的过程，lime 函数还有很多参数可以使用以改变解释结果，例如，合成数据集的大小，概率分布的计算，数据点距离的计算方法等等，大家可以利用 MATLAB 自带的数据集，自行测试一下这些参数的功能。

对于例子中的回归模型，也可以采用不同的机器学习模型，具体采用哪个模型需要考虑不同模型的预测精度。基于预测精度选择最佳机器学习模型，MATLAB 给出图形化的方式。通过友好的图形化界面，用户即可实现模型训练、不同模型的精度比较、以及实现模型深化训练的超参数调优等。图形化操作降低了构建精确模型所需的专业技能水平，因此无论您是专家还是只有有限的机器学习经验的用户，都可以使用它获取最佳模型。

另外 MATLAB 在 2020a 和 2020b 版本中推出的自动化模型选择和调优功能（AutoML），更加简化了机器学习工作流程，通过一次操作既可以实现模型对比和超参数调优。这大大降低了机器学习使用门槛，使用用户可以更加专注于领域知识的运用，避免数据科学的复杂内容。

关于 MATLAB 中的机器学习图形化操作和 AutoML 的内容，我们将在后续时间会以一个单独的主题向大家介绍。

◆ ◆ ◆ ◆

创伤性颅内出血死亡率的预测因素:国家创伤数据库研究

写在前面 TBI是世界范围内死亡的主要原因.预后建模利用患者数据预测TBI的各种结果,提供了独特的机会来协助临床推理和简化决策.此前若干项研究已经使用临床和放射学数据开发了创伤性脑损伤预后的预 ...
额叶脑电非对称性的评估和概念化

额叶脑电图(EEG)的alpha不对称在情绪.动机和精神病理学研究中得到了广泛的研究,但它是一个使用多种程序进行量化和分析的指标,而程序的多样性使交叉研究的解释变得模糊.本文的目的是提供脑电图alph ...
R语言Lasso回归模型变量选择和糖尿病发展预测模型

原文链接:http://tecdat.cn/?p=22721 Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量 ...
PYTHON用决策树分类预测糖尿病和可视化实例

原文链接:http://tecdat.cn/?p=23848 决策树是对例子进行分类的一种简单表示.它是一种有监督的机器学习技术,数据根据某个参数被连续分割.决策树分析可以帮助解决分类和回归问题. 决 ...
论文中统计报告的注意事项：多因素模型和诊断试验

作者:杨超鲁艺斐李延龙张耀文 2019年3月,European Urology 杂志(IF 17.581)发表了泌尿外科临床研究领域的统计报告指南<Guidelines for Repor ...
如何信任机器学习模型的预测结果？（上）

也就是说,如何确定机器学习模型预测的结果是符合常理的,进而确定所选择的机器学习模型是可信的. 关于这个问题,我将通过两个篇幅向大家介绍机器学习模型的可信性,即机器学习预测结果的解释,以及 MATLAB ...
Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

原文链接:http://tecdat.cn/?p=8522 分类问题属于机器学习问题的类别,其中给定一组特征,任务是预测离散值.分类问题的一些常见示例是,预测肿瘤是否为癌症,或者学生是否可能通过考试. ...
全面比较和概述运用机器学习模型进行时间序列预测的方法优劣！

邮箱:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 背景知识:1.机器学习之KNN分类算法 ...
R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险

原文链接:http://tecdat.cn/?p=22410 本文的目的是完成一个逻辑回归分析.使你对分析步骤和思维过程有一个基本概念. library(tidyverse) library(broo ...
机器学习模型评估教程！

文章译者:追风者内容来源:Datawhale 如何在投入生产前评估机器学习模型性能? 想象一下,你训练了一个机器学习模型.也许,可以从中选几个候选方案. 你在测试集上运行它,得到了一些质量评估.模型 ...
为什么大型机器学习模型必须缩小？

更大的规模不一定更适合机器学习.但是,随着研究人员相互竞争追求最先进的基准,深度学习模型和训练它们的数据集不断扩展.不管它们如何突破,更大的模型都会对预算和环境产生严重的影响.比如 GPT-3,一个在 ...
【信任 · 共赢】第二次线下活动圆满成功

5月15日再战征程第二次线下活动圆满成功.现场真题拆解+面试精讲+各单位面试分数线大揭秘+疑难解答,12万字面试真题解析如约送到每个人手中,整个活动全程干货输出,得到现场老铁的认可.下一阶段,再战征程 ...
难以捉摸？机器学习模型的可解释性初探

引子:在机器学习中,可解释性的概念既重要又难以捉摸.我们能相信模型吗?它在部署过程中会起作用吗?关于这个世界,模型还能告诉我们什么?模型不仅应该是好的,而且应该是可以解释的,然而,可解释性似乎没有具体 ...
R语言中ARMA，ARIMA（Box-Jenkins），SARIMA和ARIMAX模型用于预测时间序列数据

原文链接:http://tecdat.cn/?p=5919 在本文中,我将介绍ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型如何用于预测时间序列数据. 使用滞后算子计算 ...

如何信任机器学习模型的预测结果？（下）

◆ ◆ ◆ ◆

◆ ◆ ◆ ◆

相关推荐