combinatorics：模型设定之自动筛选变量

2024-08-06 19:43:34

🍎 连享会主页：lianxh.cn

🎦 2021 文本分析·爬虫·机器学习
📅 2021 年 3.17-4.11 (三个周末)
🔑 主讲：游万海 (福州大学)；司继春 (上海对外经贸大学)
🍓 课程主页：https://gitee.com/lianxh/text

New！ lianxh 命令发布了： GIF 动图介绍
随时搜索 Stata 推文、教程、手册、论坛，安装命令如下：
. ssc install lianxh

作者：刘佳鹏 (中山大学)
邮箱：sysuliujiapeng@163.com

1. 背景介绍
2. 原理介绍

2.1 留一交叉验证
2.2 样本外验证

3. combinatorics 命令
4. Stata 实操
5. 总结
6. 参考文献
7. 相关推文

1. 背景介绍

在实证研究中，我们会面对许多可能的解释变量，那么又该如何进行筛选，以达到模型最优？为此，本文将介绍 Stata 命令 combinatorics。该命令是 Stata 处理模型筛选的利器，其不仅可以进行批量 OLS 估计，还能进行留一交叉验证 (LOOCV, Leave-One-Out-Cross-Validation) 和样本外验证 (Out-of-sample validation)。

2. 原理介绍

简单理解，就是通过列出解释变量所有可能的组合，来批量进行 OLS 估计、留一交叉验证 (LOOCV) 和样本外验证，以评估模型的解释和预测能力。当然，我们首先需要了解一下留一交叉验证和样本外验证。

2.1 留一交叉验证

正常训练会将样本划为训练集和验证集，训练集用来训练模型，而验证集用来评估模型的泛化能力。留一交叉验证是上述特例，具体来看，若数据集 D 的大小为 N，那么用 N-1 条数据进行训练，用剩下的一条数据作为验证，重复上述步骤，直到所有样本都作过验证集，即共计算 N 次，最后对验证误差求平均。

LOOCV 的优点是可以充分利用数据，防止模型过拟合，有效评估模型泛化能力。缺点是训练起来耗时，并且由于每次只采一个样本作为验证，导致无法分层抽样，影响验证集上的误差。

Note：上述内容部分摘自「LOOCV - Leave-One-Out-Cross-Validation 留一交叉验证」，特此致谢。

2.2 样本外验证

样本外验证 (out-of-sample validation) 是指事先随机预留部分样本，用于评估模型的预测能力。例如，在预测季度通货膨胀率变动的模型中，可以将样本数据 1962-2010 年划分为两部分，即 1962-2004 和 2005-2010 年。其中，以 1962-2004 年样本构建模型，以 2005-2010 年季度通货膨胀变动数据的预测值和实际值之间的差异来判断模型的可靠性。

在本文中，我们采用 OOS Pseudo-R² 程序，即 OOS 预测值与实际值的相关系数的平方。它可以用与 LOOCV Pseudo-R² 相同的方式作为预测性能的度量。

样本外验证的优点是节省时间和计算成本，缺点是拟合效果较差，会受到样本划分的影响。

3. combinatorics 命令

命令安装：

ssc install combinatorics, replace

语法结构：

combinatorics depvar indepvars [if] [in] [weight] [, options]

执行命令后，结果数据集会包括行，每个评估模型对应一行。对于每个模型，会显示如下所示的变量：

模型的特征：

i：模型识别号；
model：以可读形式说明模型包含的变量 (需 Stata 版本在 13 及以上)；
rank：非共线解释变量的个数 (含常数)；
timer：从程序开始到评估这个模型的时间 (以秒为单位)。

模型的估计结果：

n：该模型 OLS 估计的样本量；
r^2：衡量模型的解释性能；
[Coefficient's name]：变量的系数，若未估计则记为缺失值；
[Coefficient's name_SE]：变量系数的标准误，若未估计则记为缺失值。

模型的样本外预测性能：

pseudor2：LOOCV 的 pseudo-R^2，由 hat 矩阵近似估计，在估计子样本中计算；
rmse：预测的均方根误差，由 LOOCV 程序计算；
oosn：验证子样本的样本量。如果没有 [if] [in] 选项约束，则会缺失；
oosr2：通过预测变量与实际因变量 (pseudo-R2) 之间相关系数的平方来衡量模型在验证子样本中的预测性能。如果没有 [if] [in] 选项约束，则会缺失。

⏩ 2021 生存分析专题 (Survival Aanlysis)
⌚ 2021 年 4.24-25 (周六、周日)
⭐ 主讲：王存同教授 (中央财经大学)
⛪ 课程主页：https://gitee.com/lianxh/ST

4. Stata 实操

以 auto.dta 数据集为例，根据 10 个特征预测汽车价格：

sysuse auto.dta, clearcombinatorics price mpg i.rep78 headroom-foreign

在得到的数据集中，绘制所有模型得到的 512 个 mpg 系数的直方图：

hist mpg

绘制模型解释性能和预测性能 (R2 and LOOCV Pseudo-R2) 与模型复杂性 (Rank) 的关系：

twoway (scatter pseudor2 r2 rank,jitter(5 5))(lpolyci pseudor2 rank)(lpolyci r2 rank),xline(6)

LOOCV Pseudo-R2 不会随着模型复杂性单调增加 (它在 Rank 为 6 时达到局部最大值)，在模型选择中存在过拟合和简约的风险。

与上述过程不同，这次只对 90% 的样本进行随机选择：

sysuse auto.dta,clearset seed 100gen double oos=(runiform()>0.9)combinatorics price mpg i.rep78 headroom-foreign if !oos

剩下的 10% 用于 “样本外” (OOS) 预测，OOS Pseudo-R² 是 OOS 预测值与实际值的相关系数的平方。它可以用与 LOOCV Pseudo R² 相同的方式作为预测性能的度量：

twoway (lpolyci r2 rank)(lpolyci pseudor2 rank)(lpolyci oosr2 rank)

用 OOS Pseudo-R² 更容易传达模型的结果，但 LOOCV Pseudo-R² 显然是一个更好的程序，因为它不需要多余的观察，也不依赖于对验证样本和样本大小的任意或随机选择。

例如，如果我们选择另一个验证样本，OOS Pseudo-R² 可能会给出不同的结论，但 LOOCV Pseudo-R² 会继续显示过拟合：

sysuse auto,clearset seed 200gen double oos=(runiform()>0.9)combinatorics price mpg i.rep78 headroom-foreign if !oostwoway (lpolyci r2 rank)(lpolyci pseudor2 rank)(lpolyci oosr2 rank)

5. 总结

本文简要的介绍了 combinatorics 命令、以及应用留一交叉验证和样本外验证来进行模型筛选。值得注意的是，在实际操作中，我们要综合考虑时间和准确性来选择验证方法。

6. 参考文献

Lindsey C, Sheather S. Variable selection in linear regression[J]. The Stata Journal, 2010, 10(4): 650-669. -Link-
周志华，机器学习，清华大学出版社，2016
李航，统计学习方法，清华大学出版社，2012
LOOCV - Leave-One-Out-Cross-Validation 留一交叉验证 -Link-

7. 相关推文

Note：产生如下推文列表的命令为：
lianxh 交叉验证留一交叉验证刀切法筛选
安装最新版 lianxh 命令：
ssc install lianxh, replace

互助问答第463期：关于固定效应面板二元logit模型问题

关于固定效应面板二元logit模型问题老师,您好.在使用固定效应面板二元logit模型时,出现以上结果窗口提示,意味着最终纳入模型的样本量小于实际样本量,为什么在纳入模型的过程中会将这些样本进行自动 ...
Cerebral Cortex:额顶控制网络的网络间作用可以很好地预测记忆抑制能力

摘要记忆抑制(Memorysuppression,MS)与精神健康相关.然而,没有研究探索内在静息态功能连接(resting-state functional connectivity,rs-FC) ...
算法模型自动超参数优化方法

什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter).还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper ...
最小二乘法，了解一下？

最小二乘法是一种在误差估计.不确定度.系统辨识及预测.预报等数据处理诸多学科领域得到广泛应用的数学工具.最小二乘很简单,也在业界得到了广泛使用. 但是对于最小二乘法和它的故事,也许很多人并不了解,今天 ...
R语言用LASSO，adaptive LASSO预测通货膨胀时间序列

原文链接:http://tecdat.cn/?p=22273 动机如果你了解数据科学领域,你可能听说过LASSO.LASSO是一个对目标函数中的参数大小进行惩罚的模型,试图将不相关的变量从模型中排除 ...
互助问答第540期：关于PSM-DID模型的问题

关于PSM-DID模型的问题 1.老师,请问使用PSMDID的时候,如果有个体在政策发生之前就自发实施了政策,是不是要先把这些个体从样本中剔除?协变量想取政策发生年的滞后一期,直接在在协变量前加L ...
Logistic回归模型为什么要先做单因素,然后做多因素

关键词:logistic回归模型,二元logistic回归模型,单因素logistic回归,多因素logistic回归有的文献上是直接做卡方检验有意义的再进入回归模型,但是有的是Logistic 单 ...
重庆市巴蜀中学高2021届第8次月考第20题：二项分布

重庆·云师堂还是概率统计,深情偏执. 高二的孩子差不多学到了这个部分,本文试图捋顺当中的相关知识. 只有知识,没有大招,怕只怕你写得热闹,看的稀少. 若为此,不免心生悲凉.痴迷大招,渴望奇迹,若以大 ...
AJP：与创伤分离相关的大规模功能性脑网络的改变

分离体验通常发生在创伤反应中,虽然它们的存在强烈影响创伤后谱系障碍的治疗方法,但其病因仍知之甚少,其现象学特征也不完全.可靠地评估分离症状的严重程度,具有巨大的临床实用价值.尽管目前尚不清楚基于大脑的 ...
被解释变量比解释变量的层级更高的模型设定合理么？

邮箱:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 关于相关计量方法视频课程,文章,数据和 ...
新来的同事，用Excel做了一个自动筛选小程序，瞬间俘获老板的心！

每天一点小技能职场打怪不得怂编按:众多Excel技巧中,宏常常是被忽略的存在,但是只要灵活的应用它,只需要轻轻一个点击,就能有意想不到的效果.今天,小E给大家带来的就是用Excel函数和宏制作自动 ...
excel自动筛选应用视频：创建超级表调整区域自动更新数据

excel自动筛选应用视频|excel数据自动更新视频|excel创建超级表视频|excel调整超级表区域视频本视频教程由部落窝教育分享.
［勘误］基于Stata的Spatial DID模型设定、原始数据、命令、程序及回归操作演示

一.引言 2021年6月10日的推文在"如何获取原始数据及其空间权重矩阵?"部分的关键程序是错误的,并且遗漏了把spmat格式空间权重矩阵转换成dta格式空间权重矩阵(进行SEMD ...
零基础学习，可以赚钱的可转债自动筛选神器

很多朋友好奇:身为office达人的我怎么会教投资理财相关方面的课程呢?? office办公技能和投资理财原本是两个完全独立的领域,本应不会产生任何的交集,但是因为我的跨界与融合,从而使他们产生有了一 ...
Excel中VBA编程学习笔记（十二）--自动筛选

Excel中VBA编程学习笔记(十二)--自动筛选数据之道 2018-11-26 21:06:45 6058 收藏 30 分类专栏: Excel 文章标签: Excel VBA 自动筛选版权 ...
Excel自动筛选有合并单元格时出错的解决方案

郑广学Excel教程免费学取消合并单元格, 定位空白填充分类汇总
卧龙区特岗信息技术面试问题集锦在Excel 2003中，关于“自动筛选”功能，下列说法正确的是( )。它会把不符合条件的数据自动删除，保留符合条

在Excel 2003中,关于"自动筛选"功能,下列说法正确的是( ). 它会把不符合条件的数据自动删除,保留符合条件的数据它会把不符合条件的数据隐藏起来,只显示符合条件的数据 ...
新野县招教信息技术面试问题集锦在Excel 2003中，提供了( )两种筛选方式。人工筛选和高级筛选自动筛选和高级筛选一般筛选和特殊筛选

在Excel 2003中,提供了( )两种筛选方式. 人工筛选和高级筛选自动筛选和高级筛选一般筛选和特殊筛选人工筛选和自动筛选新野县招教信息技术面试问题集锦