机器学习干货篇:训练集、验证集、测试集比例到底多少合适?

之前我们介绍了训练集、验证集以及测试集的基本概念,可以看一看之前的文章

但是依然有的小伙伴还是对如何划分几个数据集感到疑惑,这里我们就介绍一下通常情况下划分的比例。

众所周知,在机器学习深度学习领域,合理划分训练集验证集和测试集是很重要的。

对于传统机器学习阶段(数据集在万这个数量级),一般分配比例为训练集和测试集的比例为7:3或是8:2。为了进一步降低信息泄露同时更准确的反应模型的效能,更为常见的划分比例是训练集、验证集、测试的比例为6:2:2。

而大数据时代,这个比例就不太适用了。因为百万级的数据集,即使拿1%的数据做test也有一万之多,已经足够了。可以拿更多的数据做训练。因此常见的比例可以达到98:1:1,甚至可以达到99.5:0.3:0.2等。

极智分析平台中机器学习模块不但可以调整测试集比例,还有交叉验证这一功能,点击智能AI分析<机器学习分类,在右下角选择参数后开始分析可以得到如下结果。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!

(0)

相关推荐