训练集、测试集(train_test_split)

2024-07-29 18:58:08

如果拿所有原始数据来训练，存在的问题：

模型很差无法调整；
真实环境难以拿到真实 label；

所以将数据区分为训练数据和测试数据（train test split）；
将训练数据来训练模型；然后用测试数据测试模型；

使用这种方式也存在问题；

python 原生分离 iris 数据集

import numpy as npfrom sklearn import datasetsimport matplotlib.pyplot as plt iris = datasets.load_iris() X = iris.data y = iris.target X'''     (array([[5.1, 3.5, 1.4, 0.2],            [4.9, 3. , 1.4, 0.2],  ...            [6.2, 3.4, 5.4, 2.3],            [5.9, 3. , 5.1, 1.8]])'''y '''    array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,           0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,           0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,           1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,           1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,           2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,           2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])'''X.shape, y.shape #((150, 4), (150,)) # shuffle shuffle_indexes = np.random.permutation(len(X))  # 0--len(X) 的随机排列shuffle_indexes# array([ 22,   4, 142,  24,   7, 146,  ... 9,  95, 130,  29, 124]) test_ratio = 0.2test_size = int(len(X) * test_ratio)test_size # 30 test_indexes = shuffle_indexes[:test_size]train_indexes = shuffle_indexes[test_size:] test_indexes  '''     array([ 22,   4, 142,  24,   7, 146,  70,  77, 144,  14,  40, 119,  46, 85,  74,  87,  86,  60,  91, 120,  78,  45,  65, 105, 113,  39, 83,  80, 134,  16])'''X_train = X[train_indexes]y_train = y[train_indexes]X_test = X[test_indexes]y_test = y[test_indexes]  X_test.shape, X_train.shape # ((30, 4), (120, 4))

封装 train_test_split 函数

def train_test_split(X, y, test_ratio=0.2, seed=None):        assert x.shape[0] == y.shape[0], "the size of X must be equal to the size of y"    assert 0.0 <= test_ratio <= 1.0, "test_ ration must be valid"    if seed:        np.random.seed(seed)            shuffle_indexes = np.random.permutation(len(X))      test_size = int(len(X) * test_ratio)        test_indexes = shuffle_indexes[:test_size]    train_indexes = shuffle_indexes[test_size:]    X_train = X[train_indexes]    y_train = y[train_indexes]    X_test = X[test_indexes]    y_test = y[test_indexes]        return X_train, y_train, X_test, y_test

sklearn 中的 train_test_split

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y)

train_test_split(*arrays, **options)

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=42)

来源：https://www.icode9.com/content-4-842901.html

ML之xgboost：利用xgboost算法(sklearn+3Split)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

ML之xgboost:利用xgboost算法(sklearn+3Split)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 输出结果设计思路核心代码 ...
Python之 sklearn：sklearn中的train_test_split函数的简介及使用方法之详细攻略

Python之 sklearn:sklearn中的train_test_split函数的简介及使用方法之详细攻略sklearn中的train_test_split函数的简介官方文档:https://s ...
【机器学习】图解机器学习中的 12 种交叉验证技术

今天我给大家盘点下机器学习中所使用的交叉验证器都有哪些,用最直观的图解方式来帮助大家理解他们是如何工作的. 数据集说明数据集来源于kaggle M5 Forecasting - Accuracy[1 ...
ML之sklearn：sklearn的make_pipeline函数、RobustScaler函数、KFold函数、cross_val_score函数的代码解释、使用方法之详细攻略

ML之sklearn:sklearn的make_pipeline函数.RobustScaler函数.KFold函数.cross_val_score函数的代码解释.使用方法之详细攻略sklearn的ma ...
dython是什么？

大家都知道Python,但是应该很少有人听过dython,dython是python中的一款数据建模库.尽管已经有了scikit-learn.statsmodels.seaborn等非常优秀的数据建模 ...
成功解决ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

成功解决ModuleNotFoundError: No module named 'sklearn.cross_validation' 解决问题 ModuleNotFoundError: No mod ...
100天搞定机器学习：写YAML配置文件

大家好,我是老胡编程中免不了要写配置文件,今天我们继续100天搞定机器学习的番外,学习一个比 JSON 更简洁和强大的语言----YAML .本文简单介绍 YAML 的语法和用法,以及 YAML 在 ...
ML之sklearn：sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解

ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解sklearn库中的ShuffleSplit()函数和Strati ...
ML之xgboost：利用xgboost算法(sklearn+3Split+调参曲线)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

ML之xgboost:利用xgboost算法(sklearn+3Split+调参曲线)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 输出结果设计思路 ...
机器学习干货篇：训练集、验证集和测试集

训练集.验证集.测试集,在机器学习领域为何存在三种不同的数据集概念?它们该如何区分?"交叉验证法"和三种数据集又有何关系? 01 为什么要划分三类数据集对于机器学习建模,其大致流 ...
机器学习干货篇：训练集、验证集、测试集比例到底多少合适？

之前我们介绍了训练集.验证集以及测试集的基本概念,可以看一看之前的文章但是依然有的小伙伴还是对如何划分几个数据集感到疑惑,这里我们就介绍一下通常情况下划分的比例. 众所周知,在机器学习深度学习领域, ...
ML之FE：数据处理—特征工程之数据集划分成训练集、验证集、测试集三部分简介、代码实现、案例应用之详细攻略

ML之FE:数据处理-特征工程之数据集划分成训练集.验证集.测试集三部分简介.代码实现.案例应用之详细攻略数据集划分成训练.验证.测试三种数据的简介分割训练数据前,先打乱了输入数据和教师标签.因为 ...
哑铃训练第1集。希望我的分享可以帮助大家更好的训练。#健身打卡 #哑铃训练视频

哑铃训练第1集。希望我的分享可以帮助大家更好的训练。#健身打卡 #哑铃训练视频
视频训练方式合集总有一款适合你

训练方式合集总有一款适合你
保罗休赛期的控球、训练赛合集！

昨天实用君给大伙分享了关于保罗示范交叉步的教学(有兴趣的伙伴可以查阅历史文章),有球迷留言说很喜欢保罗的动作,确实保罗也是属于联盟中顶级的后卫球员,今天实用君在网上看到了一个关于保罗早两年休赛期的训练 ...
亚健族群与失能老人，该做哪种训练？什么是退阶训练？这集很重要

亚健族群与失能老人,该做哪种训练?什么是退阶训练?这集很重要! 本集为你分享,如何帮助亚健康族群或是失能老人,有正确的观念,除了需要医疗人员的协助,与训练之前的身体评估,避免所有立即性的危险,循序渐进 ...
脑卒中分级康复指南，全面康复训练大合集！

脑卒中具有高发病率.高致残率和高死亡率的特点,中国每年新发卒中患者约200万人,其中70%-80%因为残疾而不能独立生活. 卒中康复是经循证医学证实降低致残率最有效的方法.研究证明,按照规范的康复治疗 ...
MAT之ELM：ELM基于近红外光谱的汽油测试集辛烷值含量预测结果对比

MAT之ELM:ELM基于近红外光谱的汽油测试集辛烷值含量预测结果对比输出结果代码设计 %ELM:ELM基于近红外光谱的汽油测试集辛烷值含量预测结果对比-Jason niu load spectr ...

训练集、测试集(train_test_split)

python 原生分离 iris 数据集

封装 train_test_split 函数

sklearn 中的 train_test_split

相关推荐