tf.data.Dataset.shuffle(buffer

2024-04-20 13:26:37

tensorflow中的数据集类Dataset有一个shuffle方法，用来打乱数据集中数据顺序，训练时非常常用。其中shuffle方法有一个参数buffer_size，非常令人费解，文档的解释如下：

buffer_size: A tf.int64 scalar tf.Tensor, representing the number of elements from this dataset from which the new dataset will sample.

你看懂了吗？反正我反复看了这说明十几次，仍然不知所指。

首先，Dataset会取所有数据的前buffer_size数据项，填充 buffer，如下图

然后，从buffer中随机选择一条数据输出，比如这里随机选中了item 7，那么buffer中item 7对应的位置就空出来了

然后，从Dataset中顺序选择最新的一条数据填充到buffer中，这里是item 10

然后在从Buffer中随机选择下一条数据输出。

需要说明的是，这里的数据项item，并不只是单单一条真实数据，如果有batch size，则一条数据项item包含了batch size条真实数据。

shuffle是防止数据过拟合的重要手段，然而不当的buffer size，会导致shuffle无意义，具体可以参考这篇Importance of buffer_size in shuffle()

赞 (0)

【tensorflow速成】Tensorflow图像分类从模型自定义到测试

这是给大家准备的tensorflow速成例子言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号Longlongtogo) 编辑 | 言有三上一篇介绍了 C ...
成功解决AttributeError: 'MapDataset' object has no attribute 'group_by_window'

成功解决AttributeError: 'MapDataset' object has no attribute 'group_by_window' 解决问题 AttributeError: 'Map ...
ML之FE：数据处理—特征工程之数据集划分成训练集、验证集、测试集三部分简介、代码实现、案例应用之详细攻略

ML之FE:数据处理-特征工程之数据集划分成训练集.验证集.测试集三部分简介.代码实现.案例应用之详细攻略数据集划分成训练.验证.测试三种数据的简介分割训练数据前,先打乱了输入数据和教师标签.因为 ...
【从caffe到Tensorflow 1】io 操作

最近项目要频繁用到tensorflow,所以不得不认真研究下tensorflow而不是跟之前一样遇到了就搞一下了. 首先我觉得所有这些框架里面caffe是最清晰的,所以就算是学习tensorflow, ...
TF之pix2pix之dataset：基于TF利用自己的数据集训练pix2pix模型之DIY自己的数据集

TF之pix2pix之dataset:基于TF利用自己的数据集训练pix2pix模型之DIY自己的数据集转换图像并合并 1.A 类图像将挖去中心像素后得到B 类图像 2.生成并列图像样本的全过程
Dataset之图片数据增强：基于TF实现图片数据增强(原始的训练图片reshaped_image→数据增强→distorted_image(训练时直接使用）)

Dataset之图片数据增强:基于TF实现图片数据增强(原始的训练图片reshaped_image→数据增强→distorted_image(训练时直接使用)) 数据增强步骤 1.对reshaped_ ...
关于 tf.data.TextLineDataset() 和常见dataset函数

官方原话: class TextLineDataset(dataset_ops.Dataset): """A `Dataset` comprising lines fro ...
Dataset之DA：数据增强(Data Augmentation)的简介、方法、案例应用之详细攻略

Dataset之DA:数据增强(Data Augmentation)的简介.方法.案例应用之详细攻略 DA的简介数据集增强主要是为了减少网络的过拟合现象,通过对训练图片进行变换可以得到泛化能力更强的 ...
诸葛DIA模型-D：一个开放、智能、实时的客户数据管理平台（Data）

在上周的文章讲升级,玩数字化,诸葛io推出"DIA模型",贯穿数据服务全周期!中,诸葛推出基于客户管理与分析运营的全新DIA模型,通过全维度数据服务体系,为客户提供从前期数据采集. ...
“Literally Shocking Data” – April Payrolls Miss Huge, Just 266K Jobs Added Below Expectations Of 1 M

May 7, 2021 NEWS0 Comments With expectations of today's payroll print soaring, consensus expecting ...
Indian COVID Strain Declared “Global Concern” As Data Show It’s Vaccine-Resistant

May 10, 2021 NEWS0 Comments During the WHO's Monday press conference, Maria Van Kerkhove, the scien ...
打开“Employee data.sav”数据文件，按性别gender，男（Male）在前,女(Female)在后,同时，性别gender相同的按开始工资salbegin从高到低显示文件，需要用的命令和操作是：（ C ） A. 选择个案，先选择salbegin

打开"Employee data.sav"数据文件,按性别gender,男(Male)在前,女(Female)在后,同时,性别gender相同的按开始工资salbegin从高到低显 ...
打开“Employee data.sav”数据文件，将受雇佣月份jobtime分为<80;80-90;>90三组。三组的职员人数分别是：（ B ） A. 221，141，112 B. 206，156，112 C. 221，157，96 D. 206，172，96

打开"Employee data.sav"数据文件,将受雇佣月份jobtime分为<80;80-90;>90三组.三组的职员人数分别是: ( B ) A. 221, ...