Dataset之MNIST：MNIST(手写数字图片识别+ubyte.gz文件)数据集简介、下载、使用方法(包括数据增强)之详细攻略

2024-05-08 18:59:02

Dataset之MNIST：MNIST(手写数字图片识别+ubyte.gz文件)数据集简介+数据增强(将已有MNIST数据集通过移动像素上下左右的方法来扩大数据集为初始数据集的5倍)

MNIST数据集简介

四个gz文件，一共大约11M左右。

0、简介

MNIST是一个非常有名的手写体数字识别数据集(手写数字灰度图像数据集)，在很多资料中，这个数据集都会被用作深度学习的入门样例。
MNIST数据集是由0 到9 的数字图像构成的。训练图像有6 万张，测试图像有1 万张。MNIST数据集是NIST数据集的一个子集，它包含了60000张图片作为训练数据，10000张图片作为测试数据。每一张图片都有对应的标签数字，训练图像一共高60000 张，供研究人员训练出合适的模型。测试图像一共高10000 张，供研究人员测试训练的模型的性能。

单张图片样本的矩阵表示

在上图中右侧显示了一张数字1的图片，而右侧显示了这个图片所对应的像素矩阵。

MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共高10 类，分别对应从0～9 ，共10 个阿拉伯数字。在MNIST数据集中的每一张图片都代表了0~9中的一个数字。
MNIST的图像，每张图片是包含28 像素× 28 像素的灰度图像（1 通道），各个像素的取值在0 到255 之间。每个图像数据都相应地标有数字标签。每张图片都由一个28 ×28 的矩阵表示，每张图片都由一个784 维的向量表示（28*28=784），如图所示。图片的大小都为28*28，且数字都会出现在图片的正中间。处理后的每一张图片是一个长度为784的一维数组，这个数组中的元素对应了图片像素矩阵中的每一个数字。

1、mnist 对象中各个属性的含义和大小

文件名大小特点

train-images-idx3-ubyte.gz ≈9.45 MB 训练图像数据
train-labels-idx 1-ubyte.gz ≈0.03MB     训练图像的标
ti Ok-images-idx3-ubyte.gz ≈ t.57MB    测试图像数据
t l Ok-labels-idxl-ubyte.gz ≈4.4KB      测试图像的标

原始的MNIST 数据集中包含60000 张训练图片和10000 张测试图片。
而在TensorFlow 中，又将原先的60000 张训练图片重新划分成了新的55000张训练图片和5000张验证图片。所以在mnist 对象中，数据一共分为三部分： mnist.train 是训练图片数据， mnist. validation 是验证图片数据，mnist.test是测试图片数据，这正好对应了机器学习中的训练集、验证集和测试集。一般来说，会在训练集上训练模型，通过模型在验证集上的表现调整参数，最后通过测试集确定模型的性能。

2、数据集的应用—训练和预测

这些图像可以用于学习和推理。MNIST数据集的一般使用方法是，先用训练图像进行学习，再用学习到的模型度量能在多大程度上对测试图像进行正确的分类。
在原始的MNIST 数据集中(官网http://yann.lecun.com/exdb/mnist/)，可以找到多达68 种模型在该数据集上的准确率数据，包括相应的论文出处。这些模型包括线性分类器、K 近邻方法、普通的神经网络、卷积神经网络等。

MNIST数据集下载

1、基于python语言根据爬虫技术自动下载MNIST数据集

Dataset之MNIST：自定义函数mnist.load_mnist根据网址下载mnist数据集(四个ubyte.gz格式数据集文件)

Dataset之MNIST：MNIST(手写数字图片识别+ubyte.gz文件)数据集的下载(基于python语言根据爬虫技术自动下载MNIST数据集)

2、TensorFlow的封装下使用MNIST数据集

TensorFlow的封装让使用MNIST数据集变得更加方便。

MNIST数据集提供了4个下载文件，在tensorflow中可将这四个文件直接下载放于一个目录中并加载，如下代码所示，如果指定目录中没有数据，那么tensorflow会自动去网络上进行下载。通过input_data.read_data_sets函数生成的类会自动将MNIST数据集划分为train, validation和test三个数据集。
其中train这个集合内含有55000张图片，validation集合内含有5000张图片，这两个集合组成了MNIST本身提供的训练数据集。test集合内有10000张图片，这些图片都来自与MNIST提供的测试数据集。

1、MNIST数据集下载及输出基本信息

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data #这是TensorFlow 为了教学Mnist而提前设计好的程序
# number 1 to 10 data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True) #TensorFlow 会检测数据是否存在。当数据不存在时，系统会自动，在当前代码py文件位置，自动创建MNIST_data文件夹，并将数据下载到该件夹内。当执行完语句后，读者可以自行前往MNIST_data／文件夹下查看上述4 个文件是否已经被正确地下载
#若因网络问题无法正常下载，可以前往MNIST官网http://yann.lecun.com/exdb/mnist/使用下载工具下载上述4 个文件， 并将它们复制到MNIST_data／文件夹中。

#查看训练数据的大小
print(mnist.train.images.shape)  #(55000, 784)
print(mnist.train.labels.shape)  #(55000, 10)

#查看验证数据的大小
print(mnist.validation.images.shape)  #(5000, 784)
print(mnist.validation.labels.shape)  #(5000, 10)

#查看测试数据的大小
print(mnist.test.images.shape)  #(10000, 784)
print(mnist.test.labels.shape)  #(10000, 10)

print(mnist.train.images[0,:])  #打印出第0张训练图片对应的向量表示

2、利用TF查看MNIST数据集中训练集的前20张图片

#利用TF查看MNIST数据集中训练集的前20张图片
from tensorflow.examples.tutorials.mnist import input_data
import scipy.misc
import os

# 读取MNIST数据集。如果不存在会事先下载。
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

# 我们把原始图片保存在MNIST_data/raw/文件夹下
# 如果没有这个文件夹会自动创建
save_dir = 'MNIST_data/raw/'
if os.path.exists(save_dir) is False:
    os.makedirs(save_dir)

# 保存前20张图片
for i in range(20):
    # 请注意，mnist.train.images[i, :]就表示第i张图片（序号从0开始）
    image_array = mnist.train.images[i, :]
    # TensorFlow中的MNIST图片是一个784维的向量，我们重新把它还原为28x28维的图像。
    image_array = image_array.reshape(28, 28)
    # 保存文件的格式为 mnist_train_0.jpg, mnist_train_1.jpg, ... ,mnist_train_19.jpg
    filename = save_dir + 'mnist_train_%d.jpg' % i
    # 将image_array保存为图片
    # 先用scipy.misc.toimage转换为图像，再调用save直接保存。
    scipy.misc.toimage(image_array, cmin=0.0, cmax=1.0).save(filename)

print('Please check: %s ' % save_dir)

3、查看mnist_train数据集

打印出前20张图片的One-hot编码+前20张图片所对应的标签

#mnist_train数据集：打印出前20张图片的One-hot编码+前20张图片所对应的标签
from tensorflow.examples.tutorials.mnist import input_data
import numpy as np
# 读取mnist数据集。如果不存在会事先下载。
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

# 看前20张训练图片的label
for i in range(20):
    # 得到one-hot表示，形如(0, 1, 0, 0, 0, 0, 0, 0, 0, 0)
    one_hot_label = mnist.train.labels[i, :]
    # 通过np.argmax我们可以直接获得原始的label
    # 因为只有1位为1，其他都是0
    label = np.argmax(one_hot_label)
    print('mnist_train中，第  %d 张图片One-hot编码'% i,mnist.train.labels[i,:])
    print('mnist_train中，第  %d 张图片对应的 label: %d' % (i, label))

数据集增强代码演示

Dataset之MNIST：MNIST(手写数字图片识别)数据集简介、下载、使用方法(包括数据集增强)之详细攻略

1、思路

2、代码实现

数据集增强(将已有MNIST数据集通过移动像素上下左右的方法来扩大数据集为初始数据集的5倍)

from __future__ import print_function

import cPickle
import gzip
import os.path
import random

import numpy as np

print("Expanding the MNIST training set")

if os.path.exists("../data/mnist_expanded.pkl.gz"):
    print("The expanded training set already exists.  Exiting.")
else:
    f = gzip.open("../data/mnist.pkl.gz", 'rb')
    training_data, validation_data, test_data = cPickle.load(f)
    f.close()
    expanded_training_pairs = []
    j = 0
    for x, y in zip(training_data[0], training_data[1]):
        expanded_training_pairs.append((x, y))
        image = np.reshape(x, (-1, 28))
        j += 1
        if j % 1000 == 0: print("Expanding image number", j)

        for d, axis, index_position, index in [
                (1,  0, "first", 0),
                (-1, 0, "first", 27),
                (1,  1, "last",  0),
                (-1, 1, "last",  27)]:
            new_img = np.roll(image, d, axis)
            if index_position == "first":
                new_img[index, :] = np.zeros(28)
            else:
                new_img[:, index] = np.zeros(28)
            expanded_training_pairs.append((np.reshape(new_img, 784), y))
    random.shuffle(expanded_training_pairs)
    expanded_training_data = [list(d) for d in zip(*expanded_training_pairs)]
    print("Saving expanded data. This may take a few minutes.")
    f = gzip.open("../data/mnist_expanded.pkl.gz", "w")
    cPickle.dump((expanded_training_data, validation_data, test_data), f)
    f.close()

相关文章
Dataset：利用Python将已有mnist数据集通过移动像素上下左右的方法来扩大数据集为初始数据集的5倍

Meta Learning 1: 基于度量的方法

今天推出一个短篇系列文章,给大家介绍一下Meta Learning元学习. 普通的机器学习目前在学习具体任务的问题上可以达到很好的效果,比如车载场景的意图分类任务(导航,听音乐,查天气,打电话).如果 ...
收藏 | 机器学习数据集汇总收集

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
【学术论文】基于深度学习的图像分类搜索系统

摘要: 图像分类是根据图像的信息将不同类别的图像区分开来,是计算机视觉中重要的基本问题,也是图像检测.图像分割.物体跟踪.行为分析等其他高层视觉任务的基础.深度学习是机器学习研究中的一个新的领域,其动 ...
机器学习很有趣！第3章：深度学习和卷积神经网络

很多的文章会介绍有关深度学习的一些新闻报道,但我们却并不真正了解其背后的原理!那么今天我们这篇文章便会带大家一览其中的奥秘! Google 现在可以让你在你自己的图片库里面根据你的描述搜索图片, 即 ...
基于OpenCV的多位数检测器

重磅干货,第一时间送达现在数字无处不在,无论是闹钟.健身追踪器.条形码还是包装好了的送货包裹.利用MNIST数据集,机器学习可用来读取单个手写数字.现在,我们可以将其扩展为读取多个数字,如下所示.底 ...
Dataset之MNIST：MNIST(手写数字图片识别+ubyte.gz文件)数据集的下载(基于python语言根据爬虫技术自动下载MNIST数据集)

Dataset之MNIST:MNIST(手写数字图片识别+ubyte.gz文件)数据集的下载(基于python语言根据爬虫技术自动下载MNIST数据集) 数据集下载的所有代码代码打包地址:mnist ...
TF之NN：利用DNN算法(SGD+softmax+cross_entropy)对mnist手写数字图片识别训练集(TF自带函数下载)实现87.4%识别

TF之NN:利用DNN算法(SGD+softmax+cross_entropy)对mnist手写数字图片识别训练集(TF自带函数下载)实现87.4%识别输出结果代码设计 import numpy ...
Dataset之MNIST：MNIST(手写数字图片识别+csv文件)数据集简介、下载、使用方法之详细攻略

Dataset之MNIST:MNIST(手写数字图片识别+csv文件)数据集简介.下载.使用方法之详细攻略 MNIST数据集简介 MNIS下手写体数字图片像素表示矩阵带有数字类别的train.csv ...
TF之DNN：利用DNN【784→500→10】对MNIST手写数字图片识别数据集(TF自带函数下载)预测(98%)+案例理解DNN过程

TF之DNN:利用DNN[784→500→10]对MNIST手写数字图片识别数据集(TF自带函数下载)预测(98%)+案例理解DNN过程输出结果案例理解DNN过程思路 1.一张图像数组形状的变化: ...
DL之DNN：利用DNN算法对mnist手写数字图片识别数据集(sklearn自带,1797*64)训练、预测(95%)

DL之DNN:利用DNN算法对mnist手写数字图片识别数据集(sklearn自带,1797*64)训练.预测(95%) 数据集展示先查看sklearn自带digits手写数据集(1797*64) ...
TF：利用是Softmax回归+GD算法实现MNIST手写数字图片识别(10000张图片测试得到的准确率为92%)

TF:利用是Softmax回归+GD算法实现MNIST手写数字图片识别(10000张图片测试得到的准确率为92%) 设计思路全部代码 #TF:利用是Softmax回归+GD算法实现手写数字识别(10 ...
TF：基于CNN(2+1)实现MNIST手写数字图片识别准确率提高到99%

TF:基于CNN(2+1)实现MNIST手写数字图片识别准确率提高到99% 导读与Softmax回归模型相比,使用两层卷积的神经网络模型借助了卷积的威力,准确率高非常大的提升. 输出结果 Extra ...
DL之DNN：利用DNN【784→50→100→10】算法对MNIST手写数字图片识别数据集进行预测、模型优化

DL之DNN:利用DNN[784→50→100→10]算法对MNIST手写数字图片识别数据集进行预测.模型优化导读目的是建立三层神经网络,进一步理解DNN内部的运作机制输出结果设计思路核心代 ...
DL之CNN：利用卷积神经网络算法(2→2,基于Keras的API-Sequential)利用MNIST(手写数字图片识别)数据集实现多分类预测

DL之CNN:利用卷积神经网络算法(2→2,基于Keras的API-Sequential)利用MNIST(手写数字图片识别)数据集实现多分类预测输出结果 1.10.0 Size of: - Trai ...