【图像分类】基于Pytorch的多类别图像分类实战

2024-05-07 15:36:12

欢迎大家来到图像分类专栏，本篇基于Pytorch完成一个多类别图像分类实战。

作者 | 郭冰洋

编辑 | 言有三

1 简介

实现一个完整的图像分类任务，大致需要分为五个步骤：

1、选择开源框架

目前常用的深度学习框架主要包括tensorflow、caffe、pytorch、mxnet等；

2、构建并读取数据集

根据任务需求搜集相关图像搭建相应的数据集，常见的方式包括：网络爬虫、实地拍摄、公共数据使用等。随后根据所选开源框架读取数据集。

3、框架搭建

选择合适的网络模型、损失函数以及优化方式，以完成整体框架的搭建

4、训练并调试参数

通过训练选定合适超参数

5、测试准确率

在测试集上验证模型的最终性能

本文利用Pytorch框架，按照上述结构实现一个基本的图像分类任务，并详细阐述其中的细节及注意事项。

2 数据集

本次实战选择的数据集为Kaggle竞赛中的细胞数据集，共包含9961个训练样本，2491个测试样本，可以分为嗜曙红细胞、淋巴细胞、单核细胞、中性白细胞4个类别，图片大小为320x240。

Pytorch中封装了相应的数据读取的类函数，通过调用torch.utils.data.Datasets函数，则可以实现读取功能。

__init__（）模块用来定义相关的参数，__len__（）模块用来获取训练样本个数，__getitem__（）模块则用来获取每张具体的图片，在读取图片时其可以通过opencv库、PIL库等进行读取，具体代码如下：

# 数据集

class dataset(data.Dataset):

# 参数预定义
def __init__(self, anno_pd, transforms=None):
self.paths = anno_pd['ImageName'].tolist()
self.labels = anno_pd['label'].tolist()
self.transforms = transforms
# 返回图片个数
def __len__(self):
return len(self.paths)
# 获取每个图片
def __getitem__(self, item):
img_path =self.paths[item]
img_id =img_path.split("/")[-1]
img =cv2.imread(img_path)
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
if self.transforms is not None:
img = self.transforms(img)
label = self.labels[item]
return torch.from_numpy(img).float(), int(label)

此外，需要定义图像增强模块，即上述代码中的transform，通常采取的操作为翻转、剪切等，关于图像增强的具体介绍可以参考公众号前作。

【技术综述】深度学习中的数据增强方法都有哪些？

需要特别强调的是对图像进行去均值处理，很多同学不明白为何要减去均值，其主要的原因是图像作为一种平稳的数据分布，通过减去数据对应维度的统计平均值，可以消除公共部分，以凸显个体之间的特征和差异。进行去均值前后操作后的图像对比如下：

3 框架搭建

本次实战主要选取了VGG16、Resnet50、InceptionV4三个经典网络，也是对前篇文章的一个总结。

损失函数则选择交叉熵损失函数：【技术综述】一文道尽softmax loss及其变种

优化方式选择SGD、Adam优化两种：【模型训练】SGD的那些变种，真的比SGD强吗

完整代码获取方式：发送关键词“多类别分类”给公众号

4 训练及参数调试

初始学习率设置为0.01，batch size设置为8，衰减率设置为0.00001，迭代周期为15，在不同框架组合下的最佳准确率和最低loss如下图所示：

可以发现在验证集上Resnet-50+SGD+Cross Entropy的组合下取得了99%左右的准确率，相反VGG-16结果则稍微差一些。

最佳组合下的准确率走势曲线如下图所示：

5 测试

对上述模型分别在测试集上进行测试，所获得的结果如下图所示，整体精度比训练集上约下降了一个百分点：

关于代码，可以参考有三AI开源的12大深度学习开源框架使用的项目：

【完结】给新手的12大深度学习开源框架快速入门项目

总结

以上就是整个多类别图像分类实战的过程，由于时间限制，本次实战并没有对多个数据集进行训练，因此没有列出同一模型在不同数据集上的表现。

有三AI夏季划

有三AI夏季划进行中，欢迎了解并加入，系统性成长为中级CV算法工程师。

转载文章请后台联系

侵权必究

PyTorch之LeNet-5：利用PyTorch实现最经典的LeNet-5卷积神经网络对手写数字图片识别CNN

PyTorch之LeNet-5:利用PyTorch实现最经典的LeNet-5卷积神经网络对手写数字图片识别CNN 训练过程代码设计 #PyTorch:利用PyTorch实现最经典的LeNet卷积神经 ...
精品收藏：GitHub人工智能AI开源项目

精品收藏:GitHub人工智能AI开源项目绝对精品!!!花了点时间,鄙人把这几年收藏的开源精品项目,整理一下,方面以后查找.其中涵盖了姿态检测,图像分割,图像分类,美学评价.人脸识别.多尺度训练,移 ...
如何转换opencv的图片格式在pytorch中使用

首先,如上图所示,opencv读入的图像为 RGB格式,但是我们在pytorch中进行图像处理时,要先将RGB转换成BGR,然后在使用img = Image.fromarray(np.uint8(se ...
对齐PyTorch，一文详解OneFlow的DataLoader实现

在最新的OneFlow v0.5.0版本中,我们增加了许多新特性,比如: 新增动态图特性:OneFlow 默认以动态图模式(eager)运行,与静态图模式(graph)相比,更容易搭建网络.调试和验证 ...
Pytorch入门：Mask R

Contents 1. 处理数据集 2. Mask R-CNN微调模型 3. 模型的训练及验证 4. 遗留问题(解决后删掉) 通过微调预训练模型Mask R-CNN来完成目标检测及语义分割, ...
目标检测、目标跟踪、重识别，这个项目里都有 ...

环境 ubuntu 18.04 64位 yolov5 deepsort fastreid 前言前文基于YOLOv5和DeepSort的目标跟踪介绍过针对行人的检测与跟踪.本文介绍另一个项目,结合 ...
PyTorch 学习笔记（一）：让PyTorch读取你的数据集

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
深度学习-PyTorch框架实战系列

深度学习-PyTorch框架实战系列深度学习框架-PyTorch实战课程旨在帮助同学们快速掌握PyTorch框架核心模块使用方法与项目应用实例,让同学们熟练使用PyTorch框架进行项目开发. 课程 ...
【图像分类】基于Pytorch的细粒度图像分类实战

欢迎大家来到<图像分类>专栏,今天讲述基于pytorch的细粒度图像分类实战! 作者&编辑 | 郭冰洋 1 简介针对传统的多类别图像分类任务,经典的CNN网络已经取得了非常优异的 ...
使用 Pytorch 进行多类图像分类

重磅干货,第一时间送达关于数据集此数据包含大小为150x150.分布在6个类别下的约25k图像. {'建筑物':0,'森林':1,'冰川':2,'山':3,'海':4,'街道':5} 训练.测试和 ...
Python深度学习基于PyTorch（附完整PPT下载）

人工智能与算法学习 24篇原创内容公众号作者:吴茂贵,资深大数据和人工智能技术专家,就职于中国外汇交易中心,在BI.数据挖掘与分析.数据仓库.机器学习等领域工作超过20年!在基于Spark.Ten ...
CB Loss：基于有效样本的类别不平衡损失

作者:Sik-Ho Tsang 编译:ronghuaiyang 来自AI公园导读使用每个类的有效样本数量来重新为每个类的Loss分配权重,效果优于RetinaNet中的Focal Loss. 本文 ...
基于OpenCV的面部关键点检测实战

重磅干货,第一时间送达这篇文章概述了用于构建面部关键点检测模型的技术,这些技术是Udacity的AI Nanodegree程序的一部分. 概述在Udacity的AIND的最终项目中,目标是创建一个 ...
轻量高效！清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur

作者丨科技猛兽编辑丨极市平台极市导读清华大学自动化系智能计算实验室团队开源基于 PyTorch 的视频 (图片) 去模糊框架 SimDeblur,涵盖经典的视频 (图像) 去模糊算法且轻量高效. ...
港中文开源基于PyTorch的多任务人脸识别框架

代码链接: https://github.com/XiaohangZhan/face_recognition_framework 该库本来是用于作者XiaoHangZhan在ECCV 2018论文Co ...
【赠书】新书速递！基于Bert模型的自然语言处理实战

‍‍ BERT模型是当今处理自然语言任务效果最好的模型.掌握了该模型,就相当于掌握了当今主流的NLP技术,今天要给大家介绍的书是基于Bert模型的自然语言处理实战. 本书内容本书从零基础开始,介绍了 ...
【图像分类】基于Pascal VOC2012增强数据的多标签图像分类实战

接着上一次的多标签分类综述,本文主要以Pascal VOC2012增强数据集进行多标签图像分类训练,详细介绍增强数据集制作.训练以及指标计算过程,并通过代码进行详细阐述,希望能为大家提供一定的帮助! ...

【图像分类】 基于Pytorch的多类别图像分类实战

相关推荐

【图像分类】基于Pytorch的多类别图像分类实战