Python 教你如何给图像分类

2024-06-24 12:55:54

来源：Python 技术「ID: pythonall」

在日常生活中总是有给图像分类的场景，比如垃圾分类、不同场景的图像分类等；今天的文章主要是基于图像识别场景进行模型构建。图像识别是通过 Python深度学习来进行模型训练，再使用模型对上传的电子表单进行自动审核与比对后反馈相应的结果。主要是利用 Python Torchvision 来构造模型，Torchvision 服务于Pytorch 深度学习框架，主要是用来生成图片、视频数据集以及训练模型。

模型构建

构建模型为了直观，需要使用 Jupyter notebook 进行模型的构建，Jupyter notebook 的安装及使用详见公众号历史文章一文吃透 Jupyter Notebook,进入 JupyterNotebook 页面后即可进行编辑。详细页面如下：

导入所需包

图像识别需要用到深度学习相关模块，所以需要导入相应的包，具体导入的包如下：

%reload_ext autoreload %autoreload 2


import torch

from torch.utils.data import DataLoader

from torchvision.datasets import ImageFolder

from torchvision import transforms as tfs

from torchvision import models

from torch import nn
import matplotlib.pyplot as plt

%matplotlib inline
import os

os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

是否使用 GPU

模型的训练主要方式是基于 GPU 或者 CPU 训练，在没有 GPU 的条件下就在 CPU 下进行训练，模型的训练需要花费一定的时间，训练时长根据训练集的数据和硬件性能而定，训练结果精确性根据数据的多少和准确性而且，深度学习需要大量的素材才能判断出精确的结果，所以需要申明使用 CPU 进行训练：

# 是否使用GPU use_gpu = False

数据增强

将拿到的数据进行训练集的数据预处理并设置训练分层数，再将拿到的图片进行水平翻转后对图片进行剪裁，剪裁后将图片进行随机翻转，增强随机对比度以及图片颜色变化

# 数据增强 train_transform = tfs.Compose([ # 训练集的数据预处理 tfs.Resize([224, 224]), tfs.RandomHorizontalFlip(), tfs.RandomCrop(128), tfs.ToTensor(), tfs.Normalize([0.5,0.5,0.5], [0.5,0.5,0.5]) ])


test_transform = tfs.Compose([

    tfs.Resize([224,224]),

#     tfs.RandomCrop(128),

    tfs.ToTensor(),

    tfs.Normalize([0.5,0.5,0.5], [0.5,0.5,0.5])

])
# 每一个batch的数据集数目

batch_size = 10

数据集和验证集准备

模型训练需要准备数据集和验证集，只有足够的照片才能得到更精准的答案。训练集和验证集部分代码如下：

# 构建训练集和验证集 # train_set = ImageFolder('./dataset1/train', train_transform) train_data = DataLoader(train_set, batch_size, shuffle=True, num_workers=0)


valid_set = ImageFolder('./dataset1/valid', test_transform)

valid_data = DataLoader(valid_set, 2*batch_size, shuffle=False, num_workers=0)
train_set.class_to_idx
len(valid_data)

# 数据集准备 try: if iter(train_data).next()[0].shape[0] == batch_size and \ iter(valid_data).next()[0].shape[0] == 2*batch_size: print('Dataset is ready!') else: print('Not success, maybe the batch size is wrong') except: print('not success, image transform is wrong!')

模型构建并准备模型

# 构建模型 def get_model(): model = models.resnet50(pretrained=True) model.fc = nn.Linear(2048, 3) return model


try:

    model = get_model()

    with torch.no_grad():

        scorce = model(iter(train_data).next()[0])

        print(scorce.shape[0], scorce.shape[1])

    if scorce.shape[0] == batch_size and scorce.shape[1] == 3:

        print('Model is ready!')

    else:

        print('Model is failed!')

except:

    print('model is wrong')

if use_gpu: model = model.cuda()

构建模型优化器

# 构建loss函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr = 1e-4)


# 训练的epoches数目

max_epoch = 20

模型训练和训练结果可视化

数据集和训练集准备好后进行模型训练和训练结果可视化，部分代码如下：

def train(model, train_data, valid_data, max_epoch, criterion, optimizer): freq_print = int(len(train_data) / 3) metric_log = dict() metric_log['train_loss'] = list() metric_log['train_acc'] = list() if valid_data is not None: metric_log['valid_loss'] = list() metric_log['valid_acc'] = list() for e in range(max_epoch): model.train() running_loss = 0 running_acc = 0


for i, data in enumerate(train_data, 1):

            img, label = data

            if use_gpu:

                img = img.cuda()

                label = label.cuda()
# forward前向传播

            out = model(img)
# 计算误差

            loss = criterion(out, label.long())
# 反向传播，更新参数

            optimizer.zero_grad()

            loss.backward()

            optimizer.step()
# 计算准确率

            _, pred = out.max(1)

            num_correct = (pred == label.long()).sum().item()

            acc = num_correct/img.shape[0]
running_loss += loss.item()

            running_acc +=acc
if i % freq_print == 0:

                print('[{}]/[{}], train loss: {:.3f}, train acc: {:.3f}' \

                .format(i, len(train_data), running_loss / i, running_acc / i))

        

        metric_log['train_loss'].append(running_loss / len(train_data))

        metric_log['train_acc'].append(running_acc / len(train_data))
if valid_data is not None:

            model.eval()

            running_loss = 0

            running_acc = 0

            for data in valid_data:

                img, label = data

                if use_gpu:

                    img = img.cuda()

                    label = label.cuda()

                

                # forward前向传播

                out = model(img)
# 计算误差

                loss = criterion(out, label.long())
# 计算准确度

                _, pred = out.max(1)

                num_correct = (pred==label.long()).sum().item()

                acc = num_correct/img.shape[0]
running_loss += loss.item()

                running_acc += acc
metric_log['valid_loss'].append(running_loss/len(valid_data))

            metric_log['valid_acc'].append(running_acc/len(valid_data))

            print_str = 'epoch: {}, train loss: {:.3f}, train acc: {:.3f}, \

            valid loss: {:.3f}, valid accuracy: {:.3f}'.format(

                        e+1, metric_log['train_loss'][-1], metric_log['train_acc'][-1],

                        metric_log['valid_loss'][-1], metric_log['valid_acc'][-1])

        else:

            print_str = 'epoch: {}, train loss: {:.3f}, train acc: {:.3f}'.format(

                e+1,

                metric_log['train_loss'][-1],

                metric_log['train_acc'][-1])

        print(print_str)

# 可视化 nrows = 1 ncols = 2 figsize= (10, 5) _, figs = plt.subplots(nrows, ncols, figsize=figsize) if valid_data is not None: figs[0].plot(metric_log['train_loss'], label='train loss') figs[0].plot(metric_log['valid_loss'], label='valid loss') figs[0].axes.set_xlabel('loss') figs[0].legend(loc='best') figs[1].plot(metric_log['train_acc'], label='train acc') figs[1].plot(metric_log['valid_acc'], label='valid acc') figs[1].axes.set_xlabel('acc') figs[1].legend(loc='best') else: figs[0].plot(metric_log['train_loss'], label='train loss') figs[0].axes.set_xlabel('loss') figs[0].legend(loc='best') figs[1].plot(metric_log['train_acc'], label='train acc') figs[1].axes.set_xlabel('acc') figs[1].legend(loc='best')

调参进行模型训练

# 用作调参 train(model, train_data, valid_data, max_epoch, criterion, optimizer)

保存模型

# 保存模型 torch.save(model.state_dict(), './model/save_model2.pth')

总结

今天的文章主要是讲图像识别模型如何构建。希望对大家有所帮助。

你安利到了吗？

21句话入门机器学习

这是一篇关于机器学习工具包Scikit-learn的入门级读物.对于程序员来说,机器学习的重要性毋庸赘言.也许你还没有开始,也许曾经失败过,都没有关系,你将在这里找到或者重拾自信.只要粗通Python ...
Python使用神经网络进行简单文本分类

原文链接:http://tecdat.cn/?p=8613 深度学习无处不在.在本文中,我们将使用Keras进行文本分类. 准备数据集出于演示目的,我们将使用 20个新闻组数据集.数据分为20 ...
ThetrainControlFunction

trainControl函数产生参数是要控制用可能的值去创建模型: method:重抽样方法:"boot","cv","LOOCV",&qu ...
【杂谈】抽奖送5台GPU使用权限，有三AI季划成员专属GPU也安排上了

5台24G显存的GPU 本次免费的GPU来自于我们的老牌合作伙伴FlyAI,很多同学应该都知道,也在里面打过榜赢过钱,有三AI与FlyAI还一起举办过比赛,这是一个有奖竞赛社区. 如果不清楚FlyAI ...
用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

原文链接:http://tecdat.cn/?p=8640 介绍在本文中,我们将看到如何开发具有多个输出的文本分类模型.我们开发一个文本分类模型,该模型可分析文本注释并预测与该注释关联的多个标签.多 ...
Python 中解释 XGBoost 模型的学习曲线

XGBoost是梯度提升集成算法的强大而有效的实现.配置XGBoost模型的超参数可能具有挑战性,这通常会导致使用既费时又计算量大的大型网格搜索实验.配置XGBoost模型的另一种方法是在训练过程中算 ...
可视化卷积神经网络的特征和过滤器

卷积神经网络是一种特殊类型的人工神经网络,广泛应用于图像识别.这种架构的成功始于 2015 年,当时凭借这种方法赢得了 ImageNet 图像分类挑战. 这些方法非常强大并且能够很好地进行预测,但同时 ...
python教你如何越来越富有，呆瓜式制作小账本

hi,我是曾子不知道大家有没有手动记账的习惯,我大概从大学开始就坚持记账,中途也换过几个账本APP.目前使用的是圈子账本,它的记账界面如下图所示: 再说说我现在的情况,毕业之后支出越来越多越琐碎,每 ...
520，Python 教你花式表白小姐姐

来源:Python 技术「ID: pythonall」一年一度的 520 又到了,不知今年的你是否脱单了呢?如果还没有的话,不要方,单身 dog 千千万. 虽说缘分是非常奇妙的,不可强求,但遇见了心 ...
用 Python 教你画花样图

来源:Python 技术「ID: pythonall」在之前的一篇文章Python可视化神器-Plotly动画展示展现了可视化神器-Plotly的动画的基本应用,本文介绍如何在Python中使用 P ...
Python教你迅速成为蚂蚁森林排行榜第一名

最近在家远程工作,结果作息更混乱了 ,早上起不来,导致我蚂蚁森林能量天天被偷,严重影响我沙漠造树"大业" .于是我决定用python写个自动偷能量的程序,每天早上定时偷取好友能量, ...
Python教程之break用法

与C语言一样,Pythonbreak语句将会打破最小封闭for或while循环. break语句可以立即结束当前循环的执行,从而跳出当前所处的循环结构.不管是while循环还是for循环,只要执行br ...
Python教你从0搭建微信推送斗鱼直播提醒（单房间简化版）

重新推出重制版,单房间推送提醒版本(后文有扩展多房间思路),适合没有服务器的小伙伴学习使用. Gitee文档同步更新:https://gitee.com/LGW_space/dy-live-linte ...
只需 10 行代码，Python 教你自制屏幕翻译工具，高效办公

只需 10 行代码，Python 教你自制屏幕翻译工具，高效办公
功能强大、文档健全的开源 Python 绘图库 Plotly，手把手教你用！

译者:欧剃今天带你深入体验易于使用.文档健全.功能强大的开源 Python 绘图库 Plotly,教你如何用超简单的(甚至只要一行!)代码,绘制出更棒的图表. "沉没成本谬误"是 ...
教你如何使用Python下载抖音各大V视频

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python七号 ,作者 somenzz Python爬虫.数据分析.网站开发 ...