几种经典的图像分类模型

计算机视觉中经典的卷积神经网络结构

声明:本文图片和文字来自百度AI Studio 网站,仅仅是做一个搬运处理,以便于后期需要时查询。

  • LeNet:Yan LeCun等人于1998年第一次将卷积神经网络应用到图像分类任务上[1],在手写数字识别任务上取得了巨大成功。
  • AlexNet:Alex Krizhevsky等人在2012年提出了AlexNet[2],并应用在大尺寸图片数据集ImageNet上,获得了2012年ImageNet比赛冠军(ImageNet Large ScaleVisual Recognition Challenge,ILSVRC)。
  • VGG:Simonyan和Zisserman于2014年提出了VGG网络结构[3],是当前最流行的卷积神经网络之一,由于其结构简单、应用性极强而深受广大研究者欢迎。
  • GoogLeNet:ChristianSzegedy等人在2014提出了GoogLeNet[4],并取得了2014年ImageNet比赛冠军。
  • ResNet:Kaiming He等人在2015年提出了ResNet[5],通过引入残差模块加深网络层数,在ImagNet数据集上的错误率降低到3.6%,超越了人眼识别水平。ResNet的设计思想深刻地影响了后来的深度神经网络的设计。

LeNet

  • 第一模块:包含5×5的6通道卷积和2×2的池化。卷积提取图像中包含的特征模式(**函数使用sigmoid),图像尺寸从32减小到28。经过池化层可以降低输出特征图对空间位置的敏感性,图像尺寸减到14。
  • 第二模块:和第一模块尺寸相同,通道数由6增加为16。卷积操作使图像尺寸减小到10,经过池化后变成5。
  • 第三模块:包含5×5的120通道卷积。卷积之后的图像尺寸减小到1,但是通道数增加为120。将经过第3次卷积提取到的特征图输入到全连接层。第一个全连接层的输出神经元的个数是64,第二个全连接层的输出神经元个数是分类标签的类别数,对于手写数字识别其大小是10。然后使用Softmax**函数即可计算出每个类别的预测概率。

AlexNet
AlexNet与LeNet相比,具有更深的网络结构,包含5层卷积和3层全连接,同时使用了如下三种方法改进模型的训练过程:

  • 数据增广:深度学习中常用的一种处理方式,通过对训练随机加一些变化,比如平移、缩放、裁剪、旋转、翻转或者增减亮度等,产生一系列跟原始图片相似但又不完全相同的样本,从而扩大训练数据集。通过这种方式,可以随机改变训练样本,避免模型过度依赖于某些属性,能从一定程度上抑制过拟合。
  • 使用Dropout抑制过拟合
  • 使用ReLU**函数减少梯度消失现象

VGG
VGG通过使用一系列大小为3x3的小尺寸卷积核和pooling层构造深度卷积神经网络,并取得了较好的效果。

  • VGG-16的网络结构示意图,有13层卷积和3层全连接层。VGG网络的设计严格使用3×3 的卷积层和池化层来提取特征,并在网络的最后面使用三层全连接层,将最后一层全连接层的输出作为分类的预测。

  • 在VGG中每层卷积将使用ReLU作为**函数,在全连接层之后添加dropout来抑制过拟合。使用小的卷积核能够有效地减少参数的个数,使得训练和测试变得更加有效。

GoogLeNet
GoogLeNet是2014年ImageNet比赛的冠军,它的主要特点是网络不仅有深度,还在横向上具有“宽度”。由于图像信息在空间尺寸上的巨大差异,如何选择合适的卷积核大小来提取特征就显得比较困难了。空间分布范围更广的图像信息适合用较大的卷积核来提取其特征,而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题,GoogLeNet提出了一种被称为Inception模块的方案。

  • Inception模块的设计思想,使用3个不同大小的卷积核对输入图片进行卷积操作,并附加最大池化,将这4个操作的输出沿着通道这一维度进行拼接,构成的输出特征图将会包含经过不同大小的卷积核提取出来的特征。Inception模块采用多通路(multi-path)的设计形式,每个支路使用不同大小的卷积核,最终输出特征图的通道数是每个支路输出通道数的总和,这将会导致输出通道数变得很大,尤其是使用多个Inception模块串联操作的时候,模型参数量会变得非常大。为了减小参数量,Inception模块使用了图(b)中的设计方式,在每个3x3和5x5的卷积层之前,增加1x1的卷积层来控制输出通道数;在最大池化层后面增加1x1卷积层减小输出通道数。

    GoogLeNet的架构如 图5 所示,在主体卷积部分中使用5个模块(block,每个模块之间使用步幅为2的3 ×3最大池化层来减小输出高宽。

第一模块使用一个64通道的7 × 7卷积层。
第二模块使用2个卷积层:首先是64通道的1 × 1卷积层,然后是将通道增大3倍的3 × 3卷积层。
第三模块串联2个完整的Inception块。
第四模块串联了5个Inception块。
第五模块串联了2 个Inception块。
第五模块的后面紧跟输出层,使用全局平均池化 层来将每个通道的高和宽变成1,最后接上一个输出个数为标签类别数的全连接层。

说明: 在原作者的论文中添加了图中所示的softmax1和softmax2两个辅助分类器,如下图所示,训练时将三个分类器的损失函数进行加权求和,以缓解梯度消失现象。这里的程序作了简化,没有加入辅助分类器。

ResNet
通过前面几个经典模型学习,我们可以发现随着深度学习的不断发展,模型的层数越来越多,网络结构也越来越复杂。那么是否加深网络结构,就一定会得到更好的效果呢?从理论上来说,假设新增加的层都是恒等映射,只要原有的层学出跟原模型一样的参数,那么深模型结构就能达到原模型结构的效果。换句话说,原模型的解只是新模型的解的子空间,在新模型解的空间里应该能找到比原模型解对应的子空间更好的结果。但是实践表明,增加网络的层数之后,训练误差往往不降反升。

Kaiming He等人提出了残差网络ResNet来解决上述问题,其基本思想如 图6所示。

ResNet50

总结:这里介绍了几种经典的图像分类模型,分别是LeNet, AlexNet, VGG, GoogLeNet和ResNet。除了LeNet不适合大尺寸的图像分类问题之外,其它几个模型在此数据集上损失函数都能显著下降,在验证集上的预测精度在90%左右。

(0)

相关推荐

  • 利用CNN来检测伪造图像

    重磅干货,第一时间送达 随着像Facebook和Instagram这样的社交网络服务的出现,在过去十年中产生的图像数据量有一个巨大增加.使用图像(和视频)等处理软件GNU Gimp,Adobe Pho ...

  • 经典的图像语义分割模型

         经典的基于 CNN 的图像语义分割模型有 FCN.SegNet.U-Net.PSPNet 和 DeepLab,主要针对 FCN.SegNet 和 DeepLab 三个经典模型进行简要介绍.  ...

  • 深度学习之卷积神经网络经典模型介绍

    深度学习之卷积神经网络经典模型介绍

  • 【模型解读】GoogLeNet中的inception结构,你看懂了吗

    03 这是深度学习模型解读第3篇,本篇我们将介绍GoogLeNet v1到v3. 李健 武汉大学硕士,研究方向为机器学习与计算机视觉 作者 | 李健(微信号:lijian05170517) 编辑 | ...

  • 高中物理24种经典大题模型

    超重和失重 斜面 连接体 轻绳.轻杆 上抛和平抛 水流星 万有引力 汽车启动 碰撞 子弹打木块 滑块 人船模型 传送带 振动和波 带电粒子在复合场中的运动 电磁场中的单杠运动 磁流体发电机模型 输电 ...

  • 高中物理:24种经典大题模型,快收藏

    高中物理:24种经典大题模型,快收藏! 查看更多初中.高中知识,关注我哦,每天都更新! 超重和失重 斜面 连接体 轻绳.轻杆 上抛和平抛 水流星 万有引力 汽车启动 碰撞 子弹打木块 滑块 人船模型 ...

  • 管理咨询的35种经典工具模型

    本文系统地介绍了在日常管理活动中经常用到的35种经典工具. 这些工具包括公司战略分析与战备管理,战略决策,人力资源管理等多个方面. 每一种工具首先介绍工具的来源和使用方法,然后结合经典案例进一步进行了 ...

  • 管理咨询的35种经典工具模型「干货」

    本文系统地介绍了日常管理活动当中经常用到的35种工具. 这些工具包括公司战略分析与战备管理,战略决策,人力资源等多个方面. 每个工具首先介绍工具的来源和使用方法, 然后结合经典案例进一步说明. 完整电 ...

  • 高中数学:圆锥曲线必须牢记“四种经典模型”,老师说考试不吃亏

    高中数学中的圆锥曲线问题,一直是我们学习难点内容之一,经常会在小题和大题中都会出现,有很多同学在这方面的知识点,是比较薄弱的,那么想要学好这方面的题型和知识点,除了把基础知识打好之外,还要有针对性的练 ...

  • 博弈论究竟讲什么?一文读懂11种经典博弈论模型

    原创2021-06-14 17:45·城主的地界 先说一个小故事:美国第34任总统艾森豪威尔,在他年轻的时候,有一次吃过晚饭后他跟家人一起玩纸牌,一连六盘,他拿到的都是最坏的牌.于是他变得不高兴起来, ...

  • 5种经典强势早盘集合竞价模型(仅供参考)...

    5种经典强势早盘集合竞价模型(仅供参考) 第一种:水上高台大U型 第二种:水上高台小U型 第三种:水上高台V字型 第四种:水上倒L型(临近开盘上翘更佳) 第五种:水上上行梯字型(临近开盘上翘更佳) 以 ...

  • 四种经典弱势早盘集合竞价模型(避雷神器)...

    四种经典弱势早盘集合竞价模型(避雷神器) 第一种:倒U型+滑坡型 第二种:水下L型 第三种:水下下行梯字型 第四种:水下尖角+滑坡型 下面有附图说明:

  • 宇宙研究有几种经典模型?

    在对宇宙的研究过程中,有几个宇宙模型起到过至关重要的作用. 经典宇宙模型 牛顿最早用经典力学方法和欧几里得的几何观念建立了绝对的无限的宇宙体系. 相对论宇宙模型 爱因斯坦于1915年11月发表了广义相 ...