用于图像识别的方向卷积网络
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
深度卷积神经网络(Deep Convolutional Neural network, DCNNs)具有强大的图像表示能力,在图像识别领域引起了广泛关注。然而,由于其内在机制的限制,它们在建模取向转换方面受到了限制。在本文中,作者开发了基于地标Gabor滤波器(LGFs)的图像识别方向卷积网络(OCNs),从而增强了学习到的表示对方向变化的鲁棒性。通过利用LGFs对卷积滤波器进行调制,OCNs可以兼容任何现有的深度学习网络。LGFs作为一个Gabor滤波器组,选择p (?n)代表的Gabor滤波器为andmarks,将原始的Gabor滤波器表示为这些地标的稀疏线性组合。具体而言,基于矩阵分解框架,利用稀疏性和低秩约束对原始Gabor滤波器的局部和全局结构进行灵活集成。随着低秩结构的传播,原始Gabor滤波器组表示的相应稀疏性可以显著提高。在多个基准上的实验结果表明,与现有的最先进的方法相比,作者的方法对定位不太敏感,在精度和成本方面都有更高的性能。此外,作者的OCNs需要学习的参数较少,可以显著降低训练网络的复杂性。
本文的主要贡献如下:
1)在矩阵分解框架中定义了LGFs及其相关系数。为了实现有效的LGFs,作者通过传播低秩结构来提高系数的稀疏性。
2)将所提出的LGFs问题表述为一个具有明确目标函数的优化问题。然后设计了一种有效的迭代算法来求解约束优化问题。
3)利用现有的深度学习结构,对基于LGFs的dnns的基本元素进行调制,提出了OCNs。该结构同时考虑了LGFs和深度神经网络,增强了网络的紧凑性,同时在方向变化的情况下仍能获得满意的特征表示能力。
框架结构
为了将方向和尺度信息整合到OCNs中,作者使用LGFs对标准CNNs中的卷积滤波器进行调制。然后,可以增强OCNs中相应的卷积特征。与标准DCNNs表示每层权重的尺寸为Cout× Cin×W ×W不同,OCNs表示为Cout×Cin×N ×W ×W,其中W ×W为过滤器的尺寸,N 为通道,Cout和Cinrefer为对应特征映射的通道。
实验结果
有网络结构在卷积层之后都使用了Max-pooling和ReLu。同时,为了避免过拟合,使用了dropout layer。为了与其他cnn进行比较,像在ORNs一样,通过减小卷积核[33]的宽度来保证相似模型的大小。作者首先测试了几种不同OCNs层的尺度,即V = 1, V = 4。由表I-II可以看出,V = 4的性能在错误率上优于V = 1。在V = 4时,表III中也对OCNs的朝向数进行了评估,这表明OCNs在使用3 - 7个朝向时可以获得满意的性能。可以发现,需要足够的定向通道来捕获定向信息。
作者还在MNIST和MNIST-rot数据集上比较了提出的OCNs与基线方法。如表IV所示,最后两列是错误率方面的性能比较。与基准常规CNNs相比,3 × 3核大小的OCNs在使用较少的CNNs参数的情况下表现出更好的性能。此外,可以看到,5 × 5和7 × 7核大小的OCNs在MNIST-rot上的测试误差为0.55%,在MNIST数据集上的测试误差为0.40%。这是因为更大的内核大小有更多的面向信息。此外,作者列出了比较方法的相应计算时间,这表明OCNs比其他最先进的基线模型更有效。较大的ocn确实可以产生更好的性能,这验证了作者方法近似的定向滤波器有助于实现对旋转变化的鲁棒性。
结论
本文研究了有效定向滤波器(LGFs)的获取问题,并将LGFs与dnns相结合,提出了一种新的深度学习模型以增强表示。主要贡献是设计LGFs,以及改进最先进的dnns架构对方向和尺度变化的泛化能力。LGFs在现有体系结构上易于实现,整个设计过程具有灵活性和可扩展性,使其能够更好地调制DCNNs中的标准滤波器。实验上,ocn显著优于基线,获得了最先进的性能超过基准。