ACCV2020国际细粒度网络图像识别冠军方案解读、经验总结

2024-06-23 08:39:14

作者丨韦嘉，习思

编辑丨极市平台

极市导读

由极市平台作为官方指定赛事平台的ACCV2020国际细粒度网络图像识别大赛已顺利结束。本文是本次大赛的冠军团队对他们解决方案的解读，包含数据清洗、backbones、BBN、混合精度训练、Tricks、模型融合等经验。>>加入极市CV技术交流群，走在计算机视觉的最前沿

0. 团队介绍

团队来自NetEase Games AI Lab，成员分别为韦嘉，习思，徐文元，张伟东，排名不分先后。


韦嘉，NetEase Games AI Lab研究员	习思，NetEase Games AI Lab研究员

2. 数据集的挑战

1.1. 数据集概要

数据集是从网络上收集的图片数据，jpg格式。

训练数据集：5000类共557169张图片，含标注信息（内含标签噪声）。数据集中包含的类别包括动物和植物。

测试数据集：5000类共100000张图片，不含标注信息。

1.2. 数据噪声

脏数据

我们发现有很多脏样本是无法学习的，并且有些类别并不属于动植物。

二义性图片

我们注意到在同一张图片上有不同的标签，例如，这两张图片在标签不同的情况下是完全相同的图片。

长尾分布

混乱类别

发现训练集中约5％的类别样本过于混乱，似乎是其他类别样本的混合

2. 解决方案

2.1 数据清洗

最先做的事情是清洗数据集。为了分析数据集，我们首先将训练数据集划分为训练集和验证集，使用训练集训练模型并统计验证集badcase分布，具体分布如下图。可以看出，在所有badcase中，噪声图片和错误标签占比最多分别是24%和13%。噪声至少占了badcase的37%左右，给训练增加了一定的难度，模型很大概率被不准确的标签误导，因此该比赛清洗数据能提升较大的精度。

为了应对这种情况，我们针对噪声图片和标签错误尝试了不同方法来清洗数据集。

首先为了清洗部分明显的脏样本，使用模型聚类来聚类并删除共性大的脏样本，例如地图图片，文章图片，图表等。

其次，我们使用自蒸馏的方法处理噪声数据。根据分析发现数据集中存在大量的错误标签和二义性样本，为了降低模型的训练难度，我们将所有训练集图片均分为五份，使用4份作为训练集并预测剩下数据，完成五折模型训练，之后预测的每一折验证集组成所有数据集的out-of-fold结果文件，之后将out-of-fold结果与数据集的ground truth label按一定比例混合，组成了新的训练集标签，换句话说，我们给每一个大概率是噪声样本的图片赋予了软化后的标签，从而降低了模型训练难度。

最后，我们再根据新的训练集标签，进一步清洗置信度过低的样本，与此同时，我们兼顾了类别平衡，降低少样本类别被误清除的概率，不至于部分类别图片过少，加剧长尾分布程度，增加模型训练难度。

我们也尝试了其他的去噪方式，比如AUM Ranking等，通过训练模型给每一个样本根据AUM指标进行排序。我们根据AUM删除了部分图片训练模型，从而导致精度明显下降。AUM Ranking还是存在一些坑，我们最后放弃了该方法。

2.2 backbones

Backbones对模型的表现至关重要。我们使用efficientnet， resnet-based的模型和bbn作为backbones。我们可以看到下图中这两种类别之间的唯一区别是头部纹理，带注意力机制的backbones能够聚焦于关键细节，带来更好的表现。

2.3 BBN

在数据分析中发现本次比赛中训练集是典型的长尾分布。长尾分布属于极端的类别不平衡现象，这一现象会削弱一般分类的模型的分类能力。通常来说为了解决这一问题会使用类别再平衡方法，如从数据层面进行再采样，或者从损失函数角度进行加权。

首先被尝试的是在数据层面进行样本强制重采样，在某些类别中少量的样本被不断重复，但并没有对训练起到太多积极作用。其次是使用focal loss和class balance loss这类加权损失函数，但模型精度仍有0.2%~0.3%的下降。

通过调研我们选择了BBN结构，我们最好的单个模型也是由BBN训练的。BBN 模型由两个分支构成，即常规学习分支（Conventional Learning Branch）和再平衡分支（Re-Balancing Branch）。总体而言，BBN 的每个分支各自执行其表征学习和分类器学习任务。顾名思义，常规学习分支为原始数据分布配备了典型的均匀采样器（Uniform Sampler），可用于为识别任务学习通用的表征；再平衡分支则耦合了一个逆向的采样器（Reversed Sampler），其目标是建模尾部数据。接着，再通过累积学习（Cumulative Learning）将这些双边分支的预测输出聚合起来。通过使用bbn训练resnet50，可以将Top 1准确性提高10％以上。此外我们还使用bbn训练了其他的backbones，如resenxt，se-resnext，efficientnet等。

2.5 混合精度训练

上一小节中提到BBN能够极大的提高模型精度，但事实上该模型的训练时间较长，gpu资源占用也比较多。以se-resnext50位主干的BBN在8张V100上不能以256的batchsize运行。而batchsize的大小又直接影响了训练效果与耗时。

为了解决这一问题我们使用了pytorch的拓展插件apex，它能够在只添加少量代码的情况下使用自动混合精度的技术来提高模型的资源占用和训练速度，提高生产力。在实际训练中我们使用的是O1模式，gpu资源占用能够减少一半以上。为我们训练高分辨率的深层模型提供了可能。

2.6 Bag-of-Tricks

在模型训练的过程中也使用了很多tricks，并配置了大量算力资源。对于少样本类别做了数据增广和重采样，并尝试使用focal loss但表现不佳。同时在预测过程中使用ten-crop、multiscale及flip等TTA策略，模型精度有一定提高。与此同时增强模型泛化能力的Mixup和labelsmoothing也能提高模型性能。

以bbn-resnet50为例，baseline准确度为55.7％。清理数据集后，精度可以提高2.6%，Mixup和label smoothing后，精度可以提高1.5％，使用三次KD后，精度可以提高1.1％。我们还使用许多其他技巧。这里不再赘述。

2.7 模型融合

在比赛中已经训练了超过40个模型，不同的backbones，不同的分辨率，不同的训练策略。

最终最好的单一模型准确性为68.9％。但是即使如此，融合三个精度较低（60％左右）但相关性低的模型（分辨率、loss、backbones等）仍改善性能。最后我们调整了模型权重，以增强更强大的模型，准确率可以提高0.2％左右。

表中列出了我们5个模型的所有结果。最终，我们在排行榜B中获得71.4％的准确度。

3 总结

3.1 我们做了什么

1) ACCV_WebFG5000数据集：5K类，具有大量噪声的550K训练图像；

2) 最终模型在B榜准确性为71.4％，在挑战赛中排名第一。

3.2 我们从竞赛中学到了什么

1) 适用于小型数据集的技巧可能不适用于大型数据集，需要不断快速试错。

2) 数据集中具有多种类型的噪声，在使用常规去噪方法的同时，创新性的引入了类别均衡的去噪方法，提升模型去噪能力。

3) 在模型融合过程中相关度低的模型往往能够取得更好的效果，高相关度模型融合可能会起到反向效果。

4）在计算资源有限的情况下，比起使用小模型，大模型的半精度训练不失为一个更好的选择。

3.3 我们没做什么

1）Backbone，在公开数据集上resnest精度高于resnext和efficientnet，但时间关系没有进行尝试。

2）Ensemble，在模型融合阶段目前采用的是voting，stacking等基于学习的方式由于步骤繁琐，没有进行尝试。

3）Unsupervised learning，使用moco或mocov2等无监督方法获得更为强大的特征提取能力。

报告下载

在 极市平台 公众号后台回复“ACCV”，即可下载冠军团队于ACCV2020 Workshop报告PPT。

参考文献
【1】Zhou, Boyan, et al. "BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
【2】Pleiss, Geoff, et al. "Identifying Mislabeled Data using the Area Under the Margin Ranking." arXiv preprint arXiv:2001.10528
【3】He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
【4】Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision. 2017.
【5】Tan, Mingxing, and Quoc V. Le. "Efficientnet: Rethinking model scaling for convolutional neural networks." arXiv preprint arXiv:1905.11946 (2019).
【6】He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
【7】Xie, Saining, et al. "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
【8】Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
【9】Zhang, Hongyi, et al. "mixup: Beyond empirical risk minimization." arXiv preprint arXiv:1710.09412 (2017).
【10】Yun, Sangdoo, et al. "Cutmix: Regularization strategy to train strong classifiers with localizable features." Proceedings of the IEEE International Conference on Computer Vision. 2019.
【11】He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
【12】Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).

给BERT加一个loss就能稳定提升？斯坦福 Facebook最新力作！

今天要介绍的这篇工作来自斯坦福和Facebook AI,作者在BERT分类任务的精调阶段加入了对比学习的loss,在各个任务上都获得了很稳定的提升: 上图中CE表示交叉熵,SCL表示Supervise ...
【AI不惑境】AutoML在深度学习模型设计和优化中有哪些用处？

大家好,这是专栏<AI不惑境>的第十二篇文章,讲述AutoML在深度学习模型设计和优化相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模 ...
AI加持下，机器狗还能做什么？华为云发布ModelArts3.0 加速AI行业落地

前不久,一款能翻跟斗能尬舞的机器狗上了热搜. 现在,AI加持下的机器狗又学会了新本领. 基于EI-backbone,机器狗实现工业巡检 9月25日,2020华为全联接上(以下简称:HC2020),华为 ...
人工智能与信息安全：新的革命与挑战

人工智能,是一种借鉴生物感知系统和神经系统来开发相应模拟算法的计算机技术,其主要特点是可从数据中学习特征并进行自我迭代训练. 通常,人工智能算法往往需要大量的数据以及庞大的计算资源作为支撑.随着计算机 ...
专注于金融领域任务，首个金融领域的开源中文预训练语言模型 FinBERT 了解下

编辑 | 熵简科技编辑部作者信息:熵简科技 AI Lab 团队,团队利用迁移学习.少样本学习.无监督学习等深度学习领域最新的思想和技术,为熵简科技各大业务线提供底层 AI 技术支持和可落地的解决方案 ...
概述：各学科和各种任务的最新机器学习算法

了解NLP,计算机视觉,语音识别和推荐系统的最佳算法 CV Computer Vision, NLP Natural Language Processing, RS Recommender Syste ...
拼写、常识、语法、推理错误都能纠正，云从提出基于BART的语义纠错方法

机器之心发布机器之心编辑部云从科技语音组提出了一种基于 BART 预训练模型的语义纠错技术方案,它不仅可以对 ASR 数据中常见的拼写错误进行纠正,还可以对一些常识错误.语法错误,甚至一些需要推理 ...
PFLD：高精度实时人脸关键点检测算法

重磅干货,第一时间送达本文转自:AI算法与图像处理这篇文章作者分别来自天津大学.武汉大学.腾讯AI实验室.美国天普大学.该算法对在高通ARM 845处理器可达140fps:另外模型大小较小,仅2. ...
2020年arXiv十大热门论文来了！不止GPT-3、SimCLR、YOLOv4...

转载自 | AI科技评论作者| 陈大鑫近日,有位外国网友在Reddit上发帖称利用metacurate.io持续读取了2020年度arxiv上有关AI.机器学习.NLP和数据科学的大量论文资源.到 ...
ACCV2020国际细粒度网络图像识别亚军方案总结

来源丨极市平台编辑丨极市平台极市导读作者为ACCV2020细粒度图像分类分析竞赛第二名,本文分享了比赛各阶段的准备以及需要注意的要点和经验,分享给大家作为参考. >>加入极市CV技术 ...
ACCV2020国际细粒度识别比赛季军方案解读及Tricks汇总

一.大赛介绍及挑战1.1 背景本次比赛,是由南京理工大学.英国爱丁堡大学.南京大学.阿德莱德大学.日本早稻田大学等研究机构主办,极市平台提供技术支持的国际性赛事,数据集总共包含了55w训练数据(120 ...
AIM2020-ESR冠军方案解读：引入注意力模块ESA，实现高效轻量的超分网络（附代码实现）

作者丨Happy 编辑丨极市平台极市导读该文是南京大学提出的一种轻量&高效图像超分网络,它获得了AIM20-ESR竞赛的冠军.它在IMDN的基础上提出了两点改进,并引入RFANet的一种E ...
冠军方案解读｜世界人工智能创新大赛-口罩识别方向

2020年世界人工智能创新大赛菁英挑战赛已经圆满落幕,获奖名单已于前日公布,我们邀请到了口罩识别赛题的冠军来做竞赛方案解读. 首先感谢比赛方举办这个比赛,Openvino在CPU上的加速效果很明显,非 ...
冠军方案解读｜世界人工智能创新大赛-服装风格分类方向

2020年世界人工智能创新大赛菁英挑战赛已经圆满落幕,获奖名单已于前日公布,我们邀请到了服装风格分类赛题的冠军来做竞赛方案解读. 概述服装风格分类这个赛题跟其他的分类题目并没有很大的区别,本质上还是 ...
CVPR 2019 CLIC 图像压缩挑战赛冠军方案解读

导读:图像视频压缩是传统多媒体技术的核心,也是一项牵动整个多媒体信息产业的基础技术.深度学习在该领域的成功运用,已经引起了不少IT巨头的关注.图鸭科技是国内少有的专注于深度学习图像视频压缩的初创公司, ...
高通人工智能应用创新大赛冠军方案解读

作者丨宁欣编辑丨极市平台高通人工智能应用创新大赛介绍 2021高通人工智能应用创新大赛由高通技术公司.高通创投主办,极视角.小米.中科创达.CSDN共同协办,TensorFlow Lite作为开源 ...
2021国际风尚盛典·北京站网络人气冠军—蒲京京

一年一度的"2021国际风尚盛典·北京站" 在北京国际秀场圆满落下帷幕! 蒲京京, 在全国人气网络投票中,具有很高的人气呼声,最终以15万的人气值赢得2021国际风尚盛典·北京站网 ...
竞赛冠军方案：2020珠港澳人工智能算法大赛双料冠军解读

团队介绍团队来自深圳市威富视界有限公司.中国科学院半导体研究所,队长为宁欣副研究员,成员分别为石园.刘江宽.支金林.王镇.荣倩倩,排名不分先后. 珠港澳人工智能算法赛题介绍以检测和识别为核心的各项 ...