EfficientDet:COCO 51.0 mAP!谷歌大脑提出目标检测新标杆


昨天谷歌大脑团队发布了论文 EfficientDet: Scalable and Efficient Object Detection ,通过改进 FPN 中多尺度特征融合的结构和借鉴 EfficientNet 模型缩放方法,提出了一种模型可缩放且高效的目标检测算法 EfficientDet。

其高精度版本 EfficientDet-D7 仅有 52M 的参数量和326B FLOPS ,在COCO数据集上实现了目前已公布论文中的最高精度 :51.0 mAP!相比于之前的最好算法,它的参数量小 4 倍,FLOPS小9.3倍,而精度却更高(+ 0.3 % mAP)!

该文作者信息:

全部作者均来自谷歌大脑团队。

下图中陡峭的红色曲线即来自EfficientDet的 7 个模型:

从小模型低计算量模型到高精度SOTA模型,EfficientDet 搜索出来的 8 个模型一路吊打所有之前的知名算法!

主要改进点

该文一大创新点是改进了FPN中的多尺度特征融合方式,提出了加权双向特征金字塔网络BiFPN。

FPN 引入了一种自顶向下的路径,融合P3~P7的多尺度特征,下图为该文提出的BiFPN与几种FPN 改进的比较:

(b)PANet引入了自底向上的融合路径,(c)NAS-FPN则使用神经架构搜索得到不规则的特征网络拓扑结构,(d)为作者提出的另一种改进,全连接FPN,(e)为作者提出的一种简化FPN,(f)为作者最终在 EfficientDet 使用的BiFPN。

值得指出的是,作者认为FPN中各尺度的特征重要性是不同的,故在BiFPN特征融合的连接中需要加权,而权值是在训练中学习得到的。

(仔细想想其实这是很自然的,不同尺度特征肯定对目标检测贡献大小不同。)

EfficientDet 网络结构是这样的:

作者引入了 EfficientNet 中模型缩放的思想,考虑Input size、backbone Network、BiFPN侧向级联层数、Box/class 层深度作为搜索空间,通过统一的系数缩放(具体方法见原论文),得到了以下不同计算量和参数量的8个模型:

目前这些模型还未公布,不过作者称将开源。

实验结果

作者使用得到的 8 个模型配置,在COCO上训练并测试的结果如下:

AA代表AutoAugmentation。

EfficientDet 在与精度相当的算法相比较时,参数量小 4 到 8 倍,FLOPS小 9.7 到 28 倍,GPU下加速 1.4 到 3.2 倍,CPU下加速 3.4 到 8.1 倍。

而且 EfficientDet-D7 取得了COCO数据集上的精度新高。

与SOTA方法比较,模型Size明显更小:

GPU计算延迟比较结果(GPU 为 Titan-V):

CPU计算延迟比较结果(单线程的 Xeon CPU):

总之,通过改进FPN多尺度融合方法和模型缩放,该文的结果非常吸引人,是最近目标检测领域的新标杆,作者称代码将开源。

论文地址:

https://arxiv.org/pdf/1911.09070.pdf

(0)

相关推荐