深度学习

人工智能技术与咨询 4天前

本文来自《系统工程与电子技术》,作者周龙等

摘 要:针对传统雷达图像目标检测方法在海杂波及多种干扰物组成的复杂背景下目标分类识别率低、虚警率高的问题,提出将当前热点研究的深度学习方法引入到雷达图像目标检测。首先分析了目前先进的YOLOv3检测算法优点及应用到雷达图像领域的局限,并构建了海杂波环境下有干扰物的舰船目标检测数据集,数据集包含了不同背景、分辨率、目标物位置关系等条件,能够较完备地满足实际任务需要。针对该数据集包含目标稀疏、目标尺寸小的特点,首先利用K-means算法计算适合该数据集的锚点坐标;其次在YOLOv3的基础上提出改进多尺度特征融合预测算法,融合了多层特征信息并加入空间金字塔池化。通过大量对比实验,在该数据集上,所提方法相比原YOLOv3检测精度提高了6.07%。

关键词:深度学习; 雷达图像; 目标检测; YOLOv3

0 引 言

在军事侦察、目标打击领域,对雷达图像中海上舰船目标检测研究一直备受关注。由于海洋环境的复杂性,刻画海杂波特性难度大,同时,考虑海上环境下还存在各种人为干扰物,目标背景复杂,雷达回波信杂比低,都对海上目标检测带来了难度[1]。传统的雷达图像目标检测一般利用先验知识通过候选区域提取特征。经典的恒虚警检测(constant false alarm detection,CFAR)检测只对背景信息统计建模,没有考虑对目标信息的完整建模,只是利用目标成像区域的部分特征来检测,没有充分利用全局特征,漏警率较高[2];后续对CFAR算法的改进主要集中在更完备的特征利用,例如1992年ROBEY F C等人利用似然比准则构建自适应匹配滤波(adaptive matched filter,AMF)[3];2014年SHUI P L等人通过构建三维特征空间进一步提高检测精度[4];顾丹丹等提出基于积分图像的快速CFAR算法,相比同类算法提高了运算速度[5];针对高分辨率雷达图像中水面舰船目标的检测,HOU B等人提出多尺度自适应选取区域的CFAR算法,具有较好的检测效果[6]。另一类基于模式识别的目标检测方法通过某种匹配规则将训练样本与待测样本比对,例如,2012年刘宁波等人提出基于分形可变步长的最小二乘法的检测算法[7]。利用图像的多帧信息累计检测也是一种有效方法,例如,CHEN X L等人利用目标在距离域和多普勒域累计走动信息,提出基于Radon-分数阶傅里叶变换的长时间相参积累检测方法[8];陈唯实等人从信号处理的角度,基于时域特性和空域特性,针对低空非相参雷达弱小目标检测,取得了良好的表现[9-10]。传统特征提取方法常常需要考虑特定环境下信息建模或者匹配规则,但由于现代战场环境的复杂多变,干扰对抗激烈,特定的统计建模和规则匹配只适用于特定的战场环境,同时由于雷达图像成像机理复杂,目标物本身轮廓、方位、尺寸、背景干扰等的变化都会影响实际目标检测的结果,人工设定的信息建模和匹配规则难以通用,具有较大的局限。

2012年,AlexNet在ImageNet图像分类大赛中一举成名,证明了更深的卷积神经网络(convolutional neural network,CNN)具有更好的特征提取能力,远超其他传统特征提取方法[11]。此后,冠以深度学习的CNN发展如火如荼,诞生了ZFNet、VGGNet、ResNet[12-14],不断刷新记录,引领了新一代人工智能的浪潮。基于深度学习的特征提取方法以其强大的表达能力,迅速被应用在各个领域。

2014年,GIRSHICK R首次将深度学习应用于目标检测领域,提出基于候选区域的目标检测算法R-CNN[15],首先通过滑动窗口提取感兴趣区域,再利用CNN提取特征做出目标分类,相比传统算法具有明显的优势。现今,基于深度学习的目标检测技术成为这一领域的主流研究方法。从基于候选区域的R-CNN衍生出SPP-NET、Fast R-CNN、Faster R-CNN这一系列two-stage检测方法[16-18],Faster R-CNN 通过候选区域网络(region proposal network,RPN)选出感兴趣区域,接入Fast R-CNN,与其共享卷积层,在VOC数据集上检测精度达到了73%。然而这些网络无法实现start-to-start训练,检测速度慢,难以满足实时检测的要求。

2016年REDMON J提出的YOLO(You only look once)是one-stage的代表方法[19],实现了start-to-start的训练,将目标检测问题由分类问题转换为回归问题,检测速度有了质的提高,相比two-stage框架具有明显速度优势。之后,基于one-stage系列的目标检测发展出YOLOv2、SSD、DSSD、RetinaNet、YOLOv3[20-24]。最新的YOLOv3同时兼顾检测精度和速度,对于608×608分辨率的图片,在COCO数据集上检测精度达到了57.9%,检测速度达到了20 fps,满足实时检测的需求。

提出将基于one-stage的最新目标检测框架YOLOv3引入到雷达图像中的目标检测,将对YOLOv3作详细介绍并分析应用在雷达图像目标检测的局限。构建的雷达图像数据集包含的都是小目标,为了提高小目标的检测精度,改进了YOLOv3预测层,在纵向上融合多层基础特征提取网络生成的特征图,横向上在每个预测层引入空间金字塔池化。同时,在一些细节上做出改进。最后,通过进一步对比实验,验证了所提方法的可行性。

1 基于YOLOv3的雷达图像目标检测

2018年3月Redmon提出YOLOv3,是目前目标检测领域最具代表性的框架之一。YOLOv3首先通过基础特征提取网络darknet-53提取特征,得到一定尺度的特征图,同时,在输入图像上设定与特征图相同大小的grid cell,如果ground truth中某个目标的中心坐标落在哪个grid cell中,那么就由该grid cell来预测该目标,YOLOv3中每个grid cell都会预测3个bounding box,最终选择和ground truth的IOU最大的bounding box来预测该目标。YOLOv3类别预测结构如图1所示。

图1 YOLOv3类别预测结构
Fig.1 Class prediction structure of YOLOv3

最终得到边框坐标计算公式为

bx=σ(tx)+cx

(1)

by=σ(ty)+cy

(2)

bw=pwetw

(3)

bh=pheth

(4)

式中,(cx,cy)是网格的坐标偏移量;(pw,ph)是预设的anchor box的边长;最终得到边框坐标值是(bx,by,bw,bh);网络学习目标是(tx,ty,tw,th)。同时,将用于bounding box分类的Softmax函数用多个logistic分类器替代。

YOLOv3采用多尺度融合的方式做预测,分别融合了13×13、26×26、52×52大小的特征图。基础特征提取网络采用作者设计的Darknet-53,该网络借鉴残差神经网络ResNet的residual结构,同时大量使用3×3和1×1结构,使得网络层数加深,精度有了明显提升。

YOLOv3的loss函数采用均方和误差的方法整合了坐标误差、置信误差和分类误差,其数学抽象表达式为

(5)

通过引入置信误差项,将网格是否包含目标分开讨论,很好地解决了坐标误差和分类误差权值一致时训练不稳定的问题。

当前,基于深度学习的目标检测模型大都应用于光学图像,基本上在公开数据集如ImageNet、COCO、VOC做训练测试。

应用到的图像是雷达回波数据在距离多普勒域上的成像。图像包含了海杂波等背景噪声,舰船及人工干扰物相比整张图像所占像素较少,且分布稀疏,因而会对目标物检测带来影响,为了提高检测准确率,往往同时会增加虚警;距离多普勒图像中几类目标均没有明显的轮廓信息,只是集中分布的一簇亮点,特征稀少,相互难以区分,并且目标之间的距离很近,容易形成误判。雷达图像信息量相比光学图像严重不足,在成像机理、目标特性、分辨率方面差异显著,将公开的YOLOv3模型直接应用于构建的雷达图像数据集,很难获得理想的检测结果。

2 改进YOLOv3结构

2.1 数据集构建

基于深度学习的目标检测技术对数据集具有很强的依赖性,数据集是否包含具有代表性的信息对后续的训练检测直接起到决定性作用。所用数据从科研外场试验中获得,包含了不同背景条件、目标物位置关系、分辨率、不同距离下的成像,共计6万余张,能够较完备地反映真实场景。按照训练集、测试集、验证集7∶2∶1的比例划分成3组,每组图像均衡包含各种场景条件,最终得到了构建的数据集。

图2 数据集部分样本
Fig.2 Some samples of data set

如图2,图片包含的背景噪声为海杂波,需要识别的3类目标为舰船和两类干扰物。采用标签工具Yolo_mark对数据集进行标注,用Target1、Target2、Target3分别表示舰船、干扰物1、干扰物2,位置信息包括目标点的中心坐标x,y以及默认框的宽高w,h。

2.2 聚类初始化先验框

YOLOv3沿用了YOLOv2采用K-means聚类的方法初始化anchor boxes,有别于Faster R-CNN 和 SSD中采用人工设定,更加符合本身数据的特点。使用距离度量公式为

d(box,centroid)=1-IOU(box,centroid)

(6)

式中,centroid 表示聚类(xj,yj,Wi,Hi);box表示真实框(xj,yj,wj,hj),j∈{1,2,…,N},i∈{1,2,…,k};IOU(box,centroid)表示真实框和预测框的交并比。

由于anchor boxes位置不确定,只利用宽和高做计算。重新计算公式为

(7)

(8)

式中,Ni是第i个聚类中心的真实框个数。

针对所给数据集,原始YOLOv3中9个anchor boxes对于3类目标是合理的,在数量上不做改变。在该数据集上采用K-means得到的anchor boxes为(49,32)(37,61)(83,64)(57,109)(69,128)(73,170)(130,130)(156,111)(89,218),符合图像扁长的特点,验证了K-means方法的有效性。

2.3 改进多尺度特征预测结构

针对雷达图像中检测目标尺度小的特点,需要进一步加强对小目标的检测能力。在基础特征提取网络中,低层大尺度的特征图具有更高的分辨率,能刻画更准确的位置信息,但语义信息较少;高层特征图包含更丰富的语义信息,但刻画目标点的位置信息较为粗略。因此,越靠前的特征图对小目标的位置刻画越具代表性,即大尺度的特征图对应小目标,同时,更多特征图的融合能进一步提高检测精度。基于这一思想,在纵向上利用了Darknet-53产生104×104、52×52、26×26、13×13大小的特征图,按照预测层越往后,利用的特征图尺寸越大的思路,将预测层特征图进行上采样至同样大小,然后做拼接,再做下一步标准化卷积运算。

在横向的每一层预测层上,借鉴SPP-Net的思想,采用空间金字塔池化,首先将原始图像上的候选框映射到经过多尺度融合后的特征图上,映射关系为

(x,y)=(S*x′,S*y′)

(9)

式中,(x,y)表示原始图像上的坐标;(x′,y′)表示对应特征图上的坐标;S表示基础特征提取网络中所有步长的乘积。然后在映射后的区域利用不同大小的滑动窗口特征图进行最大池化。

图3为改进YOLOv3的结构框图;图4示例了加入空间金字塔池化的尺度二预测框图,在尺度不变的条件下,通过加入空间金字塔池化进一步拓宽了特征图的通道数,因而具有更强的细节特征描述能力。

图3 改进YOLOv3结构
Fig.3 Improved YOLOv3 structure

图4 改进尺度二预测结构
Fig.4 Improved scale 2 prediction structure

2.4 其他细节

学习率决定了loss下降到最优值的速度快慢,如果学习率过大,容易出现超调现象,导致函数无法收敛,甚至发散;反之,如果学习率过小,可能会导致随着迭代次数的增加loss基本不变,致使算法陷入局部最优。为保证loss稳定收敛,本文采取的策略是初始用小的学习率保证loss稳定下降,训练至loss基本不动的时候调大学习率进一步降低loss,直到loss不再下降为止,此刻,收敛到最优值。同时,开启多尺度训练,提高网络的泛化能力;ignore_thresh表示bounding box与ground true的重合度,为降低背景海杂波对目标的虚警,提高检测速度,将ignore_thresh调至0.7。

3 对比实验及结果

本文实验环境配置如表1所示。

表1 实验环境配置

Table 1 Experimental environment configuration

3.1 模型的训练

为了能够在同一标准下对比两者的实验结果,应用不同的学习率调整策略使其收敛至各自的最优值,loss下降曲线如图5所示。

图5 Loss下降曲线对比
Fig.5 Comparison of the loss decline curve

从图5可以看出,在该数据集上,YOLOv3训练波动幅度较大,loss提前收敛,在12 000 batches达到最优,loss降至0.28;相比之下,改进算法训练更加稳定,loss波动幅度小,最终在15 000 batches收敛,loss降至0.17。表明了改进算法在该数据集上具有更强的特征表达能力。

3.2 模型的测试

算法采用的衡量指标为查准率Precision、查全率Recall、交并比IOU、平均精度均值mAP,单张图片响应时间T。

部分衡量指标计算公式为

(10)

(11)

(12)

式中,TP表示被判定为正样本,事实上也是正样本;FP表示被判定为正样本,但事实上是负样本;FN表示被判定为负样本,但事实上是正样本。

给定阈值Threshold=0.25,对两组训练结果进行测试,衡量指标结果对比如表2所示。

表2 衡量指标结果对比

Table 2 Comparison of the measure results

可以看到,改进后的算法在前4项指标上具有更好的表现,尤其在mAP上具有明显优势,相比原YOLOv3在本数据集上提高了6.07%;单张图片响应时间稍慢于原算法2.36 ms,这是因为在预测层进一步做了多尺度融合,增加了算法复杂度,考虑到场景需要,在军事侦察和目标打击方面,精准识别目标具有更重要的意义,一旦目标出现误判,不管响应时间多快,对后续任务实施没有任何价值,因此,牺牲小量的响应时间换取更高的精度是有意义的。

部分测试结果对比如图6所示。

图6 部分测试结果对比
Fig.6 Comparison of some test results

如图6所示,共选取了具有代表性的6组测试结果,每组中上下图片分别表示原YOLOv3和改进方法。其中,图6(a)和图6(f)显示了改进方法具有更好的边框回归;图6(b)~图6(d) 3组显示了原YOLOv3在相对位置较远时分别出现了误判、漏判、虚警现象,改进方法很好地解决了这些问题;图6(e)显示了在目标物相对位置很近时,可以直观地看到,所提方法依然具有良好表现。

综合以上实验结果,充分说明了所提方法在该数据集上的优异性能。

3.3 进一步实验

为了体现每一步改进对结果的贡献值,在上述实验的基础上,又进行了多组对比实验,分析每一步改进的效果并作出解释。具体实验内容及结果如表3所示。

表3 进一步实验及结果

Table 3 Further experiments and results

其中,步骤1表示重新计算anchor boxes,步骤2表示预测层融合多层特征图,步骤3表示预测层加入空间金字塔池化。从表3实验结果可以看出,针对数据集重新计算锚点使平均准确率提高了1.45%,速度保持不变,这是由于符合数据集的边框更有助于边框的回归,在考虑预测层结构改进时,统一都使用重新计算的锚点;方法2说明了在预测层融合更多基础特征提取网络产生的特征图的作用,对小目标检测效果提升是非常明显的,相比方法1,mAP 提高了1.77%,响应时间T增加了0.68 ms;方法3说明了加入空间金字塔池化对结果的影响,相比方法1,mAP 提高了2.69%,响应时间T增加了1.79 ms。综合以上改进,所提方法相比原YOLOv3 mAP 提高了6.07%,响应时间T增加了2.36 ms。

4 结 论

将基于深度学习的检测方法应用到雷达图像上是目前雷达目标检测领域研究的热点方向,尝试将最新的YOLOv3检测框架应用进来,构建了距离多普勒域雷达图像数据集,改进了YOLOv3预测层结构,融合多尺度特征图,增加了空间金字塔池化。通过一系列对比实验,所提方法相比原YOLOv3在该数据集上平均检测精度提高了6.07%。

同时,改进也有其局限,网络的加深使得训练和检测速度变慢,训练得到的权重文件达到了246 MB,对于目前的硬件设备,距搭载在飞行器上应用还有一段距离,下一步工作将围绕网络的轻量化应用开展研究,在满足工程应用的基础上,权衡检测精度和速度对结果的影响,找到最优的解决方案。

(0)

相关推荐