PANDA(gigaPixel-level humAN centric video Dataset)是清华大学团队构建的国际上首个动态大场景多对象数据平台,场景平均覆盖平方千米级范围,可同时观测数千人,百米外人脸清晰可识别,视频帧分辨率近10亿像素。给定静态PANDA图像,参赛者需要检测两种类型的对象:行人和车辆。对于每个行人,需要提交三种检测结果框:可见范围位置框、全身范围位置框、头部范围位置框。对于每辆车,需要提交一个可见范围位置框。
在评价结果时,会忽略一些特殊情况(如反射或阴影区域、人与车极为拥挤的区域、严重遮挡区域)。
更多介绍:
50万奖金,10亿像素,这个目标检测与跟踪可不简单
报名链接:
https://tianchi.aliyun.com/s/be6691073b92dc4f2c2f230db97af7f5
类别ID
|
类别
|
1
|
人可见部分(visible body)
|
2
|
全身(full body)
|
3
|
人头(head)
|
4
|
车辆可见部分(visible car)
|
注:"small car" 、 "midsize car" 、 "large car" 、 "bicycle" 、 "motorcycle" 、 "tricycle" 、 "electric car" 、 "baby carriage" 8类统一合并为visible car类别。
类别属性
|
类别
|
人
|
fake person、ignore、crowd
|
车
|
vehicles、unsure
|
该赛题属于典型的目标检测问题,但由于原图分辨率近10亿,直接训练是不可取的。因为当下主流机器的显存根本不支持该大小原图训练,若对原图缩放,则本来属于大目标的物体(area>96*96),也可能变成小目标,甚至丢失像素信息,而原本的小目标更将不复存在。
PANDA-Image由555张静态十亿像素图片组成,总共包含21个不同的场景。赛题组提供390张图片用于训练,训练数据分布在其中的13个场景。统计类别宽高分布和数量直方图如下:
可以得出结论:虽然类别种类较少,图片数量不多,但每张图上的目标数量非常密集,单图最多包含2098个目标。并且由于场景平均覆盖平方千米级范围,类内的尺度分布跨度大,类间的尺度分布也差异明显。
类别ID
|
最大尺度
|
最小尺度
|
1
|
(1648.31, 6518.8)
|
(7.64, 13.57)
|
2
|
(3926.57, 5068.1)
|
(6.94, 28.94)
|
3
|
(1396.35, 989.95)
|
(3.64, 3.45)
|
4
|
(11541.06, 5068.63)
|
(3.3, 1.65)
|
类别ID
|
小、中、大目标数(32*32,96*96界定)
|
1
|
[796, 17319, 64414]
|
2
|
[274, 12933, 69322]
|
3
|
[26241, 43908, 12380]
|
4
|
[166, 2454, 17441]
|
通过上述两表可知,类别1,2,4集中在中大目标,类别3则大中小目标分布相对均匀。每个类别最小与最大尺度跨度惊人。1)选取目标检测模型。这里选用cascade rcnn r50作为base模型,加入FPN和DCN增强对目标尺度变化的感知。2)训练。原图近十亿像素,直接训练是不可取的,故需要对原图进行裁剪。裁剪分为离线裁剪和在线裁剪两种方式,笔者均有尝试。i. 离线裁剪。对原图按指定宽高,步长的窗口从左向右,自上而下依次滑动切片,overlap一般控制在0.1-0.5之间。切片过程中有些目标GT会被窗口切分,计算目标与窗口的iof,保留大于0.5iof的目标GT,并将GT限定在窗口内。ii. 在线裁剪。在训练时读取图片resize前进行该操作:选取当前图片中任意目标GT,在其GT附近随机位置选取指定大小窗口(包含选取目标GT)进行裁剪。同样地,若窗口切分到其他目标,保留大于0.5iof的目标GT,并限定在窗口内。若当前选取目标大于指定窗口大小,则将该目标裁剪限定在该窗口大小内。3)测试。测试时将原图以训练时指定大小,步长的窗口滑动切片,对切片进行预测,映射回原图时,使用NMS对重叠区域的目标重复预测情况进行抑制。baseline代码(score47,AP42,排名Top20):https://tianchi.aliyun.com/forum/postDetail?postId=1905551)本次赛制存在一定难度,笔者认为主办方希望模型在保证精度和新场景泛化性的基础上,又严格控制单张图片预测的时间,故参赛选手需要在精度和速度上做一个权衡。2)离线裁剪与在线裁剪均有效,但在线裁剪更为便捷和轻巧。3)裁剪窗口大小需要根据类别大小分布进行合理选择并不断尝试。4)从速度上考虑应该是使用多个指定大小窗口进行裁剪并多尺度统一训练,从精度上考虑应该是每个类别根据自身尺度变化范围单独训练专家模型。5)评价指标是AP(0.5:0.05:0.95),说明对边框回归的精准性要求更高。可尝试与IoU相关Loss或其他边框坐标注意力机制。6)数据不够干净,边框标注存在歧义,少数类别标错,故可对数据标签进行清洗。微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net
在看,让更多人看到