DL之YoloV2:Yolo V2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之YoloV2:Yolo V2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略


相关文章
CV:人工智能之计算机视觉方向的简介(常用数据集+CV职位)、传统方法对比CNN类算法、计算机视觉八大应用(知识导图+经典案例)之详细攻略
CV之OD:计算机视觉之目标检测(Object Detection)方向的简介、使用方法、案例应用之详细攻略
CV之OD:计算机视觉之目标检测(Object Detection)方向的思维导图、单阶段和两步阶段经典算法演化之详细攻略
DL之Yolo:Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
DL之YoloV2:Yolo V2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
DL之YoloV2:Yolo V2算法的架构详解
DL之YoloV3:Yolo V3算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

Yolo V2算法的简介(论文介绍)

摘要
        We introduce YOLO9000, a state-of-the-art, real-time object detection system that can detect over 9000 object categories. First we propose various improvements to the YOLO detection method, both novel and drawn from prior work. The improved model, YOLOv2, is state-of-the-art on standard detection tasks like PASCAL VOC and COCO. At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster RCNN with ResNet and SSD while still running significantly faster. Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don't have labelled detection data. We validate our approach on the ImageNet detection task. YOLO9000 gets 19.7 mAP on the ImageNet detection validation set despite only having detection data for 44 of the 200 classes. On the 156 classes not in COCO, YOLO9000 gets 16.0 mAP. But YOLO can detect more than just 200 classes; it predicts detections for more than 9000 different object categories. And it still runs in real-time.
        我们介绍了YOLO9000,一个最先进的实时对象检测系统,可以检测超过9000个对象类别。首先,我们提出了对YOLO检测方法的各种改进,既新颖又借鉴了前人的工作。改进后的YOLOv2模型在PASCAL VOC和COCO等标准检测任务上是最先进的。在67 FPS情况下,YOLOv2在VOC 2007上获得76.8 mAP。在40帧每秒的速度下,YOLOv2获得了78.6张mAP,性能超过了最先进的方法,比如使用ResNet和SSD的更快的RCNN,同时仍然运行得非常快。最后提出了一种联合训练目标检测与分类的方法。利用该方法,我们同时对YOLO9000进行了COCO检测数据集和ImageNet分类数据集的训练。我们的联合训练允许YOLO9000预测没有标记检测数据的对象类的检测。我们在ImageNet检测任务上验证了我们的方法。YOLO9000在ImageNet检测验证集上获得19.7 mAP,尽管在200个类中只有44个类的检测数据。在未使用COCO的156个类中,YOLO9000得到了16.0 mAP。但是YOLO可以检测超过200个类;它预测了超过9000种不同对象类别的探测。它仍然是实时运行的。
Conclusion  
        We introduce YOLOv2 and YOLO9000, real-time detection  systems. YOLOv2 is state-of-the-art and faster  than other detection systems across a variety of detection  datasets. Furthermore, it can be run at a variety of image  sizes to provide a smooth tradeoff between speed and accuracy.  
        我们介绍了YOLOv2和YOLO9000,实时检测系统。YOLOv2是最先进的,比其他检测系统更快地通过各种检测数据集。此外,它可以运行在各种图像大小,以提供速度和精度之间的平稳权衡。
        YOLO9000 is a real-time framework for detection more  than 9000 object categories by jointly optimizing detection  and classification. We use WordTree to combine data from  various sources and our joint optimization technique to train  simultaneously on ImageNet and COCO. YOLO9000 is a  strong step towards closing the dataset size gap between detection  and classification.  
        YOLO9000是通过联合优化检测和分类,实现对9000多个目标类别进行检测的实时框架。我们使用WordTree来组合来自不同来源的数据,并使用我们的联合优化技术在ImageNet和COCO上同时进行训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步。
        Many of our techniques generalize outside of object detection.  Our WordTree representation of ImageNet offers a  richer, more detailed output space for image classification.  Dataset combination using hierarchical classification would  be useful in the classification and segmentation domains.  Training techniques like multi-scale training could provide  benefit across a variety of visual tasks.  
        我们的许多技术可以推广到对象检测之外。ImageNet的WordTree表示为图像分类提供了更丰富、更详细的输出空间。在分类和分割领域,采用层次分类的数据集组合方法是非常有用的。像多尺度训练这样的训练技术可以为各种视觉任务提供好处。
        For future work we hope to use similar techniques for  weakly supervised image segmentation. We also plan to  improve our detection results using more powerful matching  strategies for assigning weak labels to classification data  during training. Computer vision is blessed with an enormous  amount of labelled data. We will continue looking  for ways to bring different sources and structures of data together to make stronger models of the visual world.
        在未来的工作中,我们希望使用类似的技术来进行弱监督图像分割。我们还计划在训练中使用更强大的匹配策略来为分类数据分配弱标签,从而提高检测结果。计算机视觉拥有大量的标记数据。我们将继续寻找将不同的数据源和数据结构结合在一起的方法,从而构建更强大的可视化世界模型。

论文
Joseph Redmon , Ali Farhadi.
YOLO9000: Better, Faster, Stronger. CVPR 2017 (Best Paper Honorable Mention)
https://arxiv.org/abs/1612.08242

1、YOLOV2的特点、改进、优缺点

1、YOLOV2的特点

  • YOLOv2是YOLO的第二个版本,其目标是在提高速度的同时显著提高准确度。
  • 与基于proposal的检测器相比,YOLOv1定位误差更高,并且召回率(测量所有目标的定位有多好)更低。
  • SSD是YOLOv1的强大竞争对手,它在某一方面表现出更高的实时处理精度。

2、YOLOV2的改进处

  • YOLO v2: 使用一系列的方法对YOLO v1进行了改进,在保持原有速度的同时提升准确度。
  • YOLO9000: 提出了一种目标分类与检测的联合训练方法,通过WordTree来混合检测数据集与识别数据集之中的数据,同时在COCO和ImageNet数据集中进行训练得到YOLO9000,实现9000多种目标的实时检测。

2、实验结果

1、VOC2007数据集

Here is the accuracy improvements after applying the techniques discussed so far:
      注:anchor机制只是试验性在YOLOv2上尝试,一旦有了dimension priors就把anchor抛弃了。最后达到78.6mAP的模型上也没用anchor boxes。

Accuracy comparison for different detectors:

3、不同算法性能(mAP)比较

1、Accuracy comparison for different detectors

Yolo V2算法的架构详解

后期更新……

Yolo V2算法的案例应用

后期更新……

(0)

相关推荐