源码解析目标检测的跨界之星DETR（一）、概述与模型推断

2024-04-26 07:00:32

Date: 2020/06/27Author: CW前言：阅读了 DETR 的论文后，近期梳理了相关代码，本系列会结合源码对 DETR 进行解析，包含模型效果的简单演示、训练的 pipeline、backbone、编码、解码、loss的设计与计算、后处理、评估验证的 pipeline。CW认为，认真阅读完本系列的每篇文后，将 DETR 的实现理解透彻是OK的，但要真正地吃透，还需要朋友你亲自实践并且深入思考。本文作为系列的开篇之作，就简单一些吧，一上来就是复杂的源码分析难免有将客人拒之门外的赶脚。因此，CW在本文中会对这个模型做个简单的概述，然后基于官方给出的 notebook demo对模型推断部分的代码进行解析（注意，这个demo中模型的实现并不是 DETR 真正的实现方式，仅是个简化版）。DETR: End-to-end Object Detection with Transformers CodeOutlineI. 概述II. 模型推断概述DETR 即 DEtection TRansformer，是 Facebook AI 研究院提出的 CV 模型，主要用于目标检测，也可以用于分割任务。该模型使用 Transformer 替代了复杂的目标检测传统套路，比如 two-stage 或 one-stage、anchor-based 或 anchor-free、nms 后处理等；也没有使用一些骚里骚气的技巧，比如在使用多尺度特征融合、使用一些特殊类型的卷积（如分组卷积、可变性卷积、动态生成卷积等）来抽取特征、对特征图作不同类型的映射以将分类与回归任务解耦、甚至是数据增强，整个过程就是使用CNN提取特征后编码解码得到预测输出。可以说，整体工作很solid，虽然效果未至于 SOTA，但将炼丹者们通常认为是属于 NLP 领域的 Transformer 拿来跨界到 CV 领域使用，并且能work，这是具有重大意义的，其中的思想也值得我们学习。这种突破传统与开创时代的工作往往是深得人心的，比如 Faster R-CNN 和 YOLO，你可以看到之后的许多工作都是在它们的基础上做改进的。概括地说，DETR 将目标检测任务看作集合预测问题，对于一张图片，固定预测一定数量的物体（原作是100个，在代码中可更改），模型根据这些物体对象与图片中全局上下文的关系直接并行输出预测集，也就是 Transformer 一次性解码出图片中所有物体的预测结果，这种并行特性使得 DETR 非常高效。

DETR 框架模型推断这个demo会基于预训练权重实现一个DETR的简化版，然后对一张图片作预测，最后展示出预测效果。首先导入需要的相关库：

导入相关库然后，实现一个简化版的模型：

模型定义(i) 初始化模型主要由 backbone、transformer 以及最后形成预测输出的线性层构成，另外，还需要一个卷积层将backbone输出的特征图维度映射到transformer输入所需的维度。了解 Transformer 的朋友们应该知道，其本身是不了解输入序列中各部分的位置关系的，因此通常需要加入位置编码，此处也一样：

模型定义(i) 初始化上图中，行列编码的第一个维度都是50，代表这里默认backbone输出的特征图尺寸不超过50x50。模型的初始化方法就到此结束了，是那么得丝滑..额不对，是那么得简洁明了，接下来看看模型的前向过程：

模型定义(ii). 前向过程上图中的部分是将图片输入到backbone提取特征，然后对输出特征图维度进行转换，并且构造位置编码张量。这里位置编码张量的实现是对特征图的行、列分别进行编码后拼接起来，同时进行维度转换以适应编码器的输入。下面就是将以上部分输入到 Transformer 进行编码与解码，最后将解码的结果输入到线性层形成最终的预测结果：

模型定义(ii). 前向过程注意下，上图中对 Transformer 的输出维度顺序做了调整，因此最后得到的h的维度是(batch, 100, hidden_dim)。整个前向过程也就这样了，是不是感觉让你撸起代码来毫无压力，嘿嘿！下面是对输入图片和输出bbox的处理：

对输入输出的处理对于输出bbox，先将其由中心点坐标和宽高转换为矩形框左上角和右下角坐标的形式，同时，由于回归的是归一化后的值，因此需要根据图像尺寸转换为绝对坐标值。现在，我们定义一个方法来封装整个推断过程，从而获取预测结果：

推断过程封装这里有个点提一下，torch1.5版本中，对于tensor.max()的返回是torch.return_types.max(values=tensor(xxx), indices=tensor(xxx))，但是torch1.0中，这个方法的返回是一个tuple。选用COCO数据集的类别，总共80类，但索引是1到90。

COCO数据集类别及用于可视化的颜色参数上图中的COLORS用于画出bbox的矩形框颜色。现在我们可以实例化一个模型，由于COCO的类别索引是1到90，因此我们的num_classes参数需要设置为91：

实例化模型与预训练权重加载OK，一切准备就绪，我们现在来对一张图片进行检测：

对一张图进行检测可以看到，模型在这张图中检测到了5个物体，最后我们对这个结果进行可视化：

可视化结果最终效果如下图所示：

模型检测效果#最后CW认为，通过本文，应该可以让大家对 DETR 有个基本了解，当然同时可能也会产生出许多不解，不着急，更多的细节实现与原理会在后面的篇章中解析，待我酝酿酝酿，才香~

旷视孙剑团队提出Anchor DETR：基于Transformer的目标检测新网络

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 214篇原创内容 Official A ...
一文搞懂ArcGIS变化检测深度学习模型

本文采用总分思路:整体架构 -> 特征提取模块 -> 时空自注意力机制 -> 损失函数 . 01 - 整体架构整体架构可以通过一张图看明白: 可以看到,这是一个孪生网络,变化前后影 ...
一文看尽2020全年AI技术突破

晓查蕾师师发自凹非寺量子位报道 | 公众号 QbitAI 2020年在紧张的防疫工作中悄然过去.这一年,人工智能却从来没有停下前进的脚步. 这一年人工智能行业有哪些新进展?为全球疫情做了哪些 ...
PFLD：高精度实时人脸关键点检测算法

重磅干货,第一时间送达本文转自:AI算法与图像处理这篇文章作者分别来自天津大学.武汉大学.腾讯AI实验室.美国天普大学.该算法对在高通ARM 845处理器可达140fps:另外模型大小较小,仅2. ...
Swin-Transformer再次助力夺冠 | Kaggle第1名方案解读

在报告中介绍了two-step "detect-then-match"的视频实例分割方法.第1步对每一帧进行实例分割得到大量的instance mask proposals.第2步 ...
极市沙龙|下周六CVPR2021论文线下研讨会邀你参会！坐标深圳

随着三月的到来,春暖花开,时隔一年,极市CV开发者沙龙活动要回归啦!今年线下活动的第一站,将在深圳举行,其他城市的小伙伴不要着急,下一站说不定就在你的城市,可以在评论区留言噢. 本次极市CV开发者沙龙 ...
【Transformer】从零详细解读

本文是对B站视频"transformer从零详细解读"的笔记,视频:https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1 一.概述 TRM ...
无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理｜ICCV 2021 Oral

作者丨小马编辑丨极市平台极市导读本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态 ...
CVPR 2021 比CNN和Transformer更好的Backbone？伯克利&谷歌提出BoTNet，精度达84.7%

详细信息如下: 论文链接:https://arxiv.org/abs/2101.11605 项目链接:https://github.com/lucidrains/bottleneck-transfor ...
UP-DETR：收敛更快！精度更高！华南理工&微信开源无监督预训练目标检测模型

0 写在前面基于Transformer编码器-解码器结构的DETR达到了与Faster R-CNN类似的性能.受预训练Transformer在自然语言处理方面取得巨大成功的启发,作者提出了一种基于r ...
NeurIPS2021-《YOLOS》-ViT现在可以做目标检测任务啦！华科提出目标检测新方法YOLOS

NeurIPS2021-《YOLOS》-ViT现在可以做目标检测任务啦！华科提出目标检测新方法YOLOS
继 Swin Transformer 之后，MSRA 开源 Video Swin Transformer，在视频数据集上SOTA

详细信息如下: 论文链接:https://arxiv.org/abs/2106.13230 项目链接:https://github.com/SwinTransformer/Video-Swin-Tra ...
计算机视觉中的Transformer

作者:Cheng He 编译:ronghuaiyang 导读将Transformer应用到CV任务中现在越来越多了,这里整理了一些相关的进展给大家. Transformer结构已经在许多自然语言处理 ...
又一篇视觉Transformer综述来了！

重磅干货,第一时间送达最近 Transformer在CV领域真的'杀疯了',很多CV垂直方向出现了不少工作.其中非常有代表性就是:DETR.ViT等. CVer上周第一时间推送了:华为&北大 ...
CVPR2021 Oral | HOTR：不再需要后处理！Kakao Brain提出端到端Human-Object交互检测模型

详细信息如下: 论文链接:https://arxiv.org/abs/2104.13682 项目链接:https://github.com/kakaobrain/HOTR 导言: Human-Obje ...
2021年了，Transformer有可能替代CNN吗？未来有哪些研究方向？

Transformer 的跨界之旅,从 2020 延续到了 2021. 2020 年 5 月,Facebook AI 推出了 Detection Transformer,用于目标检测和全景分割.这是第 ...
重磅！就在刚刚，吊打一切的 YOLOv4 开源了！

Tips ◎作者系极市原创作者计划特约作者Happy 欢迎大家联系极市小编(微信ID:fengcall19)加入极市原创作者行列早上刷到YOLOv4之时,非常不敢相信这是真的! paper:http ...
ICCV 2021 | 视觉Transformer中的相对位置编码

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容 Official A ...
你需要关注的计算机视觉论文在这里！最新最全state-of-art论文，包含阅读笔记

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...
你仅需要看一个序列！YOLOS：重新思考Transformer的泛化性能

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文是华科&地平线关于Transformer的迁移学习.泛化性能方面的深度思考.重点揭示了Transformer的迁移学习能力与泛化性 ...
最全综述 | SLAM中回环检测方法

快速获得最新干货在视觉SLAM问题中,位姿的估计往往是一个递推的过程,即由上一帧位姿解算当前帧位姿,因此其中的误差便这样一帧一帧的传递下去,也就是我们所说的累积误差.一个消除误差有效的办法是进行回环 ...

源码解析目标检测的跨界之星DETR（一）、概述与模型推断

相关推荐