SBNet:基于自然语言的车辆搜索的细分网络
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
基于自然语言的车辆检索是一项基于自然语言描述作为查询在给定图像中找到目标车辆的任务。这项技术可以应用于各个领域,包括警察搜索可疑车辆。然而,由于语言描述的模糊性和多模态数据处理的困难,它具有挑战性。为了解决这个问题,作者提出了一个深度神经网络,称为SBNet,执行基于自然语言的分割车辆检索。作者还提出了两个特定于任务的模块来提高性能:替换模块,帮助不同领域的特性嵌入到同一空间,以及未来预测模块,学习时间信息。snet使用CityFlow-NL数据集进行训练,该数据集包含2498条车辆轨迹,每个轨迹有三个独特的自然语言描述,并测试了530条独特的车辆轨迹及其对应的查询集。在2021年人工智能城市挑战赛中,SBNet在基于自然语言的车辆跟踪跟踪方面取得了显著改善。
代码链接:https://github.com/lsrock1/nlp_search
提出的SBNet输出示例。通过自然语言和图像,它在图像中找到相应的区域,并在该区域显示高激活。左边一列是自然语言描述,中间一列是模型的输出激活掩码,右边一列是输入图像。
在本工作中,CityFlow-NL数据集[4]被用作基准测试数据集。根据作者的观察,该任务的主要问题是多模态问答和关系推理。任务可以假设为回答一个视觉问题,其中的答案是“是”或“不是”。作者采用注意机制来处理多模态数据集和中提出的信道调制方法。除了这个模块之外,作者还提出了未来预测和替换模块来提高性能。未来预测模块用于嵌入车辆运动信息,替代模块用于描述同一嵌入空间中两种不同类型的域数据。上图说明了作者的模型在给定图像和NL描述集合下的激活结果。作者的贡献总结如下。
作者提出了一种新的基于细分的网络模型SBNet来执行基于nl的车辆检索。
作者引入两个特定的模块来提高性能:未来预测模块和替代模块。
作者提出的SBNet在没有后处理的情况下优于当前的基线模型。
框架结构
SBNet的总体架构。
实验结果
每个NL描述的五个最高匹配图像的例子。左边是NL描述,右边是根据匹配概率对图像进行降序排序。
2021年人工智能城市挑战赛第五跑道排行榜
结论
为了解决基于nl的车辆检索任务,作者提出了一种基于分段的网络模型,称为SBNet。它由IPM、NLM和多模态模块组成,可以同时处理NL描述和图像。作者还引入了替换模块和未来预测模块,提高了性能。通过每个模块的输出计算描述与图像的匹配概率。在2021年人工智能城市挑战赛中,作者在基于自然语言的车辆跟踪跟踪中取得了显著进步,排名第十。
论文链接:https://arxiv.org/pdf/2104.11589.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。