H-Net:基于无监督注意的立体深度估计
重磅干货,第一时间送达

小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。


摘要
基于立体图像对的深度估计已经成为计算机视觉中探索最多的应用之一,以往的方法大多依赖于完全监督学习设置。然而,由于难以获得准确和可伸缩的地面真实数据,训练全监督方法是具有挑战性的。作为替代方案,自我监督的方法正变得越来越流行,以减轻这一挑战。在本文中,作者介绍了H-Net,一个深度学习框架,用于无监督立体深度估计,利用极面几何来改进立体匹配。第一次,一个暹罗自编码器体系结构用于深度估计,允许相互信息之间的校正立体图像被提取。为了加强对偶注意约束,设计了对偶注意机制,该机制在学习对偶信息时,更加注重同对偶线上特征的对应关系。通过在注意机制中加入语义信息,立体匹配进一步增强。更具体地说,最优传输算法用于抑制注意和消除在两个摄像机中不可见的区域的异常值。在KITTI2015和Cityscapes上进行的大量实验表明,作者的方法在缩小与完全监督方法的差距的同时,优于目前最先进的无监督立体深度估计方法。

在本文中,作者按照无监督学习设置,并引入了H-Net,一种新的端到端可训练网络,用于给定校正立体图像对的深度估计。所提出的H-Net有效地融合了立体对中的信息,并将极面几何与基于学习的深度估计方法相结合。综上所述,作者在本文中的主要贡献是:
作者设计了一种连体码-连体译码网络结构,融合了立体图像对中的互补信息,增强了它们之间的通信。据作者所知,这是第一次将该体系结构用于深度估计。
作者提出了一种双向极注意模块来加强特征匹配的极注意约束,并强调了在校正立体图像对中沿同一极线的特征之间的强关系。
作者通过使用最优传输算法加入新的时尚语义信息并过滤出离群特征对应,进一步增强了所提注意模块。

框架结构

H-Net架构。

基于最优传输的互极注意(OT-MEA)块将OT检索合并到MEA模块中

实验结果

KITTI Eigen分裂的定性结果。深度预测均为左输入图像。作者在最后一行的H-Net生成了具有更多细节的深度地图,并且能够更好地区分一个对象中的不同部分,如建筑,路边行人,灌木丛和树木

Cityscapes数据集的定性结果。作者的H-Net生成非常接近的预测与地面的真相。

结论
在本文中,作者提出了一种新的网络,H-Net,自监督深度估计,实现了最先进的深度预测。通过设计Siamese编码器Siamese解码器体系结构,利用互极关注,制定最优传输问题,有效地探索和融合了立体图像对之间的全局距离对应和满足极面约束的强相关特征对应。作者展示了这如何使公共数据集的整体性能受益,以及它们如何一起给评估措施带来了巨大的改进,表明该模型有效地解决了其他自监督深度估计方法的局限性,并缩小了监督方法的差距。
论文链接:https://arxiv.org/pdf/2104.11288.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。