性能提升趋饱和，图像复原研究遇瓶颈？左旺孟：仍大有可为｜极市学者专访

2024-06-24 12:56:11

极市学者专访｜第二期

“听大牛说说计算机视觉那些事儿”

本次专访，我们邀请到了哈尔滨工业大学计算机学院左旺孟教授，与我们分享计算机视觉学术研究的经历经验，科研学习的心得感悟，并共同探讨了计算机视觉图像复原、图像生成等领域的未来发展动向。

问题摘录

// 如果想学好计算机视觉，需要具备哪些素质？

读研和读博，有哪些需要思考的重要问题？//

// 如何拓宽研究面，并取得好的研究成果？

自EDSR到今年的RFANet，图像超分的PSNR指标提升仅为0.2dB。是否意味着图像超分已经达到饱和？是否还继续往下研究的必要性？//

// 自监督学习是一个有前景的发展方向，如果自监督学习和图像处理领域相结合，会解决哪些图像处理难题？

学者介绍

左旺孟

哈尔滨工业大学计算机学院教授、博士生导师。主要关注迁移学习和无监督学习及其在底层视觉、图像生成、视觉跟踪、物体检测和图像分类等领域的应用。在CVPR/ICCV/ECCV等顶级会议和T-PAMI/IJCV和IEEE Trans.等顶级期刊上发表论文100余篇。

计算机视觉学术研究之道

Topic1. 解决计算机问题之道

您印象最深的一段研究经历是什么？

在研究过程中，如何解决出现的难点？收获了怎样的成果？

左旺孟：在2015年，我们曾考虑做一个深度图像压缩方面的工作。由于深度图像压缩会涉及到特征的量化，导致反向传播的梯度要么是零，要么是无穷。当时觉得可以针对这个问题做一些工作。然而，直到2016年底，推特和NYU的两个新工作相继发表，我们才意识到，不但特征量化会导致梯度不能反向传播，实际上图像压缩中熵编码约束往往也需要在离散空间下计算。因而我们提出了一个显著性图模型，并结合二值化神经网络，针对熵编码束和特征量化分别进行松弛处理，为深度图像压缩网络的学习提供了一种新的思路。

现在再回顾这个工作，我们从2015年开始做，2016年底重新调整研究方案，2017年ICCV没中，一直到2018年CVPR才发表。虽然经历比较漫长，但印象和体会也更深些：有时候，虽然我们最初会选择从某个角度切入来做研究，但在做的过程中，往往会遇到意想不到的困难。而这些困难，反而是大家可以自己去思考、去分析和去解决的部分。与此同时，当本领域或者相关领域的研究取得新进展的时候，这往往也是一个比较好的契机——可以将之与自己之前思考连接起来。

Topic2. 成为优秀的计算机视觉学者

在本科、硕士两个阶段您修读的专业是材料学，是什么让您在博士阶段选择了计算机应用技术这一专业？

左旺孟：其实这个选择其实挺偶然的。当时有一个朋友从材料学转到了计算机专业，他建议我也转过来，然后我就稀里糊涂跟着转到了计算机学院。

但如果回头看的话，现在觉得计算机视觉可能还挺适合我的。因为这个领域个人发挥的余地相对比较大。不过随着数据量和算力的增加，大家的协作也越来越重要，但对个人能力还是会相对重视得多一些。

如果想学好计算机视觉，

需要具备哪些素质？

左旺孟：首先是要有一定的代码能力，起码要能对当下深度学习的框架有基本了解。在此基础上，还需要有数学相关的基础知识，比如矩阵分析、概率论、优化等。在这几点都能满足的情况下，要多看论文、多写代码。有了一定的技术基础后，原则上就可以尝试开展一些研究工作。另外，在做的过程中，要特别注意工作的创新性和严谨性的结合。有的学生可能想法很多，但不太擅于完整和严格地完成自己的想法，可能就会提醒他们一定要注意在切实可行的基础上去体现自己的开创性。但也有部分学生，数学基础和代码能力很强，却不太愿意主动思考，可能就要更注重创新能力的锻炼。

Topic3. 打造优秀计算机视觉研究团队

如何拓宽研究面，

并取得好的研究成果？

左旺孟：我倒是不觉得自己的研究面很宽，但可能会比较注意方法层面和应用层面之间的关联性。有时候方法层面想通了，就会思考这个方法在应用层面有哪些应用。如能在方法层面做到举一反三，就能更快地从一个任务迁移至另外一个任务。因此，有时候表面上看我们做了几个工作，但实际上我们关注和思考的其实只不过是方法层面上的一个点而已。

导致研究面有点宽的另一个原因可能是我会尊重学生的选择。虽然一般情况下希望学生做我比较熟悉的领域，但如果他们对某个方向特别感兴趣，并且学生也愿意自己去承担一定风险的话，我也会支持他们。这样的话，随着学生对这个方向越来越熟悉，我也会被慢慢地带入进去，逐渐也能从个人的角度出发给一些建议。

此外，在计算机视觉领域里，单独做一个方向往往比较难真正得到实际应用。如果想真正解决一个实际问题，也往往需要多了解几个方向。

读研和读博，

有哪些需要思考的重要问题？

左旺孟：刚开始，我会希望学生去选一个我比较熟悉的主题。如果出现什么问题，我也能参与进去，并给出一些具体建议。之后，会留意学生们在研究过程中能否产生自己的想法，以及能否设计出完整的实验方案。如果这些都没问题了的话，就会给他们较大的自由度，希望他们最后都能具备独立完成一个有价值的工作的能力。

在读研和读博的过程中，可能会更看重学生能力方面的成长，希望学生们通过读研读博，在某个领域能够独当一面。在学生素质方面，早期会比较看重学生的基本功，也包括和老师同学进行交流的能力。我比较担心的是那些平时什么也不说，直到遇到特别大的困难的时候才说出来的同学。因为大的困难往往是很多小困难累积的结果，单个小的困难一般都能解决和调整，累积成大的困难就比较难追溯和解决了。

计算机视觉归根到底还是一个偏应用的学科。所以，会鼓励学生们在某个领域发现真正有价值的问题，并从中找到合适的解决方案，尽可能锻炼将理论方法研究与现实问题进行结合的能力，通过理论方法研究推动现实问题的解决。

学术团队与工业团队之间

应该怎样合作？

左旺孟：我们做的还是比较偏研究一些，虽然也会配合公司去做些工作，但是真正的转化还是由公司完成的。现在工业界研发能力都很强，高校可能还是要以学生的成长为主，并在模型和方法层面做一些对研究和应用都有价值的工作。

另一方面，我们也愿意跟工业界多沟通交流。当计算机视觉发展比较迅猛的时候，大家都比较容易做出有价值的工作。但是当深度学习这波红利过了之后，问题可能就变成谁做的更“实”，谁能具体深入到场景和应用领域了。因此，如果多跟工业界保持交流沟通的话，也许会有助于发现在研究上值得继续关注的问题。

计算机视觉与图像处理的未来动向

Topic1. 图像复原、图像生成领域的未来发展

近期，大家对图像复原、图像生成等领域的关注度似乎有些下降，您对此有什么看法？

左旺孟：底层视觉和图像生成还是目前计算机视觉领域关注度比较高的方向。不过有些领域的关注度似乎有所下降。一个可能的原因是深度网络设计的红利正在变少。之前借助于网络结构的进步，许多问题的性能都能得到比较大的提升。但现在看来，以图像超分辨为例，去年最好的结果跟今年最好的结果相比，可能提升都只在零点几个dB以内。从这个角度来看，大家会觉得这个领域的发展似乎慢下来了。然而，图像复原在应用层面上还有很多问题没有解决。此外，现在很多研究都还是基于合成数据的，针对真实数据，很多问题解决得都还不是太好。

此外，图像复原和图像生成领域的发展和其他方向也有较大的相关性。在生成式对抗网络发展比较快的时候，就出现了许多基于生成式对抗网络的图像复原和图像生成方法。这几年自监督和网络架构搜索等方法进展较快，其中的不少成果也应该能对图像生成和图像复原的发展起到了一定的推动作用。

另外，图像复原受成像方式和传感器的影响很大。过去大家对图像复原方法的研究，都基于CMOS成像方式。但这几年出现的event相机和单光子成像等新的成像方式，也都会促进图像复原和图像生成的发展和进步。另外，从今年CVPR的投稿来看，图像复原和图像生成还是比较热门的研究方向。

总之，未来计算机视觉与图像处理在更实用和更具体的道路上应该还可以走得更远。

自EDSR到今年的RFANet，图像超分的PSNR指标提升仅为0.2dB。是否意味着图像超分已经达到饱和？是否还继续往下研究的必要性？

左旺孟：我觉得在合成数据上的性能饱和并不是问题，真正的问题在于图像超分、图像复原的这些问题有没有真正的被解决？比如盲超分、盲去噪、盲复原、盲去模糊这些实际问题。从这种角度来说，也许是这种采用在合成数据上的量化性能指标作为评估标准的做法的意义有值得商榷的地方。对图像超分辨来说，更有价值的问题可能是怎样能在真实的低分辨率图像上得到更好的超分辨图像。

不过现在也开始出现了一些解决方法，如结合具体的应用来采集低分辨率-高分辨率图像对。如果我们比较难采集到低分辨率-高分辨率图像对的话，怎么运用无监督或者自监督的方法来解决这个问题，就成了一个值得进一步深入的研究方向。比起以前，我们的确是处于一个接近能解决真实图像复原问题的时代。从这种角度来说，大部分这个方向的学者可能都不会选择在这个时候退出图像复原领域。

Topic2. 探索图像处理发展新方向

自监督学习是一个有前景的发展方向，如果自监督学习和图像处理领域相结合，会解决哪些图像处理难题？

左旺孟：现有的研究大多基于合成数据，当应用于真实数据时，性能很可能会有显著的下降。许多实际问题中虽然有许多高质量和低质量图像，但不能保证他们之间的对应性，所以就不能用监督学习的方式去训练网络。针对这个问题，大家前几年觉得生成式对抗网络可能会是一个可行的解决思路。这几年，大家又开始觉得自监督学习或许才是更好的方法。

对底层视觉问题的认识和理解或许才是解决不配对设置下深度网络学习的关键。我们今年ECCV也用自监督学习做了一个图像去噪的工作，虽然在学习方式上是自监督的，但模型设计上尽可能利用了图像和噪声的一些性质。例如，假设噪声都是随机且短程相关的，而图像则是长程相关的。总之，由于自监督没有用到数据的标注信息，如果设计得当，可能会有更强的泛化能力，也许对解决一些真实的图像复原问题会有帮助。就我个人而言，也许我们的思路在宏观上不可避免会受一些流行方法和概念的影响，但在具体研究中还是要尽可能注意一些细节和微观的东西。

结语：计算机视觉现在正处在高速向前发展时期，有无数的机遇在等待着我们，与此同时，快速更迭的技术方法又不断地鞭策着我们去创造提升、变化更新。希望这篇访谈能够为你带来一些思考和启发，能在深度学习浪潮汹涌之时，找到真正适合你的发展方向。

关于极市专访

邀请嘉宾：计算机视觉领域知名学者、业界技术大咖等

活动周期：每月1-2次

如果你身边有这样的大牛，欢迎在评论区下方留言推荐，说不定会成为下一次的极市专访嘉宾哦~

为什么图像处理如此困难

新机器视觉最前沿的机器视觉与计算机视觉技术 206篇原创内容公众号来源 | 小白学视觉常会有人问"图像处理中的开放的领域是什么?" 在图像处理/计算机视觉方面,一切仍然是一 ...
全文翻译：Deep Learning for Image Super

综述用于图像超分辨率的深度学习作者:Zhihao Wang, Jian Chen, Steven C.H. Hoi, Fellow, IEEE 论文地址:https://arxiv.org/abs/ ...
言有三新书来袭，业界首本深度学习计算摄影书籍，科技与艺术的结合

各位同学,今天有三来发布新书了,本次新书为计算机视觉与摄影的交叉方向,名为<深度学习之摄影图像处理:核心算法与案例精粹>,主题聚焦于计算摄影方向. 前言这不是笔者写的第一本书,也不是最后 ...
数字图像处理（上海交大版）

EEWORLD 电子资讯犀利解读技术干货每日更新随着近年来AI概念的大火,计算机视觉和机器视觉应用赢来了新的机遇,而与其息息相关的核心技术之一数字图像处理也得到了快速发展.数字图像处理(Dig ...
保姆级计算机视觉学习路线

因工作需要,年初花了4个月左右时间学习了机器学习.神经网络相关的知识,工作日每天大概学习4-6个小时,周末每天大概10个小时,工作中的需求应对也得心应手了. 想快速入门的话,从自己的经验看,可以先不看 ...
什么是计算机视觉？什么是机器视觉？

每天,我们睁开眼都会看见这个多彩的世界,五彩斑斓的花朵.湛蓝的天空.还有亲人熟悉的笑容,对于每一个健康人一出生便享有上天赐予的美好特权,我们可以通过眼镜感知这个世界.然而,小伙伴们知道视觉对于机器人是 ...
【杂谈】如果你想快速系统掌握计算机视觉大部分领域，学习人脸图像是唯一选择

笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧. 但笔者想说的是,如果你 ...
入门计算机视觉必知的技术有哪些？

计算机视觉(Computer Vision,CV)是一门研究如何让计算机达到人类那样"看"的学科.更准确点说,它是利用摄像机和电脑代替人眼使得计算机拥有类似于人类的那种对目标进行分 ...
湖南大学新出一项研究成果，芯片性能提升将有全新方案

长沙晚报掌上长沙5月5日讯(全媒体记者徐运源)芯片性能的提升为大家所关注.近日,湖南大学传出好消息:该校物理与微电子科学学院刘渊教授团队,通过使用范德华金属集成的方法,实现了超短沟道的垂直场效应晶体 ...
干货||训练遇瓶颈？冬训如何提升？来试试'混氧'训练！

冬训是马拉松运动员一年中最好的训练时期,也是储备有氧耐力,提高专项能力的好时机.但是由于北方地区冬季气温很低,进行太高强度的无氧训练并不是很合适(身体僵硬.不易兴奋.容易受伤). 可是,对于一些水平较 ...
IBM宣布推出2nm制程芯片：较前代性能提升45%

据外媒2021.5月6日消息,IBM宣布已推出全球首颗2nm制程芯片,新一代芯片产品较之前代7nm制程产品在输出同样性能的情况下耗电量减少75%,而在相同耗电量情况下输出性能提升45%. IBM介绍, ...
新买苹果手机,这几个设置这样打开,性能提升一半,电池更耐用

新买苹果手机,这几个设置这样打开,性能提升一半,电池更耐用
英伟达染指CPU：采用ARM架构，相比于x86架构性能提升10倍之多！|arm|芯片|x86|英伟达...

众所周知,全球芯片出现了"短缺"的现象,这也导致众多电子产品的价格有所上涨,从这儿也可以看出芯片的重要性,所以很多公司也都希望能够在芯片方面有所发展,但是毕竟这块的技术门槛还是比较 ...
一张图教你开启显卡新功能，游戏性能提升10%！

2021年初,NVIDIA发布了Resizable BAR技术.这是一项标准化的 PCI Express 接口技术,可在许多最新的 CPU 和主板平台中看见其身影.上次我们已经介绍了什么是Resiza ...
老电脑安装w10系统特别慢，关闭这些没有的功能，性能提升50%。

老电脑安装w10系统特别慢，关闭这些没有的功能，性能提升50%。
临帖遇瓶颈？

临帖是学习书法的唯一途径.书家以它为日课.以期融会贯通,自成风格:初学者更是以它为基石,以期厚积薄发,技进乎道.可在临帖过程中我们都有这样的体会,即拿到一本字帖,通过一段时间的临写之后,有时会出现停滞 ...
临帖遇瓶颈？四招教你调整好！

临帖是学习书法的唯一途径.书家以它为日课.以期融会贯通,自成风格:初学者更是以它为基石,以期厚积薄发,技进乎道.可在临帖过程中我们都有这样的体会,即拿到一本字帖,通过一段时间的临写之后,有时会出现停滞 ...

性能提升趋饱和，图像复原研究遇瓶颈？左旺孟：仍大有可为｜极市学者专访

相关推荐