浙大三维视觉团队攻克3D动态人体视图合成难题
回想一下你曾经玩过的 3D 游戏:游戏场景可随鼠标前后左右任意角度移动,玩家也可获得完全沉浸式的体验感受。
与此相同,假如未来 3D 观球方式普及,你也可以用手指移动任意角度,清楚地观看球赛中的扣篮和进球。
图 | 用 4 个 RGB 相机实现自由视点(来源:受访者)
近日,浙江大学计算机辅助设计与图形学国家重点实验室的 “百人计划” 研究员、博士生导师周晓巍团队的论文,发表在计算机视觉顶会 CVPR 2021 上(IEEE Conference on Computer Vision and Pattern Recognition)。其中,周晓巍担任通讯作者,其学生彭思达为第一作者。
图 | 相关论文(来源:受访者)
研究主要成果是一款名为 Neural Body 的新型视图合成技术的实现与发展。综合来看,Neural Body 在使用时,其选取的输入视点较少,还能更好地捕捉人物的动作,高效完成 3D 立体呈像。
这也意味着,将来的某一天,使用更少的摄影机,就可为全球各地观众带来一场亲临现场般的沉浸式观球体验。
图 | 从单个视频实现人体重建与视图合成(来源:受访者)
少量角度拍摄,合成 360° 人体 3D 视图
传统的 3D 视图合成技术一般比较依赖于 3D 重建,这种技术主要有两大限制 :一个是重建质量有限,导致视觉真实感较差;另一个是没办法处理一些反光表面或者透明区域。
随着技术的推进,近年来基于神经网络实现三维场景表示与渲染的技术逐步发展,以谷歌的 2D 图像转 3D 模型 NeRF 为代表,它能较好地解决上述问题中的一部分。
图 | Neural Body 的基本概念,Neural Body 可以基于神经网络从一组隐编码生成人体在不同帧的三维影像(来源:受访者)
但是,周晓巍表示:“我们意识到,还有一个问题没有解决,那就是动态场景的视图合成。” 他说,当场景是随着时间而变化时,我们需要能够建模这种变化,NeRF 作为针对静态场景的技术对此束手无策,而这正是该团队研发 Neural Body 技术的初衷。
图 | 和其他模型的对比(来源:受访者
如果沿用静态视图合成的思路,一种方法是采用多视点的拍摄,当输入的图像角度足够多,理论上就能实现每一时刻单独去学习 3D 表示及渲染图像的目的。
但这需要大量相机对同一个人进行不同视角的拍摄,成本非常之高。“所以我们想的是怎样才能降低采集的成本,用非常稀疏的视角输入,比如三四个 RGB 相机就可以完成视图采集。今天,Neural Body 真的做到了。”周晓巍说。
图 | 隐式神经表示与结构化隐编码(来源:受访者)
概括来说,Neural Body 的贡献主要有以下几点:
- 能从稀疏的多视图视频合成动态人体的新视图,无需预先扫描人体模板;
- 提出了一种新的动态人体隐式表示,使研究人员能更有效地利用视频中所有帧的信息来学习人体的 3D 表示;
- 极大地提升了动态人体 3D 视图合成的效果。
渲染出各个视角的图像
上文提到的 NeRF 是基于一个叫辐射场(radiance field)的 3D 表示方式来完成视图合成。那么,什么是辐射场?
“你可以把辐射场理解成 3D 空间内每个点所发出光线的集合,记录了每个点的光线颜色及密度,基于辐射场就可以渲染出各个视角的图像。” 周晓巍表示。
对静态视图合成技术来说如 NeRF,当处理动态场景的时候,它需要针对不同时刻去学习不同的辐射场,而这些辐射场之间没有关联,因此学习效率很低。
图 | 视图合成技术的对比(来源:受访者)
Neural Body 与众不同的地方就在于,其假设不同时刻的辐射场都由同一组隐编码来生成,这一组隐编码附着在人体模型上,会随着人体运动。这样就可建立起不同时刻辐射场之间的联系,从而充分利用视频中所有时刻的信息,来学习人体的 3D 表示。
针对此方法,他们创建了一个多视图数据集来进行评估,该数据集使用一个有 21 个同步摄像头的多摄像头系统,共捕获 9 个动态人体视频,并选择 4 个均匀分布的摄像机进行训练,使用剩余的摄像机进行测试。
所有序列的长度都在 60 到 300 帧之间。结果表明,当人物进行复杂的运动,包括旋转、太极、手臂摆动、跳舞、拳击和踢腿等动作时,都能实现较好的重建与视图合成。
图 | 呈现各种动作的人的 3D 表示(来源:受访者)
通过对比可以发现,本次方法相比其他方法,能呈现出更多人物外观细节,特别是对于穿着宽松服装的实验者来说,Neural Body 可以精确地进行渲染,以下图女士为例,使用其他方法出来的效果图,其衣服和身体紧贴,而 Neural Body 出来的效果中,可明显看出衣服的轮廓。
图 | Neural Body 渲染的衬衫不会与人体紧密相连(来源:受访者)
未来有望大规模应用于电商直播和 VR 看房
随着 Neural Body 的不断迭代,周晓巍下一步会逐步优化技术。目前有几个地方亟待优化:
- 改进计算效率;
- 生成可驱动的人体模型;
- 实现重光照。
Neural Body 目前依赖于对人体动作的捕捉。在运动捕捉稳定性上,该团队近两年正在逐步提高。随着算法的不断迭代、以及硬件设备的改善,当 Neural Body 效率能够稳步提升到一个更高的层次后,实现商用将会指日可待。
对于未来的应用场景,周晓巍表示:“随着 3D 技术的发展,VR 产业正在迅速崛起。无论是对物品进行 360° 展示,还是体育比赛的自由视点观赛,或者说全息的沉浸式远程会议,都是 VR 将来的重要应用领域。而这些应用背后的关键技术正是视图合成。”
周晓巍认为,视图合成技术在短期内可能很快实现大规模应用领域为:电商领域、场景浏览如 VR 看房等。
从长远看,该技术的最大刚需是在“人人交互”上,如今天我们已经习以为常的语音连线和视频连线。可以想象,当 Neural Body 的技术更成熟后,开会就能以 3D 形式呈现,从而实现真正的远程零距离交流,就像坐在一起一样自然真实。
目前,该研究的相关代码已经在 GitHub 上开源,主要使用 Python 编程,少量代码使用 Shell 编程。该工作的合作者,还包括浙江大学的鲍虎军教授、张远青、帅青,香港中文大学的徐英豪,以及康奈尔大学的王倩倩。
坚定学术生涯,选择回国发展
周晓巍属于实打实的“学习他人,为我所用”,2008 年其本科毕业于浙江大学,2013 年获得香港科技大学博士学位,随后三年间,他在美国宾夕法尼亚大学 GRASP 机器人实验室从事博士后研究。