揭秘阿里巴巴神奇的人物抠图算法内幕

2024-08-04 02:18:04

电商环境中，商品的图片展示比文字展示对顾客购买有更直观的吸引力，尤其在购买衣服时。阿里巴巴的百万卖家各个都是ps大师，想必大家都领教过^_^。
传统的方法需要富有经验的设计师交互式地抠图，效率低下，阿里巴巴的视觉研究团队希望使用技术手段帮助卖家一键完成非幕布的自然场景人物抠图。

发表于ACMMM2018会议的论文《Semantic Human Mating》，揭示了阿里巴巴在这方面的数据库制作和算法设计。

论文称，这是第一个能够完全自动化精细抠图的工作。（其实前几天52CV君介绍了一篇SIGGRAPH2018的论文语义软分割也是类似算法，而且开源了，详见：SIGGRAPH2018黑科技：开源语义软分割改进图像编辑）

下图展示了抠图的应用，计算图像的alpha mate，可以方便将其与其他背景图像合成。

数学上表达这个合成的过程很简单：

F是前景即人物图像，B是背景图像。

数据库制作HUMAN MATTING DATASET
要解决这个问题，首先需要有大规模数据库，学术界研究Matting的数据库往往都很小，难以训练出较满意的结果。
这一步，某宝卖家立大功了！为科研做出了杰出贡献！
论文从某电商平台（嗯，论文中没明说）收集了188K幅由卖家手动抠出来的含有alpha mate的图像，花了1200个小时（50个24小时）从中小心翼翼选择了35311幅高质量含人物的图像，并结合DIM数据集（含有202幅前景图，与自然图像合成20200幅图像），组成了含有52511幅图像的超大规模的Human Matting Dataset。
human matting dataset数据源组成

human matting dataset与其他同类数据库的比较：

部分数据库中图像示例：

网络架构

该文使用结合语义分割的端到端的深度学习神经网络预测alpha mate。
网络结构如下：

该网络（SHM）主要分为三大部分，T-Net，M-Net，Fusion Module。
T-Net为语义分割模块，使用PSPNet,输入是原始图像，其输出结果是含有前景、背景、未知区域三种类别图像的三色图（trimap）。语义分割是一种粗略的前景提取。
注：在传统Matting的场景中，三色图trimap是由用户手动标注的，可以理解为对图像“完全正确的粗略分割”。
M-Net是细节提取和alpha mate生成网络，使用类VGG16的网络结构，其输入是原始图像和T-Net输出的三色图。
Fusion Module是对T-Net输出的三色图中前景和M-Net输出的alpha mate的加权融合模块，目的是结合语义分割和细节提取进一步提精alpha mate。

网络训练的时候，T-Net和M-Net事先单独预训练，然后整个大网络端到端训练。

实验结果
因为以往算法都需要人工交互得到的三色图trimap来比较Matting的性能，而本文算法是完全自动的。为便于比较，作者设计了两个实验。

(将alpha mate与groundtruth相比较的具体评价标准不再赘述，感兴趣的读者请阅读原论文参考文献21)
1.将T-Net生成的三色图作为传统算法的三色图输入，比较算法生成的alpha mate质量。
结果如下：

该论文的全自动的SHM算法取得了明显的优势！

2.将手动标注的三色图作为传统算法的三色图输入，比较算法生成的alpha mate质量。
结果如下：

这一轮比较中该论文的全自动的SHM算法尽管不是最好的结果，但已经取得了与有人工交互参与的最好结果相匹敌的性能。

下面是算法在测试图像上生成的结果示例图像：

作者然后进一步研究了算法中各部分对性能的影响，发现各部分均有贡献，其中“end-to-end”的训练获得最大的算法性能增益。

算法各部分输出结果可视化：

a为原图，b为T-Net生成的三色图，c为M-net输出的alpha mate值，d为最终融合模块预测的结果。

下面是SHM算法在实际自然图像中抠像并合成新背景的图像：

52CV君认为自然场景的人物抠图还是蛮有意义的，用在移动视频直播换背景等将大有可为。
这篇论文挺有价值，但更有价值的是某宝卖家给阿里贡献的这个数据集！希望官方能够提供下载就好了。

论文地址：
https://arxiv.org/abs/1809.01354v1

论文下载：

【技术综述】闲聊图像分割这件事儿

言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号:Longlongtogo) 编辑 | 言有三最近遇到很多人问我图像分割技术发展怎么样了,落地了吗?有三只 ...
找了好久，终于发现一款好用到炸的「图像分割」神器！

加个"星标",每天下午18:03,一起学技术自动驾驶近些年简直火炸了天,小编大胆的预测这个拥有2021CVPR自动驾驶场景理解赛道冠军算法的项目马上要火爆业界! 而这个项目的St ...
CV之Image Caption：Image Caption算法的相关论文、设计思路、关键步骤相关配图之详细攻略

CV之Image Caption:Image Caption算法的相关论文.设计思路.关键步骤相关配图之详细攻略 IC算法的相关论文 1.<Show and Tell: A Neural Ima ...
人脸识别的可解释性

作者丨孙裕道编辑丨极市平台极市导读人脸识别的可解释性是深度学习领域中的一个很大挑战,当前的方法通常缺乏网络比较和量化可解释结果的真相.本文作者定义了一种新的评估方案,称为"修复游戏&q ...
Dataset之Pascal：Pascal竞赛及其Pascal VOC(VOC 2012、VOC 2007) 数据集的简介、下载、使用方法详细攻略

Dataset之Pascal VOC:Pascal VOC(VOC 2012.VOC 2007) 数据集的简介.下载.使用方法详细攻略Pascal 竞赛 PASCAL:pattern analysis ...
完美抠图王冰冰！字节实习生开发的AI，实现4K60帧视频实时抠图，连头发丝都根根分明

看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片? No.No.No 这其实是AI拿来视频实时抠图后的效果. 没想到吧,实时视频抠图,现在能精细到每一根发丝. 换到alpha通道再看一眼,不 ...
DL之PSPNet：PSPNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之PSPNet:PSPNet算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略相关文章DL之PSPNet:PSPNet算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略DL ...
DL之RefineNet：RefineNet和Light-Weight RefineNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之RefineNet:RefineNet和Light-Weight RefineNet算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略相关文章DL之RefineNet:RefineN ...
超全的人脸识别数据集汇总，附打包下载

加入极市专业CV交流群,与10000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注极市平台公 ...
最新开源LiDAR数据集LSOOD：四种常见的室外物体分类

标题:最新开源LiDAR数据集LSOOD:四种常见的室外物体分类作者:Y Tian 来源:https://github.com/Tian-Yifei/LSOOD-LiDAR-Scanning-Out ...
2021CVPR顶会冠军带你解密图像分割

最近全球各大新势力造车公司简直不能再火!看着蹭蹭飙升的股价实在是眼红的不要不要的.而懂行的人都知道,以特斯拉为首,各大公司都采用计算机视觉作为自动驾驶的技术底座,而其中正是通过图像分割技术,汽车才能分 ...
揭晓高速公路场景下计算机视觉与交通的秘密

高速公路场景基于计算机视觉的车辆检测和流量统计 1.文章信息 <Vision-based vehicle detection and counting system using deep lea ...
深度学习常用的训练数据集介绍以及下载

前言:数据是深度学习的血液,本文介绍一下当前非常常见的一些数据集. 1 ImageNet ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库.是美国斯坦福的计算机科学家李飞 ...
收藏 | 机器学习数据集汇总收集

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
ML之LassoR&RidgeR：基于datasets糖尿病数据集利用LassoR和RidgeR算法(alpha调参)进行(9→1)回归预测

ML之LassoR&RidgeR:基于datasets糖尿病数据集利用LassoR和RidgeR算法(alpha调参)进行(9→1)回归预测相关文章 ML之LassoR&RidgeR ...
DL之Xception：Xception算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之Xception:Xception算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略相关文章 DL之Xception:Xception算法的简介(论文介绍).架构详解.案例应用等配 ...
Dataset：数据集集合(CV方向数据集)——常见的计算机视觉图像数据集大集合包括表面缺陷检测数据集(建议收藏，持续更新)

Dataset:数据集集合(CV方向数据集)--常见的计算机视觉图像数据集大集合包括表面缺陷检测数据集(建议收藏,持续更新) 相关文章 Dataset:数据集集合(CV方向数据集)--常见的计算机视觉 ...
Dataset之CamVid：CamVid数据集的简介、下载、使用方法之详细攻略

Dataset之CamVid:CamVid数据集的简介.下载.使用方法之详细攻略 CamVid数据集的简介 Cambridge-driving Labeled Video Database (CamV ...
【知识星球】几个人像分割数据集简介和下载

欢迎大家来到<知识星球>专栏,今天给大家介绍一下人像分割相关的几个数据集,并提供下载. 作者&编辑 | 言有三有三AI知识星球的"数据集"板块中已经提供了非常 ...
字节跳动开源最新 GAN 压缩算法，算力消耗可减少至 1/46

8月27日消息,字节跳动近期开源了一项代号为OMGD的压缩技术.这是字节自研的GAN(生成对抗网络)压缩算法,在保证生成效果不变的前提下,算力消耗最低可以减少到原来的1/46,相比之前业界的最佳压缩效 ...

揭秘阿里巴巴神奇的人物抠图算法内幕

相关推荐