承载快速增长的数据需求，百度数据众包谋定AI新基建时代 / 开普饭

文/智能相对论（aixdlun）

作者/叶远风

AI成了新基建的C位，不论是原本就以AI立身的百度，还是纷纷在技术上加大投入以拥抱新基建的阿里、腾讯等巨头，最近都显出强化AI地位的态势。

在AI新基建浪潮下，其背后的动力和“灵魂”——AI数据行业正在快速增长。按照艾瑞咨询《2019年中国人工智能基础数据服务行业研究报告》，预计2025年市场规模将突破113亿元，其中，原本就在AI技术和应用上领先的企业在数据业务上也更为积极。

有人曾称5G是“新基建”的“基建”，是很多新基建项目的前置技术。事实上，以数据众包为代表的AI数据行业，也可以看作AI新基建的“基建”型业务，为各行各业智能化转型提供动能，加速智能经济到来。反过来，当AI新基建蓬勃兴起时，它背后的数据众包产业也面临急速膨胀的市场，这是一片门槛不算高的蓝海，但并非人人都能做得好。

多重因素推动AI数据需求进一步增长

AI从行业架构上分为基础层、技术层、平台层以及应用层。无论是算力、算法、数据都只是在基础层，海量的数据获取和加工是AI发展的基石。

我们通常看到的那些AI智能化应用，在后端首先都需要足够多、足够好的数据对计算机进行训练。

推动基础层AI数据需求进一步增长，肯定来自于更上层的“倒逼”。总体看来，新基建的大背景下，整体AI行业的高速发展驱动了AI数据需求的增长“提速”，而具体来看，又有三重因素：

1、AI应用落地时对数据的强依赖

以人脸识别为例，一般的FaceID已经为人所熟知，其原理，是通过大量数据训练，让算法可以精准为整张脸标记特征，眼睛、鼻子、嘴、颧骨……从而识别不同的人物、确定身份（图片来源：网络）：

但是，实际应用落地要想适用面更广，又会有新的麻烦。

例如，疫情期间戴上了口罩，就没办法为鼻子以下的部位做特征标记进行比对。这时候，AI数据的价值就体现出来了，更复杂、更大量的数据训练，让系统在鼻子以上部位能标记出更多、更细致的特征，半边脸就能完全区别出一个人来，甚至有科技公司开发出凭借眼部复杂特征的识别方式。

只有更高质量、更具有丰富度的数据，训练出更细致的特征标注能力，系统识别的能力才会越强。在人脸识别之外，很多AI落地应用也有类似的逻辑。

2、AI应用场景深耕，垂直领域变为数据竞逐

在AI走得更快、更远的一些场景，数据的价值更为明显。

例如，在自动驾驶领域，决定自动驾驶平稳性和安全性的，是系统对路况各种要素的识别，而它们都依赖于前期大量数据训练，给机器标注各要素、教会它识别。

标注得越精细，机器的理解能力就会越强，发生意外的可能性就越低，就像学生学习知识一样，“不知道”的东西越来越少（图片来源：网络）。

国内处在自动驾驶领先位置的百度，首先领先的就是数据，其ApolloScape数据集比Cityscapes、Kitty等同类的自动驾驶数据集大10倍以上，涵盖更复杂的环境、天气和交通状况。

可以说，在那些深耕的场景里，AI的竞逐首先甚至主要就是数据的竞逐，AI新基建的深度落地，离不开对数据的索求。

3、“AI国情”侧重于数据发展

与多数人想象不同的是，同为AI基础层，看起来十分高深的算法，其门槛已经不算高，公开渠道上，论文、开源深度学习框架、各种各样AutoML框架算法，可供获取的很多。

除了百度这样的AI巨头还需要在算法上做一些突破和引领，对多数AI参与者来说，算法已经不是遥不可及。

而正如原南开大学校长龚克所言，中国在核心算法上的优势不算明显，但中国的数据和应用场景可以领先世界。

这方面，AI数据需要的应用采集源（例如人相、交通道路图像等）、劳动力人口、需求市场，中国原本也十分有优势。在这样的“AI国情”下，AI新基建除了保证自有算法能力不被卡脖子，在已有大量落地场景的优势下，大力发展AI数据就顺利成章。

三大痛点，自建团队已并非“AI新基建”最优选择

AI数据的需求方，主要包括AI公司、科技公司、科研机构以及传统意义上的行业企业（手机、汽车、安防等），这个群体越来越庞大。

AI数据的市场供给，主要由企业自建或直接获取外包团队的形式以及供应商组成，而按照艾瑞咨询的报告，供应商模式占比高达79%。

问题在于，为什么需求方们都热衷于选择数据众包这类供应商模式来获得数据，在数据需求庞大的情况下，为什么不自建团队采集和标注数据？这主要基于三个痛点：

1、数据需求的“潮汐现象”

春运期间，铁路运力不够，平时，又大量闲置。

如果自建团队，很多AI需求方将产生与此类似的“潮汐现象”：受自身产品迭代周期的影响，在AI迭代期涌入大量数据需求，团队难以承受；在日常维护期数据需求不是很旺盛，团队又在闲置。

于是，数据供应商就成为弹性投入、增强企业适应力的必然，市场供给的主力军变成各类AI基础数据的服务提供者。

2、数据资源池不足

自建团队往往面临较为严重的数据资源池匮乏问题。举例来说，如果你是一家做与人体有关的图像识别的专业公司，或者需要这样的技术来配合主业，你可能需要寻找不同肤色、不同外形特征的人物做AI数据采集，以提升AI的“认知”能力，而对很多企业而言，除了依赖那些有限的开源数据，没有太多办法。

这方面，专门做数据业务的平台就有明显的资源聚集优势。例如，单就人物图像来说，百度数据众包的数据资源池在国内覆盖30个省份，具备汉族、少数民族采集能力；在国外覆盖22个国家，具备白人、黑人、印第安人等多人种采集能力。

3、数据输出能力的“维度差距”

数据众包平台集中大量地熟悉数据采标业务，已经得到了充足的锻炼，一些平台，例如百度数据众包还对内提供大量数据服务，自2011年起全面支持百度自动驾驶、小度助手等AI业务，它们对于外部需求，在能力上更容易应对。

这本质上体现在通用的“标准化”和专项的“定制化”区别上。AI数据有时候只需要一些标准化的泛化数据，例如道路要素标记，车、路灯、行人、斑马线、双黄线等，有些时候则需要定制化数据，例如专门针对乡村小道的识别，其中可能有野狗、野猫等更复杂的要素。

但这种标准化和定制化只是相对的，对发展往往不够充分的自建平台而言是“定制化”（意味着需要花费大量精力），到了数据众包平台那里，可能只是“标准化”的一部分，像百度数据众包的标注能力已经可以覆盖市95%以上的主要标注场景。

AI新基建对数据采标有三大要求，数据众包都满足了吗？

有庞大而快速增长的市场，也有供应商模式相对自建团队的优势，在AI新基建浪潮下，数据众包成为了一门“更好的生意”，这些年也有不断大量的玩家加入（图片来源：艾瑞咨询）：

总体而言，最早的玩家大都已经取得较明显的市场优势，例如百度数据众包已经成为在世界范围内采标能力、流程标准化/工具智能化、数据安全等方面都处于领先位置的一站式AI数据服务平台（这与中国AI领先、百度以AI为主战略也有关系），覆盖了智能驾驶、手机、互联网、AI开发者等头部客户；

而新进入者亦有冲劲，像云测数据从云测试转身到AI数据行业，对京东众智、腾讯云数据、龙猫数据等都可能形成冲击。

不过，从需求方的角度看，不论是谁，“一门更好的生意”要坐实，这三大基础要求必须满足。

1、安全：“银行级合规”

AI数据不但是AI新基建的重要驱动力，它也是企业的重要资产，它的泄露和核心算法的泄露都是知识产权的重大损失，没有根本区别。

只不过，算法可以自己蒙头在家管死，而在数据众包市场上，涉及到甲乙方原始数据交接、生产过程及成果交付，这其中存在着许多数据安全的口子。

一旦上升到新基建的高度，对很多赖以生存的需求方来说，说数据是命根子可能不为过，对数据的处理保证安全是第一位的，甚至需要“银行级合规”避免出现任何纰漏。

对巨头而言，出现安全问题就更加不能容忍，例如，百度数据众包为此在数据确权、数据加密、实名认证、生产监控等方面进行全流程管控确保数据安全（图片来源：网络）：

如果我们翻开各大平台的官网主页，即便最新进入的玩家云测数据，都能发现它们用了很大的篇幅先讲安全。

不过，安全最终还是靠“不出事故”来检验，如同云计算稳定性说得再好，不宕机才是最好的证明。

2、“产量”：前沿科技下的密集的劳动力

虽然AI是顶尖的前沿技术，但AI数据确实一个不折不扣的劳动力密集行业。AI新基建首先驱动的是对数据产量的需求，这直接反应到劳动力规模是否足够大上，毕竟，一张一张的图、一句一句的话、一段一段的语音，都需要人力一个个标记好。

这是一个直观的要求，它的实现又分自有团队和代理全职团队两个部分，例如百度数据众包宣称自有2000人团队、遍布全球22个国家的超过5万名采标人员的代理商资源池——基本上，各平台都在着力凸显自己的团队规模，庞大的劳动力群体是AI新基建的获取足够多数据的重要保障。

但是，正如工厂流水线有最优生产流程，有帮助工人更快、更好完成工作的辅助工具一样，要提高产量、提升效率，流程和工具也必不可少，标准化、工业化的生产流程、高效易用的标注工具，也是百度等数据巨头提升自我的重要着力点。只不过，这些只是起到“乘数作用”，底子还是看劳动力规模。

3、质量：“精益制造”级别的复杂管理体系

在安全、产量之外，质量是数据众包成为一门可持续生意的根本，也是AI新基建真正落地的根本，质量不达标的数据不但不能推进系统识别能力的提升，甚至可能产生误导，如同学生学习了低劣的习题集再去考试一样。

而说白了，数据众包可以看作一门以数据为产品的“制造业”，要提升质量，对应地，就要配以“精益制造”级别的复杂管理体系。

这个体系，通常包括严苛的审核体系（例如标注、审核、抽检的层层把关）、人尽其用（不能混用CV、NLP等数据人员）、固定的例会总结问题提醒改进等，此外，还有一些工业化生产流程的浓重痕迹，例如百度数据众包平台的三阶段“生产加工流程”——小流量测试跑通生产流程、正式生产不断调优、交付时最终验收审核。

可以说，AI数据对质量的要求，和精细化制造业实现更好的良品率，别无二致。

数据众包，不止于AI新基建？

由于“劳动力需求”的特殊性，数据众包在特殊的时代背景下还超出了AI新基建的价值范围。

脱离行业角度，从稳就业来看，百度山西数据标注基地人员规模已近3000人，这些都是实实在在的就业人口容纳能力，是应届毕业生、其他行业分流人员（例如在山西的某传统产业）甚至包括残障人士的一份生计。加上其他工作人员，后疫情时期，一个数据众包平台已经帮助当地实现就业。百度方面表示未来要通过山西基地的示范作用，聚拢更多数据企业，为山西本地创造超过5万个就业岗位。

甚至于，百度数据众包还打算打通数据生产，数据交易和数据应用的三个环节，做一个开放的平台，如果这个构想成功，在AI数据领域建立一个资源对接的市场，不仅是AI新基建背后的数据生态闭环问题，或还将汇聚起大量的就业机会和新的经济增长点。

我们否定AI将摧毁就业机会时，理由常常是新的技术一定会带来新的工作岗位，而AI数据产业毫无疑问就是正在发生的例证。数据众包不仅将是一门更好的生意，也是下一个时代许多人的职业去处。

*本文图片均来源于网络

此内容为【智能相对论】原创，

仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

承载快速增长的数据需求，百度数据众包谋定AI新基建时代

相关推荐