百度NLP十年,在技术扛鼎后正在完成“产业落地”的绝对领先

当AI发展借新基建东风进一步加速后,每个垂直门类都开始表现出一边深化技术、一边广拓生态的两大特征。

最近的百度大脑语言与知识技术峰会直接表现了这一点。

一次性推出11项发布,AI技术的大规模应用进程被行业巨头加快,而正如百度CTO王海峰所言,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。” 作为AI皇冠上的明珠,NLP在一边继续进行技术深化的同时,产业落地也开始齐头并进。

如果从2010年百度成立自然语言处理部算起,NLP从技术和产业上全面布局已经走过整整十个年头。

作为AI领域发展时间最久、积累最丰厚的垂直领域,NLP正在尝试塑造出一个产业智能化从技术到应用的完整范式,对百度而言,这张AI王牌中的王牌也是时候打出手了。

01

密集发布技术成果后,NLP巨头的产业落地呈现三大特征

巨头的密集动作,直接表现出NLP这个AI排头兵在产业落地上的三大特征。

1、技术“称王”后,领头羊正在担起行业责任

过去十年,百度大脑在NLP领域积累了大量的技术成果,例如包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。

长期的数据和技术沉淀让百度NLP在国内处在了领先的位置,成为中国NLP发展的一面旗帜。而这种沉淀即便放到国际视野下,仍然可以支撑百度进入NLP头部梯队,代表中国AI在关键的语言和知识垂直领域占据重要的席位,获得行业话语权。

根据公开资料整理

在以绝对的技术“称王”后,百度同时承担起推动技术产业化落地的责任。这次推出的中文自然语言处理数据共建计划『千言』和语言与知识技术算力共享计划,是领头羊承担行业责任、推动包括友商在内的行业共同进步的体现,已经脱离竞争范畴。

以算力共享计划为例,百度准备在该计划中,面向广大开发者和研究人员开放共享百度的算力,初步投入约1亿元的资源,邀请不仅限于百度语言与知识开源开放技术用户还包括更多的中文语言与知识技术开发者、研究人员免费使用这些算力。

千言数据共建计划也有类似的资源共享属性,在这两大计划加持下,百度NLP将以整个行业的姿态共同解决发展中的技术挑战。

2、矩阵式产品推进,已成为NLP产业落地的“新常态”

细数此次百度大脑新发布或升级的几个主要产品,包括:

文心ERNIE语义理解技术与平台,面向开发者提供各种NLP开发资源和能力;

TextMind智能文档分析平台,面向企业文档的规范化;

智能创作平台,面向创作者提供的一个高集成度的内容创作平台,功能方面进行了升级;

UNIT智能对话与定制服务平台,各大厂AI都在搞的服务,百度做得最早,现在重新整合进行了一次升级;

AI同传会议解决方案,利用前沿NLP技术构建的企业翻译解决方案。

一股脑推出这些产品,表明NLP巨头在产业落地时典型的矩阵化特征。这其中既有百度原本就占据优势的业务(例如UNIT、智能创作平台)的再升级,也有根据市场需要新开发的能力,例如文心ERNIE、TextMind;

换一个角度看,这个矩阵也显示出百度NLP既能实现最底层的赋能,也能走向台前完成一线解决方案的塑造。

以AI同传会议解决方案为例,随着技术不断突破,结合产品设计,同传这个被认为是难度颇高的NLP领域已经可以实用。百度新发布AI 同传会议解决方案,让企业可以在只用一台电脑,一部手机的情况下就能快速搭建一套同传服务,参会人员可以选择属于自己的语种,同传服务成为语言转换的高效率“枢纽”。

回过头来看,也只有NLP方面有深度积累的巨头才能完成这样的产业落地矩阵构建。

3、“降落伞”规则,支撑AI技术落地走得更稳

合格率99.9%的降落伞会导致每千名士兵有一人因为产品不合格而失去生命,当军方要求生产厂家负责人自己亲身检测产品后,“难以突破的”合格率马上被提到了100%。

这个二战典故带来的“降落伞”规则在很多当代产业合作中被实践,百度NLP也是如此,很多产品或解决方案都有应用在百度庞大的互联网、科技生态中的“经历”。

例如,在百度移动生态的内容推荐及内容审核中,已经广泛存在NLP的身影,即便到了视听内容时代,百度在视频推荐方面超越行业的内容理解能力,同样有NLP的功劳。

而不止于移动生态,百度多样化业务布局中也存在NLP的印记,例如领先行业的金融信贷风控能力,或者百度最近大力推进的智慧医疗,其中涉及语义和知识也需要NLP加持。

02

破解“既要-又要”难题,语言与知识领域的AI已经完成三大挑战

NLP产业应用往往面临“既要-又要”的表面矛盾,而所谓的产业落地,某种程度上就是破解这些“无法兼得”矛盾的过程。

这从百度NLP的产品或解决方案中可见一斑。

1、既要通用性的便利,又要定制化的深度

一方面,由于通用性,产业开发者可以基于共有的方案快速实现产品或解决方案的部署及上线;另一方面,随着产业智能化走向深度,不同产业客户往往都开始追求属于自己独特的定制化能力。

这种通用性和定制化的矛盾,随着产业对AI追求深化将越来越明显。

可以看到,百度NLP此次的动作,越来越贴合“鱼和熊掌兼得”的现实需要。以语义理解技术与平台文心ERNIE为例,一站式能力即能够实现解决方案的快速部署适配,也能够满足开发者的个性化需求。

这是因为,深度学习平台飞桨上打造的文心,除了享受到飞桨赋予的能力,还依托于百度领先的NLP技术,集成了预训练模型、算法集、开发套件、平台化服务,这些使得开发者既能够更简单地制作自己的NLP模型,也能够便捷地融入企业的特殊需要。

通俗地说,这是一片已经耕好的黑土地,只要撒入不同作物的种子,就能快速长出自己想要的庄稼。

2、既要成本低,又要效率高,还要“体验”好

NLP产业落地还有牵扯要素更多的“我全都要”现象——在应用开发过程中,因为降本增效的主旋律,希望成本能够更低、效率可以更高,而开发者在庞杂的开发工作面前又往往还希望体验能够更好。

如果在过去,这种需求大概会被技术服务方怼回来,但随着平台化能力的提升,NLP已经完全具备了满足这种矛盾需求的能力。

仍然以文心为例,它全面降低了NLP的定制开发成本,在强大语义理解能力下对数据标注广度和深度要求降低——90%准确度的模型,过去需要5100条数据,现在可能只要220条数据;在算力上也类似,由于集成了ERNIE预训练模型,企业只需要单机微调即可取得世界领先效果的NLP模型,极大降低算力成本。

可以看出,这种成本的降低伴随着效率的提升,二者是一体两面的关系。而更进一步看,对实际参与开发工作的开发者而言,仅需要配置或编写少量代码便可完成从模型训练到模型评估,1周的工作1天完成,这本身也是一种体验上的优化。

类似的还有UNIT智能对话与定制服务平台,在本次升级后数据标注成本的进一步降低30%以上。重点场景预置的场景化解决方案,能够帮助开发者以更低的成本、更高的效率完成智能对话系统的构建,而这种构建也不需要长篇大论、逻辑复杂的编程,只需要调用对应的模块即可。

3、既要单环节强化,也要全链条深入

“既全且深”在过去是NLP开发者对平台服务的美好理想,既能够提供全面的服务,每个细分服务还能够做到足够得深。

现在,这种理想已经变成现实,它同样得益于技术和服务的长期积累。

以百度NLP智能创作平台为例,该平台一年多以来的自动创作文章累计200万+,相当一个10人团队至少工作45年;“图文转视频能力”上线4个月,被7000多家客户使用,自动创作短视频15万,相当于一个人至少要工作100年。

在此基础上,智能创作平台进行了再升级,一次性推出囊括智能策划、智能采编和智能审校全链条的3大场景方案,而每个环节,都十分深度而不只是简单的布局。

例如,在智能采编环节,借助融合文本、视觉、语音的跨模态AI技术,一方面提供文章创作多样、易用的工具,另一方面,还整合了视频编辑、图文与视频互相转换等视频生产实用能力,实际应用可以帮助视频生产速度达到原有的6倍。

可以认为,在百度等巨头的积极探索下,过去NLP领域那些不可能、充满矛盾的产业应用需求,最终将变得稀松平常。

03

让AI强者恒强的“自增强循环”,这次AI巨头又有了新的玩法

在AI发展领域有典型的来自实践的“自增强循环”现象,即在深度积累下不断在自身业务、产业领域进行实践,将成果反馈,推动算法、数据等不断进步,自我强化,对行业的领先像滚雪球一样越滚越大。

例如,百度NLP领先行业的UNIT,自发布以来,2.7万多开发者在平台累积知识条目总量2.4亿,支撑了超过10万个智能对话应用,与最终用户总计进行了超过4200亿次交互。

这些实践的强化,反过来让UNIT能力更上一层楼,推出更多更低成本、更高效率、更好开发体验的服务,这种正向循环让UNIT超越竞品越来越多。

所谓的“强者恒强”,其实根本上就是来自于这种“自增强循环”。

现在,百度在NLP领域推进这种“自增强循环”又多了一种玩法。如果说过去的“自增强”过程是在自己的地盘中实践推进,那么百度此次推出的行业计划,则带有联合整个行业共同完成“自增强循环”的意味。

此次百度NLP推出的千言开源数据计划十分典型。

在百度的构想中,它试图“团结”来自国内多家高校和企业的数据资源研发者,共同建设这样一个数据项目,在更多的“同行”加入下,获得更丰富的任务类型、更多的开源数据集合。

这样做的好处,是让计划中的每一个参与者都能享受到整个行业的数据和模型积累,从复杂知识构建、语义理解、知识融合、多模态融合等角度推动技术的进步,毕竟,百度NLP积累再多,也少于整个行业,而NLP又是一个极度依赖积累的AI垂直领域。

千言第一期总共涵盖了7大任务,20多个中文开源数据集合,这会是百度另一种“自增强循环”的开启,只不过,它依靠的是整个行业横向而不是自身实践纵向的推进力量,也将惠及整个行业。

通过行业共建的方式汲取精华获得群策群力的成长,这是百度AI、NLP更大的手笔。

以这样的视角再来看百度在此次峰会上推出以王海峰为代表的百度NLP“十年十人”,可以认为,百度NLP在十年发展后,已经不单被定义为一种属于企业个体的优势技术,更成为百度推动机器更好地理解世界、服务于人这种技术信仰的典型代表,实现着更高维度的技术情怀。

总而言之,已经完成“技术扛鼎”的百度NLP,重心已经转移到了产业落地上。作为走在NLP应用于产业智能化最前线的巨头,百度走出了有自身调性的路子,也通过满足产业更复杂深度的方式来获得更广泛的认可,以及相对竞争对手的优势。与此同时,从竞争到竞合的行业态势,也通过百度的引导开始发生在NLP领域。

*此内容为【科技向令说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

【完】

曾响铃

1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者;

2 虎啸奖评委;

3 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;

4 《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;

5 钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;

6 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;

7  腾讯全媒派荣誉导师、多家科技智能公司传播顾问。

重点关注领域

1人工智能 |区块链 |汽车产业链| 内容创业 |新零售

2 电商 |新媒体营销 |企业级服务| 家居业 |社区O2O

3智能手机 |网红| 体育IP |互联网金融 |无人机

4共享经济 | 直播、短视频 |传统企业转型

最新著作

(0)

相关推荐

  • 财报首次公布AI开放平台数据,百度要用AI驱动B端?

    2月22日,百度公布2018年第四季度及全年未经审计的财务报告,数据显示,第四季度百度营收272亿元人民币,同比增长22%,超出华尔街预期:净利润21亿元:2018年总营收达到1,023亿人民币. 本 ...

  • 让一群脑洞清奇的开发者告诉你,AI+产业的N种可能

    一般来看,一场成功的.胜利的AI行业大会,往往是这样的:主持人大谈AI技术是多么神奇.智能转型多么重要.产业价值多么庞大.然后一群专家(最好有外国人,配上同声传译)相互讨论,取代人类.奇点临近.智能时 ...

  • 16年后百度回港上市,AI已成新内核

    3月23日,百度正式在港交所二次上市.李彦宏在仪式现场致辞称,回到香港二次上市,是百度的再次出发,是百度的二次创业.百度是一家始终相信和热爱技术的公司,"有 1 块钱的时候,我们会投进技术里 ...

  • “2+5”:一文说清百度产业智能化

    "中国有一句古话叫做'一生二,二生三,三生万物'.AI虽然不能够产生万物,但是它可以唤醒万物."7月3日百度开发者大会上,李彦宏说. 这是一个产业智能化磅礴而来的时代. 可惜的是, ...

  • 新基建开航之际,百度“黄埔学院”发力培养“AI船长”

    茫茫无边,怒海狂澜,1 艘潜艇,135 名水手,180 天航程,如何将每一位水手都打造成优秀绝伦的领导者? 这听起来有点不太可能,"圣塔菲"号潜艇的指挥官L.大卫·马凯特却做到了. ...

  • 从AI开放平台,到工业大生产基座:重新认识百度大脑5.0

    根据麦卡锡早些时候的报告,未来AI技术90%的价值将发生在与各行业的结合,并且到2030年将创造超过中国与印度GDP总和的产业价值.毫无疑问,今天每一双眼睛都在紧盯着AI,好奇地审视着这一切到底会不会 ...

  • 突然宣布!重大突破!更猛烈的还在后面!

    一 快!实在是太快了!一眨眼的工夫,未来已来! 刚刚,飞桨联合中国信通院发布<飞桨凝聚创新 开源共创产业新机>生态发展报告,指出:全行业智能时代开启,人工智能进入工程化应用爆发窗口期,健全 ...

  • 中国程序员成长图鉴

    中国第一代程序员,都做爷爷了. 2005年,登陆纳斯达克后不久,百度启动首届"百度之星"程序设计大赛,来自全国400多家高校共计4000名选手报名参加初赛,经过多轮角逐后,来自清华 ...

  • “十四五”科技企业迎来重大机遇?筑牢AI地基百度首当其冲

    五中全会于10月26-29日举行,29日下午全会公报公布,全会聚焦"十四五"规划(2021-2025年)和2035年远景目标."十四五"规划是我国全面建成小康社 ...

  • PaddlePaddle叕将升级!如何理解中国深度学习框架的起跳瞬间

    以前看一部战争片的时候,对一位军工厂领导的台词印象深刻.他是这么说的:前方的战士看见我们运过去的炮弹,心里比看见麻花都甜. 在一项事业或者工程进行当中,从业者对核心生产资源的那种期待,是外人难以估量和 ...

  • CES自动驾驶和5G成热点,Apollo开发者社区将放大招?

    2018年微软表现让人印象深刻,其市值一度超过苹果和亚马逊成为最大公司,这一年微软还有一个令人印象深刻的动作:于年中斥资75亿美元收购了代码托管平台Github,Github也是全球最大的开发者社交网 ...

  • 人工智能的造血机制:从Q1财报读懂百度AI矩阵如何运作

    在人工智能到来,我们在最初被惊艳到之后,接下来的问题如期而至:AI到底如何工作?如何创造真正的价值? 毕竟AI不能永远是一种表演和游戏,作为一种底层技术,它必须开始为人类服务,必须在商业世界中证明自己 ...

  • 不信不可能:飞桨,划一个时代的初心

    AI在哪里? 大部分人可能会想到科幻电影,或者异常先进的实验室.但是河北工业大学教授刘晶却认为AI就在一间间工厂车间里.学习了六年深度学习,花两个月时间跑了一百多家钢铁厂,最终,她把在钢铁熔炼复杂的配 ...

  • 用AI牵引新基建,百度悄悄升级了四大杀手锏

    其中,AI作为新基建的关键技术,无论是支撑传统基础设施转型,还是科学研究.各行业转型升级,也成为智能经济背景下,流着"奶与蜜"的技术应许之地. 换句话说,人们对于新基建的美好想象, ...