藏在实习生招聘里的“行业公式”:AI如何解决“中国式问题”

我们经常说,今天人工智能的核心矛盾,是打开新闻发现“wow!AI好厉害”和回到工作中悲叹“人工智能在哪里……”之间的矛盾。

对于中国千百万具体行业来说,今天人工智能还是朦朦胧胧、似是而非的一件事。找一下本行业和AI相关的动向,一般我们会发现三样东西:

1. 欧美某AI公司做了一个本行业应用。奈何远在天边,也不怎么符合国情。

2. 某论文里提出了AI新技术。可是等到应用,也不知道自己退休了没有……

3. 某创业公司的PPT里有相关技术。一般这种比较傲娇,迟迟不想从PPT里走下来……

综合起来看,今天在面对AI时,中国市场上各行业的普遍困惑是:AI听起来很美,看上去很远,大家又不敢贸然当第一个吃螃蟹的人。心动和行动之间,缺少一个灵光一闪的可行性方案。

说得更直白点,传统行业和各个企业,缺乏的是一套能够复制、符合实际需求的解决问题思路。最好有个公式,让各个行业可以一键粘贴,得到快速并有价值的AI方案。

今天让我们来研究一个真实案例,试着一起来找到一个这样的“公式”。当然,案例本身也颇具价值,因为它发生在一个任何企业都可能邂逅的领域:在线招聘。

前不久,脑极体采访了云脑科技(没错,我们都是脑字辈的)联合创始人&COO龙志勇。作为一家跨越中美两国的人工智能行业平台公司,云脑科技的商业模式就是利用深度学习产品为传统行业服务。在他们与百度、实习僧共同推进的智能招聘项目中,AI与中国式互联网问题的胶着碰撞可谓暴露无遗。

绝不小的“小问题”:

中国式实习生招聘

让我们先来了解下,人力资源领域的“中国式问题”。

在欧美国家,人力的昂贵、人才流通的需求频率相对较缓,加上监管的严谨性,都让人力资源事业处在相对较“稳”的曲线中。而AI进入人力资源领域,也更多是从智能猎头、背景审核等辅助功能的AI化开始。

但在中国,互联网招聘的人才虹吸效应以及巨大的人力缺口,导致今天的人力资源必须实现快进快出。如果不能高效准确找到人才,企业甚至很可能被产能拖垮。这就让“快”成了中国HR的第一准则。

但仅仅快还不够,HR同时还要准。如果面试录取率不佳,企业会直接质疑HR的职业能力。这导致很多HR同学常年在业务部门需求和大量雷同的简历中无尽挣扎。而在招聘实习生时,类似问题会尤其凸显。

因为实习生招聘中很可能会遇到这样几个尴尬:

1. 简历特别多,看完就已经晕了。

2. 由于投递者都是在校学生,很难明确职业意向。简历与职位需求经常存在偏差。

3. 实习生简历内容简单雷同,HR难以判断取舍。

这些因素的堆叠,导致实习生招聘很可能在企业中变成缺乏效率、高流失率,并且没什么科学依据的工作。而在互联网时代,企业招聘实习生又大量依托线上平台。特有痛点+线上存量数据+AI,会不会有什么意外惊喜呢?

百度+云脑:

一个人力资源问题的AI解决方案

采访中我们了解到,国内著名实习生招聘平台“实习僧”与云脑科技的深度合作中,共同完成了AI人才库:利用实习僧平台上留存的招聘数据,云脑训练匹配模型,以此实现以AI进行初步简历筛选。

显然,这个AI解决方案旨在解决HR实习招聘的真实痛点,实习僧平台沉积的几十万职位描述和几百万简历数据也为深度学习提供了优厚的条件。那么接下来的问题是,到底如何让美好的技术想象变为现实。

为了让AI辅助HR,更好地完成实习生简历初筛问题,云脑使用实习生招聘环节中的三个重要数据:HR发布的职位描述文本;HR浏览、标记和发出面试邀约的简历文本数据;学生们的简历文本、浏览记录与选择投递的公司与职位描述。

为了统筹这些文本数据和行为数据,云脑结合门禁卷积神经网络(Gated CNN)和注意力机制,训练适用于招聘领域的门禁卷积神经网络(Gated Query Model, GQM),在保证文本匹配准确性的同时,还能提供匹配的细节。最终实现了HR在平台发布职位描述后,模型自动检索匹配库内海量简历,实现分钟级的匹配,并按照匹配度倒序推荐给HR。

在这里我们当然没有必要解释算法背后的函数关系,但有几点技术逻辑却是值得我们注意的。因为在今天中国的AI与行业结合中,这些问题会反复经常出现。

1.需要适应中文的独特性

我们了解到,在针对中国互联网招聘数据进行简历与需求的精准匹配时,云脑面对的首要问题是解决中文自然语言处理场景中,中文分词、词性标注、句法分析等缺乏技术借鉴镜像的问题,在降低了文本向量维度的同时,也需要保留文本语义信息,兼顾算法的处理效率。

2.克服有效数据困境

互联网招聘平台数据仅仅能有效记录,HR浏览了哪些实习生简历、发出了哪些面试邀约是比较容易记录的。但在这之后,现场面试反馈记录、录用情况,甚至录用之后的实习效果,就都是互联网平台难以记录的了。

为了解决实习僧平台数据不闭环的问题,云脑先根据场景定制化了一个简单可快速上线的模型,搜集HR针对每个岗位描述发出的面试邀约。用来搜集可用于深度学习的数据样本。当真实的招聘需求、获得面试邀约者基本信息及双方的行为数据量足够之后,再进行第二阶段的深度模型的迭代,通过文本分析、数据挖掘和行为学习,自动捕捉企业用人偏好,防止错失潜在的优秀简历和候选人。

3.解决开发框架问题

与很多主流AI创业公司不同,云脑在开发智能招聘算法时,没有采用欧美主流开发框架,比如TensorFlow、Caffe等等,而是用到了百度的PaddlePaddle。采访中聊到这个问题时,云脑方面表示,根据他们的测试和实践,TensorFlow等开发框架虽然社区资源会更齐备,但由于这些框架不一定能满足商业应用场景中对速度与效率的追求。

与欧美框架相比,PaddlePaddle从一开始就为了解决并行计算问题,其利用GPU的并行度更强。也就是说,在同等数据相同网络结构的条件下,PaddlePaddle展现出了更快的速度强大效率。

根据我们的观察,这也不是个孤立问题。越来越多的AI公司投入产业实战当中时,都会发现训练框架对大规模应用的友好程度,直接决定了企业的商业化进度。这种情况下,性能更好,更支持大规模应用的框架显然占据优势。

此外,基于PaddlePaddle的生态合作,也为AI企业开发基于中文互联网数据的算法提供了支撑。比如PaddlePaddle会提供更多专项中文数据集,并且开放了近20种工业级模型,比如语音识别、文本分类、图像分类、机器翻译、物体识别等,这些能力适合中国国情和中国企业融汇进入AI世界。

从基础训练到分布架构彻底开源,由于PaddlePaddle今天在中国AI产业中的独特性和生态价值,其也被视为“最适合中国国情的深度学习框架”。

于是我们看到,在云脑的算法模型和百度PaddlePaddle的无间合作下,智能招聘实习生这时似乎真的看到了曙光。

据说,效果是企业每招一个人,

能省160块

招聘平台加算法的效果如何评价,最终当然要数据说了算。采访者我们了解到了一些有意思的数据,或者可以说明这个商业智能应用的直观价值。

1. 企业招聘速度提升,更主要的是,省钱了……

对算法加入前后的邀约率分析,智能招聘算法上线之后,将简历初筛这个高时间成本的找简历、看简历和筛简历过程,优化为HR根据AI推荐简历,发出面试邀约一步,面试邀约率实现了5倍提升,推荐的成功率比之前提高了50%,大大提升了HR的工作效率。

企业更快找到人才,招聘速率被提升后,企业每招到一个人的成本约可降低160块人民币。算法已服务了3万余个岗位的精准匹配,累积优势十分可观。

2. 优化招聘需求,提升HR精度

在效率提高、成本下降之外,AI招聘带给企业的新想象力,是企业可以更好地招到原先容易错失的人才。

以教育机构好未来当前正在招聘机器学习实习生为例,在新兴的垂直技术领域,比如机器学习、区块链等,HR通常面临着不知道要招聘什么人才、也不知道去哪里找到他们等问题。使用了AI(H)后,可根据企业所在的行业、职业描述所在的专业领域、借鉴其他企业的招聘案例等,自动匹配到在垂直领域有相似科研经验、项目实践经验和获得类似面试邀约的候选人,有效协助HR更好的在新兴的技术领域搜寻人才。

这对于企业发展的助力,或许是难以用量化金钱来衡量的。

3. 提升深度模型的可解释性

深度学习模型本身具有不可解释性,但在力求公平公正的招聘场景下,企业仍旧存在一些使用疑虑。云脑针对这类的场景需求,在智能招聘算法中,改进了模型设计,在保留了模型表达能力的基础上,解释需求与简历间的文本特征匹配关系。企业和应聘者在使用精准匹配的过程中,不仅能够帮助HR找到最符合的应聘者、帮助应聘者找到最符合的HR,同时还能够给予双方一份详细的建议理由。

从个案到“公式”:

AI如何解决互联网时代的问题

通过以上云脑、百度、实习僧,加上若干应用企业参与的整个案例。我们可以看出AI在招聘这件事上也是可以大展拳脚的。

但更有价值的信息,是我们可以从整个合作关系中发现,解决某个传统行业或者企业通识问题,AI到底如何来开启第一步。

在智能招聘案例中,首要解决的是数据问题。缺失了可进行深度学习训练的有特征数据,那么一切都白搭。这个案例中,线上招聘平台实习僧成为了数据输出者。在互联网时代,很多数据都留存在平台上,这给更多行业以想象空间。但如果想要深入到企业内部流程当中,本行业本企业的线下数据也是重中之重。而如何确保数据安全性,以及组成企业、行业、平台间的数据对接,将是接下来AI产业发展中的任务。

接下来,是云脑这样的AI公司,结合实习僧的数据提出了一系列垂直于行业的解决方案。这其中有大量中文,或者中国产业格局里必须要克服的问题,基本功不过硬肯定不行。

此外,百度提供的PaddlePaddle也成为了AI能够商业化工作的前提。适应中国企业需求,善于支持AI并行计算与大规模部署的AI平台,显然不是创业公司能够负担得起的,而海外平台又不接地气。

因此上,百度这样平台级别的输出能力就会成为主要解决方案。而平台的价值,也不仅仅是能力输出,而是综合资本、流量、影响力、技术解决能力的示范价值与生态化赋能产业基础。比如百度就基于PaddlePaddle及其开放能力建立了PaddlePaddle训练营,为开发者和企业提供转型和应用AI的平台,既有针对开发者的系列课程培训、线上线下活动,也有面向企业的AI市场。假如百度本身平台的品牌扶持与价值培养能力,对于具体行业问题的引导是多方面的。

或许到此我们可以看出,算法创新、行业数据、平台三者构成了一个产业共生体,通过三方面不能或缺的能力,集合式为第四方解决了问题。

在AI距离应用较远、成本相对模糊的条件下,理解这样一个公式或者可以成为企业探索AI的支点:你的产业到AI之间,是否有数据、算法、平台这样一个三角形产业关系。而它们间的产业合作能力又是否能被企业接受。

在更多的人才和更普及的AI能力之前,运用恰当的产业合作来实现AI,几乎是唯一的正路。

面对十分复杂的中国式问题,或许我们要做的,是发展出一套中国式AI,并以最快速度把它投向千百万行业。寒来暑往后,才是秋收冬藏。

(0)

相关推荐