数据猿专访 | 普林科技执行CTO欧高炎:大数据行业缺人才?我们来搞定!

<数据猿导读>

说起大数据创业,最让创业者头疼的是大数据人才太少!为此,普林科技开设了普林大数据学院,为大数据行业源源不断的输送专业人才。其教育服务平台“数据嗨客”不但在线上汇集了大数据知识,还可以在线下培养专业的大数据人才

来源:数据猿 记者:张艳飞 春夏

说起大数据创业,最让创业者头疼的是大数据人才太少!不仅是因为国内的大数据行业刚刚起步,而且很少有大学开设此专业。为此,普林科技开设了普林大数据学院,为大数据行业源源不断的输送专业人才。其教育服务平台“数据嗨客”不但在线上汇集了大数据知识、案例和大数据实训题库,还可以在线下培养专业的大数据人才。

作为一家刚刚成立两年、专业从事大数据建模分析的高新技术公司,为什么要做教育?巨大的培训资源又是从何而来?为一探究竟,数据猿记者在贵阳数博会中采访了普林科技执行CTO、普林大数据学院院长欧高炎。

以下为数据猿整理的采访内容。

本文由“135编辑器”提供技术支持

打造标准化流程,让数据服务更规范

数据猿:欧总,请您先给数据猿的读者们介绍一下普林科技吧。

欧高炎:普林科技成立于2014年5月27日,主要为金融、运营商、医疗等客户提供大数据建模分析服务,根据客户实际业务建立模型,然后提供标准的行业解决方案。

目前,普林科技专注于用大数据技术,帮助客户实现数据价值运营。同时为了为客户提供更高效的配套服务,我们对数据采集和数据可视化也有涉足,比如在数据采集方面我们就推出了标准化产品:云爬虫。

目前,市场上大部分爬虫只能抓取网上可以直接看到的内容,但不能抓取需要识别验证码的复杂内容。

举个例子,对于工商网站来说,每个省份都有系统,每个系统的验证码模式都不一样,例如有1+2等于几的逻辑题,或者成语识别问题,大部分爬虫产品都无法解决。而普林的云爬虫可以通过机器算法自动识别并抓取数据,进而解析复杂语义。另外,云爬虫内有分布式架构,如果有更多的抓取需求,可以在分布式集群中无限扩展机器。

在数据可视化方面,普林科技也有专业的IT研发团队在我们核心的用户画像和建模分析基础上,通过可视化方式呈现出来。也就是说,普林在大数据建模分析的整个流程中都有标准化产品。

我们数据嗨客呢,其模式则为线上、线下相结合。线上即在线大数据建模,数据分析人员不用在电脑安装任何运行环境,打开浏览器,就可以在线使用各种工具做数据分析并解决问题,而且所有模型的运行、训练、评估都是自动的,我们平台相当于帮助用户做运算,而运算要花费大量的计算资源,所以我们会在这方面收费。

大数据教育平台——“数据嗨客”的诞生

数据猿:我们看到,在本次数博会中,普林科技发布了大数据教育产品——“数据嗨客”。具体介绍一下这款产品吧。

欧高炎:“数据嗨客”作为大数据教育平台,汇集了大数据行业的海量知识。依托于人才培养功能,我们最终想要将其打造成为一款专门针对大数据的人才服务平台,搭建数据分析人员和对数据分析有需求的企业间的桥梁。对于学员来说,通过我们平台掌握了技术,能够帮助企业解决问题,还可以拿到奖金。对于企业来说,如果找其他公司做建模可能要花三百万,但在我们平台花10万、20万就可以找到全国人才帮助解决问题。

我们平台有学员所学的大数据课程、做题效果、参加比赛等记录,所以我们能够精准把握学员所掌握的知识和技能,从而为企业对接最合适的人才。而且在我们平台的数据分析人员中,有很多传统企业的IT人员,因为他们有基础的编码能力,我们可以帮助他们转化做大数据分析。另外,我们平台还会有大数据人才的简历,客观呈现给需要的客户。

在线下,我们开设了普林大数据学院,主要针对企业管理人员做大数据思维、大数据应用培训。我们团队的教师资源非常雄厚,有清华北大等知名高校老师和业界的专业数据科学家。同时,我们还辅以线上培训平台,这一点是其他机构无法做到的。

我们会基于大量的实际应用案例为学员开展实战课堂,而不是只讲理论知识。同时,我们还会在平台展示实战案例,可以直接让学员看到效果。另外,北京大数据研究院的培训业务都是由普林大数据学院支撑,基于合作,我们会为学员发放北京大数据研究院的证书。可以说,我们的培训非常权威。

数据嗨客产品以线上、线下结合为教育模式,目前数据中心落户贵阳。今年8月份,我们会组织全国大数据竞赛,我们要做大数据服务工具类平台,贵阳政府也给予了很大支持。

数据猿:作为一家大数据公司,普林科技为什么要做培训教育这件事?目前业务开展的具体情况如何?

欧高炎:我们的首席科学家鄂维南院士,是北大元培学院的院长,也是北京大数据研究院院长。他从普林斯顿大学回国后,发现国内很多人对大数据的认知有偏差,所以他就在北大开了全国首个数据科学专业,培养大数据人才。

而对于普林大数据学院来说,我们有庞大的团队支持,我们也希望能够让更多人懂得大数据,并能够利用大数据实际解决企业和社会应用问题。因此,我们联合北京大数据研究院,从学校和社会两个渠道发力,培养大数据人才。可以说,普林大数据学院是大数据人才培训平台,而普林科技是实训基地。

目前,培训行业市场很大,比如一些公开课平台会录制视频课程,但它只是提供网站平台,由用户生成内容,而且大数据题目的研发有很强的技术壁垒,只能由专业人才能够做好,所以他们并不能像我们一样研发大数据案例、讲义,甚至实训平台。另外,一些大的互联网公司也在做培训,但他们更多是为了推广自身的产品和平台。而我们则是在大数据院士带领下,满怀着情怀和时代的责任来做大数据教育的。

联合北京大数据研究院的资源,普林大数据学院会结合各行各业的企业形成企业群,他们会提供真实数据案例和真实的行业问题。从培训来看,一方面我们会直接为技术人员做培训,另一方面我们会进行师资培训,让老师有能力培训学生,开设大数据相关的专业课程。

目前,我们已经开展了很多培训业务,而且学员的培训需求非常旺盛。以银行为例,其大量的数据积累很需要专业的数据分析人才,但银行的体制又很难招到大数据人才。为此,我们可以帮助他们把已有的庞大的IT开发人员转化为大数据分析人员。另外,我们也在电信运营商行业开展了很多培训业务。

金融、运营商服务案例积累实战经验

数据猿:除了以上提到的大数据教育业务以外,普林科技还做哪些其他业务?

欧高炎:目前,我们还做金融、运营商、医疗行业的业务。比如金融领域又可以细分为风控、征信、反欺诈等。

由于全国的信用数据都在央行的征信中心内,比如每个人有多少张信用卡、多少笔贷款等,这些数据可以用来评估个人信用。因此,央行征信中心希望能推出信用分数报告,代表用户信用的好坏。前期由美国一家公司为其提供这项服务,但他们研发的“逻辑回归”算法不符合中国国情。比如过去在国家政策中,农民贷款不还贷不算违约,但会留下不还贷记录,所以这套模型算法会给农民打很低的分数。

因此,去年我们普林科技团队进驻到央行数据中心,通过我们对业务的理解,使用更新的机器学习算法为他们做分析模型,四个月做出一个模型。通常情况下,评估银行的风控模型技术指标KS值在30%到40%左右,而我们为央行做的模型指标达到了78%,可以说,普林科技占据了征信制高点。

基于与央行合作的成果,普林开发了普林报告分产品:可以提供个人征信报告,比如有多少笔贷款,欠多少钱,什么时间还贷等数据。从现实应用来说,用户贷房贷、车贷的分数不同,因此我们还做了贷款细分,比如用户贷房贷时,我们会计算出他的房贷违约率是多少。

同时可以算出影响用户信用得分的因素是什么,比如是否因为他的信用历史太短,还是因为没有还卡等因素。还能计算出用户在全国贷房贷的人群中的信用排名,这对房贷机构很有帮助。

这套产品的特色在于,基于央行的全量数据,从全国所有人的数据分析中提炼出子模型,然后根据不同的贷款类别做信用评估,还可以计算出影响用户信用的因素和排名。

而中国有十几亿人口,对于没有征信报告内容的信用白户来说,怎么办呢?我们想可以通过实名登记的手机数据对其做信息核验、风险评估等。

举个应用例子,用户在P2P贷款时需要填写含有姓名、证件号、家庭住址、常用联系人、电话号码等信息的申请表。我们会通过电信运营商数据核对用户证件号,还可以定位数据,以核验用户是否稳定在固定区域内等信息。

而且定位数据与手机定位最大的区别是定位数据不能作假。比如,现在的软件可以通过修改IP地址改定位,但我们的定位数据是通过基站传输数据,可以定位到基站的具体方位,而且非常准确,还不容易作假。

需要说明的是,我们的产品设计不会泄露用户隐私。客户提供给我对方的姓名、证件号等信息,我只会告诉他信息是否匹配,而不会告诉客户对方的证件号是多少。我们也不会告诉客户对方经常和哪个电话号码通话,而是客户给我们两个电话号码,让我们去判断他们是否经常通话。另外,用户申请贷款需要授权并签字同意,我们才能调用他的数据。

数据猿:据我了解,除了金融行业以外,普林科技还与运营商有合作,我们是如何利用运营商数据做业务的?

欧高炎:我们已经与中国移动、联通、电信建立了合作,他们有大量的数据,其面临的问题是如何实现数据的价值。其实各行各业都想要他们的数据,但运营商没有精力和人力对接各行各业,因此,我们可以帮助他们做建模,因为我们很清楚客户需要什么数据并如何呈现。

比如刚才提到的用手机给用户打标签的例子,我们已经打通了电信全国的数据,并且正在部分省份做全面试点,目前已经有很多家金融机构在试用阶段,试用期结束后,会有实际应用。

数据猿:您认为普林的核心竞争力是什么?

欧高炎:我们前期为金融行业做了大量的项目服务,做完与客户反复沟通并积累以后,我们知道这个行业关心什么问题、想解决什么问题。

另外,基于大量的项目经验,我们不仅形成了解决方案,还制定了标准化产品,这使我们有长期的运营机制。比如,我们帮助电信运营数据时,会把我们的模型部署在他们系统中,第三方客户只要调一下接口,就可以得出结果。


注:本文由数据猿记者张艳飞 春夏(微信:1101862984)整理发布。

来源:数据猿

(0)

相关推荐