【案例】大型持牌消费金融公司——智能风控体系构建

数据猿导读

整个金融业态正在技术、资本和市场的共同作用下发生数字化重构。面对剧烈变化的市场竞争格局和趋严的监管政策,金融机构纷纷通过引入先进技术强化其核心竞争力,提升其原有体系的效率。

本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 氪信 的投递

作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融行业信息协会、互联网普惠金融研究院联合主办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾(点击阅读原文查看)】

在论坛现场,也将颁发“技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖”四大类案例奖

来源:数据猿丨投递:氪信

本文长度为4500字,建议阅读9分钟

当下,普惠金融持续爆发式增长,2015年中国消费信贷规模达到19万亿,同比增长23.3%,预计2019年将达到41.1万亿。

风口背后,一方面是传统金融未服务到的人群基数庞大,且长期缺乏金融产品,因此普惠金融产品是刚需,规模潜力巨大,渗透率低;另一方面,当下智能手机普及,新交互方式极大提升信贷效率,且数据爆发时代使得海量数据获取成本和难度大幅降低,在此之上运用技术对庞大人群进行定量风险分析和匹配金融服务不仅成为可能,而且规模效应明显。

因此,整个金融业态正在技术、资本和市场的共同作用下发生数字化重构。面对剧烈变化的市场竞争格局和趋严的监管政策,金融机构纷纷通过引入先进技术强化其核心竞争力,提升其原有体系的效率。

其中,尤为关键的是构建其自动化的数据能力,将专家的深厚经验赋能机器,让机器刻画纷繁数据与目标的复杂关系,以抢占消费金融爆发窗口期。

氪信在此背景下,与多家大型领先的金融机构深入探索人工智能在消费金融领域的成熟应用,针对客户核心需求已形成包括数据、模型、引擎在内的一整套完整解决方案。

周期/节奏

项目于16年10月开始,17年2月结束。

客户名称/所属分类

大型持牌消费金融公司·风控

任务/目标

由于新金融业务的迅速普惠化,金融客户也面临着崭新的挑战和需求。

一方面由于客群下沉,可获得的用户信息愈发受限,数据质量参差不齐,传统风控经验无法直接应用,急需利用先进技术来提升风控能力;

另一方面互联网金融往往小额量大,基于人工的风控成本过高,用自动化的数据智能风控体系来提升整个流程的效率也是必然的发展趋势。

因此,如何在线上信用贷场景搭建一整套从数据到算法到平台的数据架构体系,并在风控反欺诈和授信业务中得到具体的落地应用是本次案例的最终目标。

挑战

从业务实施落地的角度看,客户面临的挑战主要可以分为三个方面,分别是“数据”、“怎么用”和“跑起来”的问题。

首先,针对第一个“数据”挑战,本质是该用哪些数据的问题,现在金融场景可用的数据早已远远超出传统强征信数据的范畴,我们可以看到辟如互联网行为、电商、社交、运营商等广泛的大数据都在金融领域内崭露头角,但结合到客户不同业务和场景,哪些场景该用哪些数据?不同数据在其中的价值又有几何?具体能够表征哪些维度的风险?

这些都需要大量摸索的实践,仅靠金融经验,或者技术本身,任何一个都无法单独解答这些问题。而这个问题的答案恰恰很多时候就直接决定了业务的成本和收益。

其次,针对“怎么用”问题,这确实是当下技术给我们带来提升最大的点,也是最痛的点。事实上,由于数据的不同,这相当于重构一套与传统风控体系并行的数据架构体系。

在这过程中,如何将海量稀疏、超高维、低饱和的大数据与风险挂钩?如何挖掘非结构化数据价值时穷尽风险?如何最大化技术和现有业务的结合深度?即使在当下深度学习、硬件框架取得突破性发展的今天,真正落地为金融风控体系的工业应用,转化为巨大的商业价值,我们都还有较大的鸿沟需要趟过去。

把难点分解,可以看到需要三个因素的合力作用,包括成熟的机器学习技术、深厚的金融领域知识以及支持机器学习建模的平台,缺一不可,而对金融机构来说,这一整套在大数据生态体系上的经验尚不丰富。

第三,针对“跑起来”的问题,试想,我们有了清晰的数据认知,结合不同场景和风控业务我们也摸索了一套经验证的数据使用方式,但如何与我们的业务系统对接,成为实时的数据服务?这还需要一整套支持机器学习特征、模型计算的引擎。这其中也涉及很多方面的考虑,包括系统架构、操作管理、可靠性、可扩展性、运维监控以及模型自迭代等等。

最终,如何实现从数据、特征到规则、模型持续优化的闭环系统?如何平衡灵活性和功能性以保证业务能够快速落地并取得实际的效果提升?这其实也超出了传统风控引擎的能力范围。

实施过程/解决方案

上述三个方面的挑战贯穿风控的各条业务线,此次案例的解决方案着眼于风控核心的反欺诈和授信两个阶段来阐述如何解决这几个问题,并构建一整套完整的申请贷前风控体系。

反欺诈

首先是反欺诈,现在线上欺诈风险变化非常频繁,以往单一的个体欺诈已迅速演变成有组织、有规模的团体欺诈和相应的关联风险。

传统反欺诈手段包括验真、客户信息逻辑校验、外部信息对比校验、灰黑名单过滤等方式主体还是在识别个人风险,无法根据千丝万缕的关系挖掘潜在的群体欺诈,这需要基于网络的全局风险识别能力来覆盖风险漏洞。

氪信一方面针对机构的存量数据,利用辟如申请资料、运营商等数据构建复杂网络,如图所示,每一个申请人、id、手机号、设备、地址等都是网络中的实体,而诸如申请人拥有设备、手机号呼叫手机号等有向联系就是图中的边,边的权重为关系的紧密程度。

另一方面氪信采用先进的动态社区挖掘算法(如LouvainCommunityDetection)实现风险分团,并利用无监督PageRank算法等计算相应的全局风险特征和局部风险特征,在此之上训练基于有监督算法的集成机器学习模型。

事实上,这不仅在方法论层面有所突破,相对以往基于有限维度的网络和规则模型,在最终识别效果上也有较大的提升。

另外,在系统层面,整个体系的“跑起来”和持续优化非常重要。氪信一方面提供图挖掘查询引擎,支持实时的查询相应,实时的网络关系更新,并输出查询实体的风险等级、解释以及风险关系网络展示;另一方面氪信也引入主动式预警和人工研判机制,将模型结果和专家经验实时地反馈到网络反欺诈产品,使得模型不仅能够甄别事实,更应该是学习到专家认定为欺诈的经验,从而真正形成完整的数据和模型优化闭环。

授信建模

第二块合作是授信建模,由于线上信用贷的产品形态决定了整个客群相对次级,大部分为央行白户,因此机构能够获取到的数据非常有限,往往仅限于APP、运营商、场景数据及少量验真事实类数据等,本质上这个业务的建模就是基于弱数据的风险建模过程,氪信基于金融场景沉淀形成的金融知识图谱,提供一系列从数据到特征到模型的全维知识体系。

建模的第一步是特征工程,众所周知,特征是机器学习建模的原材料,对最终模型的影响至关重要。特征加工和衍生工作越完备,那么构建的机器学习模型效果越好。但是,面对不同数据,不同业务场景,特征加工衍生往往是最耗时间与资源的工作。

尤其在弱数据方面,充斥着大量文本、时序类数据,人工特征定义的方法天然存在较大局限性。辟如在文本上,专家可根据丰富的经验计算相应的统计量、tf­idf指标等等来提取特征捕捉一些敏感词等,但不可置否的是,由于线上风险的演化频繁,专家总有无法抓到的新黑产术语,这带来了风险上无法穷尽的难题。

氪信引入基于深度学习的特征提取框架,使用不同的深度学习模型来拟合不同的数据类型,自动从大量庞杂的非结构化数据中生成高质量的深度学习特征。

如下图,通过将诸如文本等数据转化为向量,用深度学习提取向量空间中的关系可自动生成抽象的特征表征,进一步我们就能计算语义相似性,并运用分类器网络实现非结构化数据与金融风险的深度挂钩。

事实上,深度学习在这块的价值是在于对金融专家经验体系的补充,在处理人工难以固化为特定风险知识或规则的基础上予以最大弥补。另外,比较意外的是,机器生成的特征在模型效果最后的提升已显现出较大的提升,也验证了深度学习对于挖掘深层时序关系,文本内容深层含义在超越人工定义深度方面的价值。

具体模型方面,我们知道在基于弱数据的特征加工和衍生后,机构往往会面临非常多的特征维度,少则几千,多则上万,且非常稀疏、低饱和。这远远超出传统风控基于评分卡体系的建模能力范围。

氪信引入复杂集成模型来解决这一问题,集成模型从“voting”的思想去简单理解,就是针对不同类型的数据我们选用最合适的子模型来处理,然后每个子模型投票做出决策。

相对单一模型有限的预测能力,“好而不同”的模型集成效果明显会卓越很多,此外无论从稳定度、容错、还是抗扰动能力来讲,集成模型也都在性能和泛化能力之间取得了极好的平衡。

复杂集成模型框架除了在当前场景和业务的建模中有较好的表现,它的另一个重要价值还在于领域适配方面的能力,任何一个单独领域子模型都可以快速迁移应用到新的业务应用上,对机构在战略层面实现场景间的迁移和业务冷启动阶段都可以发挥极其重要的作用。

系统层面,为了能够支持整个机器学习模型体系“跑起来”的所有功能,氪信也落地了一整套基于大规模机器学习框架在线执行引擎,从数据接入、加工处理、得出结果再到监控自迭代,整个都是自动化的过程。现在线上信用贷的业务量增长非常快,控制风险、解放人力已成为最紧迫的需求之一,这也是这套数据智能一体化引擎的核心价值所在。

结果/效果总结

最后,在整个线上信用贷场景实践下来,经过跨多个时间段多批次的验证,可以看到,效果上还是有非常直接的提升。仅基于有限的弱数据,模型层面,性能相比传统模型提升了大约70%,最大ks值始终稳定在0.3以上,风控维度也从之前的数十维扩展至2600多维;业务层面,经测算,坏账率也有46%的直接下降。

企业介绍:

氪信CreditX是一家独立的第三方金融人工智能公司,致力于在金融风险领域运用高维数据处理和机器学习技术,为企业和金融机构提供场景化的风控解决方案和产品体系。

氪信提供一整套基于大规模机器学习框架的自动化风控引擎和数据风险服务,旨在风控业务的整个工作阶段提供完整的功能服务。前者包括先进的建模平台和在线执行引擎,解决不同场景下的风控智能化问题;后者基于氪信图谱,利用复杂集成建模技术输出场景化的数据风险服务。

氪信成立于2015年,创始团队均是来自微软、雅虎、eBay、PayPal、阿里巴巴、华为、携程、央行核心业务的顶尖菁英。创始人朱明杰毕业于中科大少年班系,是中科大和微软亚洲研究院联合培养博士和德国马克思普朗克研究所博士后。曾师从德国马克思普朗克研究所计算机科学研究所所长,ACM/IEEEfellow国际大规模数据库协会(VLDB)主席GerhardWeikum教授,合作大规模语义图挖掘,领导欧盟进化知识计算项目。在雅虎研究院从事搜索科学,支撑雅虎搜索和广告的机器学习排序、用户意图理解以及个性化系统。在eBay担任搜索科学高级数据科学家。后加入携程,担任数据总监,从无到有的组建携程大数据部门,负责携程的基础数据平台和机器学习人工智能的应用。

短短一年,氪信产品体系已服务于消费分期、小微金融、现金贷、信用卡、供应链等数十个垂直场景,且验证效果显著,合作客户遍历中国民生银行、招商银行、中国平安、中银消费金融、招联消费金融、众安保险、点融网等顶尖机构和持牌消费金融公司。

短时间内实现技术在金融领域的巨大价值转化也使氪信屡获资本市场青睐,截至目前,氪信已完成招商局创投领投、美国中经合集团共同投资的B轮融资,前两轮投资方火山石资本、真格基金也对本轮融资投资加码。

数据猿超声波

2017金融科技商业价值探索高峰论坛

(点击图片,了解详情)

(0)

相关推荐