从顶级赛事殿堂飞向人间烟火:度小满的NLP技术突破能给小微企业带来什么?

一家企业的技术实力究竟怎么样,国际顶级赛事的比拼,绝对是一块试金石。

最近,在微软举办的MS MARCO 比赛中的文档排序Document Ranking(文档排序)任务中,来自度小满金融科技的AI-NLP团队就刷新了记录,超越三星、微软、谷歌、斯坦福、清华大学等一众参赛者,荣登榜首(截至2021年3月12日)。

2018年,度小满金融才开始独立运营,并组建了技术团队。两年多的时间,一家金融科技公司究竟是如何一步步实现了国际顶级赛事的能力飞跃?对于一家商业公司来说,学术领域的突破又意味着什么,是否能转化为真实的产业价值,改变普通人的金融生活?

这些都是“第一名”的光环背后,更值得我们关注的东西。

过去的成绩:

技术基因决定故事走向

看到这个新闻,大家的第一反应可能是“是微软飘了还是谷歌提不动刀了”,这个比赛究竟是干嘛的?

简单说一下MS MARCO挑战赛。它是自然语言处理NLP领域的权威比赛,基于微软构建的大规模英文阅读理解数据集MARCO(Microsoft Machine Reading Comprehension),需要参赛者为用户输入的问题找寻到最贴切、最需要的答案,并对答案进行排序。

以这次度小满技术团队刷新纪录的文档排序Document Ranking(文档排序)任务为例,就至少面临以下几个挑战:

首先,MARCO数据集采用的是来自搜索引擎 BING 的用户真实搜索行为和点击日志,最大程度地模拟和还原了用户使用搜索引擎的真实场景,因此数据标注并不完全,这会直接影响模型的性能表现;

其次,MARCO数据集规模非常大,包含数百万个问题和对应的近千万篇文档,而每一个问题都会提供多篇来自搜索结果的网页文档,相当于要在一堆文档中判断出哪一个是用户真正想要的,这需要机器对多篇文档进行综合理解才能判断出答案。

此外,MS MARCO挑战赛由于权威性高、应用价值大,吸引非常多的工业界巨头和学术机构来参与,竞争十分激烈。要赢过来自海外谷歌、韩国三星AI研究院、斯坦福大学,国内的清华大学等等的其他队伍,难度更是直线上升。

而度小满NLP团队提交的模型,不仅以0.416的eval分数大幅领先其他团队,还在第一名的位置维持了一个多月的时间,这不得不让人好奇,他们到底是怎么做到的?

经过访谈我们得知,度小满NLP团队首次提出了DML文本排序算法,通过自主研发的自适应预训练语言模型对query(用户搜索的真实问题)和document文本进行深度理解,利用了数十万数据来训练模型,经过召回、重排等多个阶段,给出最终排序。

完成突破的过程毫无疑问是充满艰苦的。度小满的技术人员透露,参赛队伍每天几乎都工作10-15个小时,中间做了非常多的创新和尝试,不断优化和改进算法。可话又说回来,技术创新最终比拼的还是“脑力”。度小满金融2018年才开始独立运营,两年内就能积累起挑战国际AI巨头的实力吗?

原来,度小满在成立初始,就抱着将NLP等科技引入金融业务当中的理想,建立起了一支AI团队。其中一部分人来自百度,众所周知,百度是中国NLP领域的一面技术旗帜,曾获得过包括国家科技进步奖在内的诸多权威奖项,这种技术基因也为度小满所沿袭。而另一方面,度小满也以十分严格的标准吸纳技术人才,建构起了一支实力强劲的技术队伍。

团队建起来了,安心支持自家的核心业务就好,为什么非得去国际赛场上“找虐”呢?

一方面,金融领域需要各种语言、语义相关的NLP技术和新方法来提升业务能力,来对风控模型、用户画像等进行升级,用更先进的算法来提升项目,也是度小满从成立之初就追求的。而国际顶级赛事,自然成了不容错过的绝佳“练兵场”。

桃李不言,下自成蹊。度小满在NLP领域的突破,看似奇异,背后却有着绵长的技术信仰、强烈的业务诉求支撑其前行。

现实的困境:

NLP如何为小微企业插上翅膀

所有过往,皆为序章。

比起度小满为什么要参加国际比赛,可能更让人难以理解的是,刷新纪录对你我普通人来说有什么意义?这种疑问,恰恰说明科技赋能产业的改造潜力远比我们想象中更深。

诗人塞缪尔·约翰逊曾说,语言是科学的唯一工具。事实上,今天度小满NLP领域所追寻的突破,也是在为金融科技和普通人之间搭建起一座桥梁。

度小满所提交的模型,其所具备的强有力的文本理解和匹配能力,可以轻松应用于金融、征信等多个领域中,赋能给中小企业者。

我们知道,中小企业融资难是个重要而复杂的问题。在现实中小微企业融资有着几座难以逾越的高山:

1.融资成本高:由于小微企业的经营规模小,风险系数高,一般还没有抵押物,许多金融机构不愿意放贷,或是设定更高的利息水平;

2.风控难度大:数据碎片化,缺乏长期信用评级,无法完整地了解小微企业的整体情况,判断其偿债能力,往往难以获得银行和资本市场的信任;

3.周转场景多,现金流压力大,而传统融资渠道审核慢、放款慢,着急情况下很容易被黑灰产或不良小贷机构欺骗。

在近几年的政府的工作报告中,多次提及要“帮助小微企业降低综合融资成本”。而通过公开数据我们发现,度小满针对小微企业主的年化贷款利率仅有3.65%。而全国银行业新发放普惠性小微贷款的利率平均达到5.93%(2020年数据)。2020年,度小满累积为小微企业主提供了3000亿元的无抵押信用贷款,人均放款额同比增加35%。

更低的利率,不低的额度,度小满凭什么这么敢?技术,就是所有不确定性中最大的确定性。

度小满在MS MARCO比赛中所运用到的数据挖掘、阅读理解等NLP技术,就已经在度小满的小微风控模型中投入了实际应用,通过对企业公章、征信报告等非结构化信息进行深度挖掘和理解,为风控模型提供了更丰富的特征和数据维度,从而可以更高效精准地识别风险因素,提升小微企业的融资效率,帮助其抵御黑产侵害。

而在小微企业融资场景中,同样存在很多这样的信息,比如有的用户并没有提供相关信息或行为,系统就需要对这些没有标注的样本,准确地判断出其风险等级。

推动AI、NLP技术走向产业侧,或许是提升小微企业融资效率、降低融资成本的解决方案中,最重要的议题之一。

就拿度小满来说,首先,借助NLP技术跨越信任的高山。对非结构化数据的挖掘,能够从经营行为、营业范围、财务年报等等更多维度的信息中加深对用户的洞察,准确判断出对方的资质,解决传统风控模型样本不足、评级不准的问题,为资本市场与小微企业之间建立信任;

其次,利用AI智能化地识别出更多风险指标。传统风控模型需要人根据业务需要和经验,确定哪些特征是有帮助的,而度小满借助AI可以让机器自动去学习相关特征,可以将数据得到充分利用,效率更高,征信结果更准确。

最后,通过技术协同来提升金融服务的可靠性与安全性。AI、NLP领域的技术能力并没有让度小满忽视传统金融工具的价值,事实上,在让智能系统给出判断的同时,度小满也会结合一些业内成熟应用的统计方法作为参考,对小微企业的偿债能力和风险系数进行综合评估。

在度小满的努力中,自然语言的奥秘被拆解,化成千行百业的智能化升级契机,小微企业可以在复杂变幻的商业环境中更快速地获得支持、寻觅新机。这或许可以回答很多人的疑问:为什么企业要跟学术机构一起在顶级赛事上同台竞技?

答案就在于,每一次技术领域的点滴突破,都有可能改变一些行业的既有规则,化不可能为可能,助力更多小微企业飞向更光明的未来。

未来的企望:

科技与产业的更多握手可能

可以看到,想要在资本市场和小微企业之间建构起信任桥梁,既需要技术积累,又要有对实体经济、小微企业业态的真实洞察与服务理念,这恰好也是度小满一直以来努力的方向。

除了前面提到的风控等场景之外,其实在小微企业的金融需求中,还存在许多痛点。比如需要反复前往网点当面证明自己的资质、等待人工审核等等,在这些环节中,度小满也从用户角度结合技术想了很多解决防范。

比如利用OCR技术将对方提供的电子化票据进行识别处理,在线上就能审核,实现申请秒批,有效缓解小微企业的资金压力。

借助AI预测,度小满也会在贷后运用机器人流程自动化(RPA)还款提醒,降低后期的运维成本,也让小微企业主避免因逾期还款而带来的负面影响。

对于合作伙伴来说,借助度小满的技术能力,可以对更多潜在优质客户进行准确识别,带来业务上的良性增长。

也可以说,度小满目前所扮演的,既是风险的守门员,也是增长的主推手,这是极为稀缺的产业角色。

从技术特征上推演,NLP技术的潜力能够落地的场景和需求还有很多。具体要如何激发出技术的能量,这个问题就交给度小满去操心吧。对于小微企业主来说,只需要安心经营未来,不必为资金贷款终日忧心,这就是平凡至美的人间烟火味。

技术的根系越深远,越能历久弥长地将价值输送到每一个产业细枝末节当中,直至浸润每一个人的心田。

(0)

相关推荐

  • 玖富万卡再发力 连接金融科技“新生态”

    文︱江湖老刘 新一轮的金融科技革命已经风云暗涌. 有人预测,这一次的技术革新给社会带来的改变不亚于工业革命.的确,金融科技趋势让智能投顾.区块链.大数据.AI等正逐步从概念走向实际落地,也让金融依托技 ...

  • 反欺诈将是未来十年人工智能网络安全市场增长最快的应用领域

    根据Research And Markets的最新报告,2020-2030年期间人工智能网络安全市场复合年增长率为25.7%,其中网络欺诈和DLP将是未来十年人工智能网络安全市场增长最快的应用领域.2 ...

  • 看人工智能创业机会|十字财经

    作为新一轮科技与产业变革的重要驱动力,人工智能在技术不断突破的同时,其应用层面的延展性也正成为产业各方更为关注的话题.从生活到生产,从制造到服务,制造.物流.医疗.安防.零售等领域"智能+& ...

  • “图灵测试不重要”,一个违背机器人界祖宗的决定

    深度学习技术前沿 129篇原创内容 公众号 转自:量子位 训练一个简易AI对话交互式机器人需要什么? 一篇文档+3分钟足矣. 在今年的世界人工智能大会(WAIC)上,我算是见识到了.整个开发过程没有用 ...

  • 【文本信息抽取与结构化】详聊文本的结构化【上】

    常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式.这一点在知识图谱.信息抽取.文本摘要这些任务中格外明 ...

  • 《简单有趣过生活》:顶级有趣的灵魂,藏在人间烟火里

    "一个人应当像一朵花,不论男人或女人.花有色.香.味,人有才.情.趣,三者缺一,便不能做人家的一个好朋友.我的朋友之中,男人中只有实秋最像一朵花." 这是冰心评价梁实秋的原话,足见 ...

  • “君生我未生”:长沙窑里的唐代人间烟火色

    君生我未生, 我生君以老. 君恨我生迟, 我恨君生早 . 这首广为传颂的<君生我未生>诗歌首见于长沙窑瓷器.20世纪七八十年代,湖南长沙出土了大量唐代长沙窑瓷器.瓷器上镌刻有许多唐人题诗, ...

  • 【斋月征文34】米春芳|人间烟火味 最抚凡人心-记斋月里的下南关

    人间烟火味 最抚凡人心 Table qing in Xining ---记斋月里的下南关 作者| 米春芳(青海)摄影| 米春芳 喜欢独处,喜欢没有嘈杂的安宁,所以一度以为自己能超越俗世,享受一份安宁的 ...

  • 邱燕原创散文丨人间烟火

    人间烟火 文/邱燕 凌晨四点钟醒来,四周处在黎明前的黑暗中.打开房间的门,客厅里有餐厅明晃晃的光束射来,厨房里已是灯火通明,灶前站着专注熬粥的小哥哥,他的眼睛.耳朵.心思全在粥上.只见他不停地轻轻搅动 ...

  • 诗歌 | 人间烟火

     人间烟火  题记:这首"诗"仅是一种尝试而已,算是随手而为的口水诗吧. 葱姜蒜 丝瓜 黄瓜 茄子 油麦菜 香菇 白萝卜 土豆 红灯笼椒 大白菜 绿豆芽 鸡鸭鱼肉 一只疲累的肩头 ...

  • 孙雪泥的画,美得不食人间烟火!

    孙雪泥的画,美得不食人间烟火! 艺术有你  孙雪泥(1889-1965),民国享有盛誉的著名国画大家,江苏松江(今属上海市)人.他十六岁中科举,一生专研绘事,工山水.花卉,尤擅鳞介.蔬果.梅花等,所作 ...

  • 人间烟火

    市井很普通,人生在其中. 看似场面俗,实则五谷丰. 哺育家天下,责任不轻松. 谁若离开了,定已留仙踪.

  • 弘仁,不一样的人间烟火

    他的画风疏淡冷寂,一看就是有点儿不食人间烟火,不问红尘滚滚,他就是清初四僧之一的弘仁,他用这种不同的绘画方式来表达着,当时晚明清初的文人圈中所特有的个人主义气质. 渐江(1610--1663),又名弘 ...

  • 人间烟火味照片要这样拍!太治愈了!

    什么是真正的人间烟火 当看到这个问题的时候 你脑海里会闪过什么呢 (留言区等你答案) 都说 "人间烟火味,最抚凡人心" 行走在大城市中 看惯了高楼大厦 一些市井生活.烟火气息的景象 ...