近期,零点有数副总裁许正军博士、董事长袁岳博士撰写的《建设公共服务算法中心 促进数字政府建设》一文,获人民日报、中国网等主流媒体刊载。(点击左下角【阅读原文】可查看人民日报原文)
在大数据时代背景下,数字政府建设已从“信息化“进入到“数据化”阶段,即数字政府2.0。在数字政府2.0的建设过程中,各类公共服务的融合、业务系统的整合、服务数据的归集、数据资源的共享与交换应用,以及作为数字技术底座的基础设施如云计算、大数据、5G网络、区块链、人工智能等都得到长足的进步,促进了政府决策科学化、社会治理精准化、公共服务高效化的快速发展。
其中,作为数字技术底座之一的人工智能,特别是智能算法,被认为是数字政府建设的重要内容之一,是促进数字政府从“数据化”阶段向“智能化”阶段(数字政府3.0)发展的关键。人工智能包括三要素:算法、算力和算量(数据),三者缺一不可。伴随数字政府建设,城市大数据呈指数级增长。在一定算力基础(云计算)条件下,如何敏捷发挥不断增长的公共服务数据资产价值,高效满足政府决策、社会治理和公共服务等智能化应用需求,其中的算法创新与应用将起到关键作用。
为此,加大算法创新应用和大力发展算法产业,已成为当前各地数字政府建设的重要事务之一。如上海近期出台的《上海新一代人工智能算法创新行动计划(2021-2023年)》,是继2017年的《关于本市推动新一代人工智能发展的实施意见》、2019年的《关于建设人工智能上海高地 构建一流创新生态的行动方案(2019-2021年)》的又一政策举措。未来,各地越来越多的关于人工智能算法的创新行动计划与人工智能算法产业化政策将接踵而至。公共服务算法建设,以城市大数据为基础,以公共服务领域各细分应用场景为导向,将是推进数字政府从“数据化”进入“智能化”(数字政府3.0)的关键。
纵观人工智能的发展历程,算法技术的创新发展起到了决定性作用。2006年Hinton提出的深度学习技术及其在图像、语音识别以及其他复杂领域中的成功应用,让人工智能发展进入到了当前的第三次浪潮。不可否认,算法技术的创新源动力来自于国外。像 IBM、微软、Facebook、谷歌和亚马逊等一众硅谷巨头公司,在其中扮演着重要角色。如1997年IBM“深蓝”计算机的出现,到2015年DeepMind公司的AlphaGo(阿尔法围棋),都是算法创新技术在人工智能发展史上的重要里程碑。学术界在理论上的先行研究,工业界紧随其后的典型示范,进而基于算法理论框架的开源项目开放,形成了开放式创新环境,赋能各行各业垂直应用的算法开发与应用,如金融、工业、商业等领域,从而形成了一种有效的算法创新和技术应用发展模式。但在公共服务领域,受制于个人隐私、数据管理、社会制度等因素,数据的汇聚与开放困难重重,公共服务算法的创新应用似乎稍逊风骚。而我国近年来,数字政府、智慧城市等建设如火如荼。大多数地方基本形成了“一云一库一平台”大数据运行与管理格局。以5G、大数据、云计算、人工智能、区块链等为代表的数字新基建已成为“十四五”时期各地数字政府建设的重要引擎。在城市数字化转型大背景下,数字经济、数字治理和数字生活的发展为城市大数据的智能应用将创造巨大的市场和众多的场景,为公共服务算法的创新发展提供了前所未有的机遇。公共服务领域可能是我国在智能算法技术创新应用方面快速超越西方国家的第一个赛道。来自国际数据公司(IDC)发布的《数字化世界——从边缘到核心》以及《IDC:2025年中国将拥有全球最大的数据圈》白皮书指出,预计到2025年,中国将成为全球最大的数据圈,增至48.6ZB,占全球数据圈的27.8%,同时非结构化数据将会占据数据总量的80%~90%。人工智能三要素中,如果说数据是油,类似给车提供动力,计算力是车轮,类似提供前进驱动,那么算法就是发动机,决定了车的整体性能。面对不断增长的城市大数据,如何快速盘活数据资产、精准挖掘数据价值,需要在公共服务算法上做足文章。若算法能力不能匹配数据价值挖掘时,就如同汽油不断流进汽车而发动机没有能力燃烧以致白白浪费汽油一样,数据就会像垃圾一样沉淀不流转而只是消耗大量存储和计算资源。为了能在一定算力资源条件下最大化挖掘各类公共服务数据资源的价值,需要开发针对公共服务各类应用场景的公共服务算法,以实现从各类公共服务数据到对应场景应用之间的智能计算和服务引擎。就如同各地建设大数据中心,以汇聚管理各类公共服务数据资源一样,也需要建设相应的公共服务算法中心,以开发、汇聚、管理针对各类应用场景的公共服务算法。如同大数据的共享交换,公共服务算法也可以共享复用;如同大数据不断增长一样,公共服务算法也将不断增加和迭代升级。公共服务算法中心将是适配城市大数据的价值挖掘与公共服务各应用需求之间的智能中枢。公共服务算法中心居于城市大数据与公共服务各场景应用之间,依托大数据中心或其它公共服务业务系统提供的数据存储和计算能力,基于不同的公共服务应用场景,构建用于支持各公共服务领域(如公安、税务、民政、城市管理、营商环境……)各细分应用场景的公共服务算法(简称垂直应用算法),为公共服务领域各应用场景创造新的个性化体验和新的业务模式提供智能公共服务。亦即,公共服务算法中心将针对不同公共服务领域不同应用细分场景的一个个算法模型融入进来形成公共服务算法池,以达到快速复用、组合创新、规模化构建智能公共服务的目的。并结合业务变化不断持续优化、持续智能。公共服务算法中心的核心是针对公共服务领域不同应用细分场景的垂直应用算法集合(还包括一些技术算法和其它综合算法等,参见后述)。参见附图1。
目前公共服务算法以综合算法类居多。例如城市交通,针对对城市交通整体概况的时间维度或区域维度上的分析、预测应用等综合应用算法居多,而对于如特殊节假日、特殊时间段、重大事件、重点场所、重点路段、车辆类型、人流特征、交管资源配置等细颗粒度的场景应用的“画像”涉及不足。事实上,每个公共服务领域中的应用都可以进一步细分众多的应用场景。由于算法针对最具体的细分问题场景及其原始数据,因此对各应用进行深度细分类目将更有价值。比如,参照12345市民热线或者政务热线的诉求分类,可以(在分到第五级、第六级情况)将政务问题场景分成大约1500个左右的细分小类,这就意味着针对市民热线诉求可以分成不少于1500个的算法与算法集合;参照 12366咨询与投诉诉求分类,可以(在分到第五级、第六级情况)将税务问题场景分成大约300个左右的细分小类(考虑社保缴费则可以达到400个左右),意味着针对税务热线诉求可以形成不少于400个的税务算法与算法集合;针对线上线下税务办事大厅的工作主项则接近250项左右、税务违规违法查处事项150项左右;针对110报警热线诉求,接近1000个小类;线上线下办事大厅诉求,接近2000个主项;针对网格事项,接近1000个小类;社区服务反映事项,接近500个小类……每个关键信息与数据来源都可能有数百上千类别的问题场景,每个场景都需要一个或数个算法对应。通过对每个场景进行具体的“画像”,我们才能做到精准治理和高效处置。据不完全测算,一个城市的最小颗粒服务场景将达到5万个左右。每个细小颗粒问题场景都需要一个或数个算法对应,一个城市的算法总数将达到5万多个。区别于综合类算法,针对不同应用更细小颗粒问题场景的算法就是前述所说的垂直应用算法。就一个城市的公共服务而言,政务算法中心的垂直应用算法容量将达到5万多个。
如上所述,公共服务算法中心的主要内容是针对公共服务领域各应用细粒度问题场景的垂直应用算法集合。随着场景问题的不断解决,算法集合是一个不断积累、迭代优化的过程。也意味着公共服务算法中心的建设是一个逐步的、持续的、动态优化的过程。公共服务算法系指一系列对应特定服务场景的专业处置规则所构成的指令集合,借助于这些集合型的运算规则,使得只要有一定数量和条件的数据输入,就能形成一定的分析成果、判别结果、行动对策与预测预警信息,支持高质量决策与决策执行追踪与“数据分析-决策指挥-行动追踪-舆情关注一体化”机制。公共服务算法的形成,在起始处往往是因为有某些需要处置的公共服务事项或者场景性问题,这些问题有一定的共性,也形成了一定的痕迹资料、相关信息与数据,因此结合过去对于这类问题的处理经验与最佳做法,就可以提炼与开发初步的算法逻辑,形成模型或者模式,来进行相应的分析与运算,在分析运算基础上可以通过数据训练(场景数据化的成效检验、参数和变量调整、再检验、再调整)达到提升算法精度的目的,算法模块一旦成型则可以在规定的数据输入下形成相应的算法计算结果。参见附图2“算量、算力和算法工作原理图”。
附图2 算量、算力和算法工作原理图
对应公共服务领域各应用全类型细分场景的全量算法集合就构成了公共服务算法中心的全量垂直应用算法池。其中既有面向综合业务应用的综合算法,也有面向公共服务领域不同应用大类的垂直算法,还有针对各应用更细粒度问题场景的前台垂直算法,以及包括通用的分类、判别、聚类、预测等后台技术算法。如同大脑的皮质、神经元、脑区、脑干等功能分区一样,这些算法适配不同应用、不同场景问题,发挥不同的公共服务智能引擎作用,或形成单一引擎,或简单拼装,或复杂集成,支撑着不同应用不同问题场景的智能应用。因此,也可将公共服务算法中心形象称为“政务脑核”,如附图3所示。
公共服务算法中心的构建有一个形成、成长、成熟、迭代的过程。一方面,随着公共服务领域各垂直应用算法的开发应用,公共服务算法中心逐步形成。随着更多垂直应用算法的不断开发应用,公共服务算法中心逐步成长。当公共服务算法中心中的算法池容量越来越趋近全量公共服务领域的算法集合时,公共服务算法中心将趋于成熟。另一方面,公共服务算法本身也有一个不断迭代升级的过程。随着各细分问题场景数据的不断产生,算法模型将不断适应性学习,不断更新调优参数,提高其准确性、精确性和运行效率;对于新场景与新问题,或需要创新新的算法,或需要集成已有算法,形成新的算法能力。这两种机制都将促进公共服务算法中心的迭代升级,增强公共服务算法中心的智能。从目前先进城市的做法来看,大多选择面向社会治理如12345热线、公安的反欺诈、纳税服务领域、社区公共服务等作为切入点,逐步构建各类垂直应用算法形成公共服务算法中心,然后,再逐步扩展到其它服务领域。公共服务算法中心类似算法“货架”,具有模块化、插件化部署的特点,以API接口或动态库(.Lib)的方式可被场景应用开发调用,既可以运行在云计算平台,也可部署至其它业务系统,不需要建设新的系统和平台,可对接已有资源,包括对接基础平台、业务系统、数据中台或其它开发工具。算法应用过程中,对数据的存取不要求数据一定要汇融,只需要提供数据访问接口。只要相关业务数据满足可访问、规定授权下有条件可访问可贯穿使用、常态化分布式存储即可,从而减轻了数据的归集建设成本。各算法模块之间也可以相互联接形成新的集成算法。未来结合大规模公共服务算法与公共服务知识图谱资源的累积,基于深度学习与自动算法生成能力,可以形成新一代的具有面对新型场景问题的多模态算法自生脑核,同时实现对算量的有限精准调用调度和对算力的有限精准借用。类似数据的共享与交换,在一定的管理规范和访问机制保障下,算法模块也可实现跨区域、跨系统访问、查询和共享调用,并可根据场景实际情况进行个性化调整。对于不同地方同一公共服务领域的相同问题场景,只要输入所在地的场景数据,就可计算相应的输出结果,极大扩展了公共服务算法中心的共享价值。由此,一个城市可共建共享一个公共服务算法中心,甚至不同城市之间也可以共建共享一个公共服务算法中心,汇聚不同服务领域不同细分问题场景的算法模块,赋能不同区域的同类问题场景应用。可以设想,未来,一个区域范围内,甚至全国范围内,针对公共服务领域同一应用下各细分问题场景,只需要建设一个可共享的公共服务算法中心,就可充分挖掘不同区域的数据价值以赋能不同区域的问题场景智能应用,这样,既有助于节约算力成本,又有助于快速推进公共服务算法创新应用,扩展算法创新技术的应用价值,提高城市大数据的价值挖掘效率。作为城市大数据与公共服务智能应用的智能中枢,公共服务算法中心起到智能引擎作用,作为“政务脑核“,与数据中台和业务中台共同构成“政务大脑”,实现从数据到应用的智能计算。鉴于此,各地在加强算力(云计算)和算量(大数据中心)等基础设施建设过程中,应当同步强化算法(公共服务算法中心)的建设,从顶层设计逻辑开始,要从“数据中心”向“算法中心”迁移,以“算法中心”为脉点,带动“数据中心”与“智能应用”两端发展。为了推进公共服务算法中心的有序建设,建议各地政府在管理架构上成立工作专班,或隶属现有政务服务和大数据管理局、市大数据资源管理局或城市运行管理中心,或成立专职机构。从战略高度上重视公共服务算法中心建设的必要性,从政策层面,制定公共服务算法中心建设实施方案与行动计划。在财政预算上应加大对公共服务算法中心建设的专项支出。在产业政策上,应加大公共服务算法产业化创新扶持力度。人工智能是引领新一轮科技革命和产业变革的颠覆性技术,在为人类创造巨大福祉的同时,也会催生各类潜在的安全风险。在政务算法中心的建设、使用和运行管理过程中,需要加强针对政务算法的标准规范管理体系和运维保障安全体系建设,尤其是在算法安全、算法责任和算法知识产权等方面。为了从法律层面加强算法安全,促进公共服务算法中心的健康发展,需要在《个人信息保护法》《数据安全法》等基础上,进一步制定“公共服务算法问责法案”,明确公共服务算法开发者资格评估(开发者的社会信用、价值观和社会责任、流程管控和安全制度,以及专业程度)、技术方案评估(如算法模型的人类伦理规范、算法设计的可解释性等)、风险影响评估(如数据和信息安全影响、算法应用负责效应等)、透明监管条例(能穿透“算法歧视”和“算法黑箱”进行审查)等具体流程和核心要点,以及各主体的法律责任、社会义务和法律界限。同时需要依法建立多层级监管体系,加强各个环节的透明监管。鉴于算法的开发和成熟有一个过程,在严格遵循“公共服务算法问责法案”的前提下,可建立一些有效的激励机制,鼓励有足够训练和开发经验的开发者积极参与,提倡各个地方就同一场景和同一组算法之间开展平行开发,引入竞争和对比,以提高算法质量。同时,通过加强算法的知识产权保护,鼓励算法的共享开放,以此促进公共服务算法中心的快速建设。来自前瞻产业研究院发布的《2020年中国智慧城市发展研究报告》显示,截至2020年4月初,我国智慧城市试点数量累计已达749个,如果对应每个智慧城市都有一个城市大数据中心,则我国城市大数据中心已经达到749个,考虑到智慧城市建设将覆盖至县(市)区级,则预计未来大数据中心总数将达到4000个左右。如前文所述,算法应用过程中,对数据的存取不要求数据一定要汇融,只需相关业务数据满足可访问、规定授权下有条件可访问可贯穿使用、常态化分布式存储就可以。同时,考虑到算法具有快速复用、组合创新、规模化构建以及共享使用等技术外部性,公共服务算法中心可以在“市域”层级统一建设。据公开资料报道,截止2021年4月,我国共有308个地级市(包括15个副省级城市)。考虑未来城市的变化发展,预计400个左右的公共服务算法中心的算法能力基本覆盖公共服务领域各应用场景。公共服务算法中心建设将充分利用大数据中心和云计算的软硬件基础设施,不涉及额外大规模软硬件投入,只需要占用一定的云存储与云计算资源。其中,算法以算法库、模型库方式进行存储,形式上属于微软件和微应用。一个区域某一特定细分问题场景的垂直应用算法模型对另一区域同类问题场景具有可复制性。公共服务算法中心的建设成本与算法中心应用规模之间具有边际成本递减、边际效益递增的特点。
在数字政府建设的三年时间框架内,如果先行建设100个左右的公共服务算法中心,那么后续可以在此基础上加速推进其它区域的公共服务算法中心建设。按此估算,有望在“十四五”期间,基本建成覆盖公共服务领域各应用场景的全量垂直应用算法集合。
中国前沿的数据分析与决策支持服务机构。深耕公共事务和商业服务的诸多领域,以第三方评估为驱动、以解决应用场景中的关键问题为出发点,梳理和优化不同垂直行业的模型与算法。在数据智能时代,公司不断整合移动互联网、人工智能、云计算、物联网等领域新技术,将多源数据与公共和商业服务的垂直行业场景结合,将20多年积累的专业知识实现"经验模型化,模型算法化,算法软件化",推进决策科学化、服务高效化。
mkt@idataway.com