大数据,给国土空间基础信息平台“五维能力加持”
根据《自然资源部信息化建设总体方案》(自然资发〔2019〕170号)(以下简称“《总体方案》),要充分运用移动互联网、云计算、大数据、物联网、三维仿真、人工智能等新一代信息技术,建成自然资源“一张网”、“一张图”、“一个平台”和“三大应用”,促进生态文明建设,为“数字中国”建设提供基础支撑。
在“一张网”方面,需要建设完善自然资源云,满足“一张图”等数据与应用的部署需求,推进大数据处理服务等云基础服务设施建设,构建统一的分布式数据库资源池和大数据服务平台,提供统一的数据存储和大数据分析处理服务;
在“一张图”方面,要形成地上地下、陆海相连、集成融合、可持续更新的自然资源三维立体“一张图”大数据体系;
在“一平台”方面,需要实时获取各部门相关信息以及互联网、物联网等相关数据,建立多源数据的汇聚、集成与智能分析机制,为各类应用提供数据支撑和技术保障;
在“三大应用”方面,总体方案多次提出应利用大数据手段提升自然资源调查监测、监管决策和互联网+政府服务应用的智能化水平。
由此可见,“大数据”在新时期自然资源信息化的总体架构中具有举足轻重的地位,是实现国土空间数字化治理,提升治理体系和治理能力现代化水平的重要因素。那么,国土空间基础信息平台为什么需要“大数据”?在平台中,“大数据”究竟代表了一种数据还是一项技术能力?
一、 国土空间基础信息平台为什么需要“大数据”?
首先,我们认为在自然资源信息化的大背景下,“大数据”既是一类数据集合,也是一套技术能力,更是一种思维方式。国土空间基础信息平台作为自然资源信息化统一的基础平台,需要根据自然资源业务的特点和应用的需求从数据、技术和应用三个层面提供大数据支撑能力。
(1) 数据层面
总体方案提到:要形成地上地下、陆海相连、集成融合、可持续更新的自然资源三维立体“一张图”大数据体系。针对新时期自然资源监管和国土空间治理强调的全域全要素、人地协调的管理需求,以及动态实时、精细精准、持续更新的数据需求,自然资源“一张图”大数据体系强调的应该是一个“集合”,而不是某一类狭义的大体量、多图斑或者具备“5V”特征的大数据类型。
在现状、规划、管理和社会经济四类数据中,应既包括数据规模小、更新频率较低的传统的统计和调查数据,也包括历年土地利用、遥感影像等大规模、大体量数据和各类审批、不动产登记等动态实时的数据,还需要纳入物联网、互联网产生的新兴数据,以实现国土空间人地全要素数字化,提升动态感知和精准感知的能力。因此,国土空间基础信息平台需要能够承载并管好一个融合“虚实”、融合“新旧”、融合“大小”、融合“动静”的大数据资源体系,从而更好的为国土空间治理提供“大数据”支撑。
(2) 技术层面
面对多元异构的自然资源“一张图”大数据体系,往往会出现数据难以汇集、数据量大难以存储管理和分析计算等问题,例如:在数据汇集阶段,各类数据的结构、获取渠道、更新频率多种多样,常见的拷贝、共享等手段已经不能支撑如此复杂的数据采集场景;在数据处理和应用阶段,面对如此海量的数据,无论是进行数据清洗、基础的叠加分析或是复杂的二三维管控规则运算,传统的计算模式可能需要几个小时、几天甚至几周才能完成,显然无法跟上日常管理工作的节奏。因此,国土空间基础信息平台需要一套大数据技术能力,解决从数据汇集、处理、存储、计算、分析到应用各环节的技术难题。
(3) 应用层面
大数据思维逐渐影响着各行各业,我们能够利用更精细化、动态化的数据,从关注整体到聚焦个体,掌握每一块地的特性和每一个人的需求,从而实现精准施策、精细治理。此外,在总体方案中,调查监测、监管决策、政务服务三大应用体系也都对基于各类大数据的智能化应用和智慧化决策提出了更高的要求。国土空间基础信息平台作为自然资源信息化各类应用的支撑平台,一方面应能够支撑传统以地为基的空间数据与手机信令、智能设备、移动APP、RFID、网络舆情等表征个体特征的新兴数据的融合应用;另一方面,则需要提供数据挖掘、人工智能等算法服务和智能分析能力,支撑各类应用系统对数据的深度挖掘,发现规律、归纳模式、模拟仿真和预测推演。
二、 大数据带来的“五维能力加持”
针对自然资源“一张图”大数据体系的构建,多元异构数据的全生命周期管理以及数据挖掘和新数据应用的新需求,我们将多年实践和沉淀的大数据技术能力融入国土空间基础信息平台,为平台带来全面的“五维能力加持”,以解决实际的需求与问题。
(1)数据采集能力
自然资源和国土空间相关数据来自各级自然资源管理相关部门及其相关单位、其他行业、互联网等不同领域和地域,如何汇集并接入国土空间基础信息平台是首要问题。
除了让国土空间基础信息平台满足与纵向、横向系统平台之间数据的在线调用和服务接入外,我们还根据在重庆、上海等地实现大数据采集的工程实践经验,将基于分布式架构设计的大数据采集框架融入平台,从而支持离线数据采集、实时数据采集、互联网数据采集等多种采集方式,同时可按照既定的数据标准、质量要求和质检规则对异常数据进行清洗。针对需要汇交或实现交换的现状、规划类数据,可通过NiFi实现流程化、自动化采集与接入;针对自然资源管理类数据,以及资源感知、监控视屏、红线管控电子围栏和其他物联网采集的实时数据,通过Flume+Kafka进行动态采集,支持实时备案、动态监管和业务协同;针对社会经济相关的互联网数据,可采用Crawler分布式爬虫框架进行采集。在重庆,我们根据管理、应用需求和数据情况,采用离线和实时动态相结合的方式支撑了6大类数据,每日约60GB数据汇集、质检、处理与入库。通过多种方式并用,保证多元异构数据的及时接入、同步与更新。
图 大数据采集框架与多元异构数据接入实践
(2)数据处理能力
针对自然资源“一张图”中各类时空大数据的处理能力是支撑各个业务系统开展数据应用,提升数据分析、问题挖掘、分析洞察和辅助决策动态性与现势性的关键。我们采用多级时空网格的处理方式,将多要素的数据基于多级网格进行汇聚,利用Spark的计算优势,满足具有类型多样、来源广泛、复杂计算较多等特点的时空数据的计算分析需求,结合GIS相关大数据组件 实现了叠加、聚合、加权、聚类等空间分析服务,并已在资源环境承载能力与国土空间开发适宜性单要素和本底评价、规划成果审查、规划实施二三维管控及约束性指标和管控边界的动态监测预警中得到了实践应用。以支撑城镇建设适宜性评价为例,我们以100m的网格为评价单元,采集了某市全域约140万个网格,14万个POI点,11.2万条路网,从区位条件(包括交通干线、中心城区、主要交通枢纽、周边中心城市可达性)、公共服务设施覆盖水平、交通网络密度评价城市综合优势度,涉及了网络分析、栅格计算等,空间计算量达到了上亿的规模,模型在传统计算环境下无法运行;根据模型复杂程度的不同,通过大数据计算框架,能够在70分钟内完成区位模型计算、20分钟内完成公服模型计算、10分钟内完成路网密度模型计算,在限定的计算资源下大大提升了数据处理和计算的效率。
图 时空大数据处理能力在双评价及三维数字化空间管控中的实践应用
(3)分析洞察能力
大数据思维的落实,数据是基础,算法是核心。我们通过集成在上海城市体征诊断、重庆交通拥堵预测、武汉城市仿真等实践中积累的各类数据分析、数据挖掘和人工智能算法,结合模型管理系统(DME),实现智能分析、机器学习等模型的一体化构建,为各类时空大数据的探索式分析、数据的深度挖掘和新兴数据的融合应用提供了基础算法和大数据模型服务支撑,提高数据的分析洞察能力。以支撑城市交通拥堵预测为例,基于持续接入的GPS、RFID等数据,在实现车速实时发布和道路拥堵变化趋势分析的基础上,通过聚类、回归等基础算法,构建机器学习模型,识别常发拥堵和拥堵模式,并根据当前的交通情况及历史规律,对每个路段未来5分钟-30分钟的车速、流量、拥堵情况等交通运行状态的预测,对预测拥堵发生概率较高路段进行预警,辅助城市运行的动态监测评估、管理和优化。
图 基于基础算法服务的拥堵模式识别与预测模型构建及应用
(4)资源调度能力
因为大数据集群往往独立部署,大数据的算法模型不同与普通模型,大数据计算模型需要部署到大数据平台,并要针对不同的数据量级,完成普通算法模型与大数据模型的调度切换,同时还要保证大数据平台资源的合理使用,因此针对大数据算法模型的调度,我们通过将模型管理系统(DME)和大数据平台打通,实现了更加灵活高效的资源调度,对计算资源灵活分配,既可以避免资源浪费,又可以保证高效计算能力。
大数据计算,在一定程度上增加了计算难度,以及计算时间的增长,针对这种情况大数据平台的计算进度以及计算状态会实时的反馈给模型管理系统,无需其他操作,就可以针对大数据的计算进行动态监控,同时普通计算模型和大数据计算模型之间的调度,对用户来说是完全透明的,系统会根据数据量和计算量自动选择最优的计算调度,用户无需关注是在哪个环境中完成的计算。
图 大数据计算与模型管理系统(DME)的调度机制
与此同时,针对不同的用户需求,用户也可以通过模型管理系统自行构建计算任务,自行选择是否使用大数据平台进行计算,对用户来说更增加了灵活性与可操作性。
(5)应用支撑能力
基于自然资源三大应用体系中对智能化应用和智慧化决策的需求,国土空间基础信息平台应具备融合物联网、互联网等新兴数据的应用支撑能力。以支撑国土空间规划“一张图”实施监督信息系统开展动态监测评估预警为例,国土空间开发保护现状评估指标中包括实际服务人口数量、城市对外日均人流联系量、轨道站点800米范围人口和岗位覆盖率、工作日平均通勤时间及各类社区公共服务设施步行15分钟覆盖率等多项需要借助和应用手机信令、LBS位置大数据、POI等新数据进行评估分析的指标,国土空间基础信息平台通过持续接入动态数据,提供基于新数据的人口分析、职住分析、设施可达性分析等应用服务,系统可根据管理需求实现对指标的动态监测评估预警和多维应用展示。
图 融合物联网、互联网等新兴数据的应用支撑
三、 上海数慧与大数据的“前世今生”
上海数慧自2015年起组建了一支集大数据业务分析、算法研究、开发运维的“全栈”团队,致力于提供时空大数据从数据采集处理、分析挖掘、展示应用到平台运维等全链路解决方案,始终坚持将创新落实到实践,经过多年磨炼,已具备丰富的工程化实践经验,并逐步建立起了覆盖数据生态、业务生态、算法生态、技术生态的行业大数据生态圈,包括智慧足迹等数据运营商,上海、重庆、武汉等地规划和自然资源管理部门,北大、清华、同济等科研院校,IBM、亚马逊、Hortonworks、腾讯等大数据和人工智能的技术先驱企业。
最后,献上彩蛋一枚,跟着小编一同回顾上海数慧与大数据的“前世今生”:
2015年:初见。5月与重庆市交通规划设计研究院签署《重庆市交通综合信息平台(二期)策划项目》,同年6月与IBM成立联合创新实验室。上海数慧从城市交通领域入门,在规划大数据的道路上正式起航。
2016年:积淀。7月份《重庆市交通综合信息平台(二期)策划项目》顺利通过验收,实现了实时交通信息的采集、集成分析和工程化应用;9月份与IBM深度合作,以机器学习、AI技术为主,在厦门进行智能政务机器人探索。
2017年:转型。从注重技术转变为聚焦业务与数据,完成了上海城市体征诊断、重庆市主城区交通拥堵趋势分析与预测、城市设计智能化助手等实践与探索。
2018年:融合。随着“多规合一”的国土空间规划体系改革,对内实现了传统数据与新兴数据处理工程的融合、传统GIS与多源大数据技术的融合;对外与上海市规划和自然资源局、同济大学等多家单位合作“上海空间大数据工作室”完成支撑上海单元规划的职住平衡研究应用及郊野公园建设成效监测评估,与北京大学合作“北京东城区网格诊断”,加入武汉城市仿真实验室等,实现了空间规划大数据的生态融合。
2019年:新征程。开启国土空间大数据应用探索的新征程,实现时空大数据处理与新兴数据应用的融会贯通,与无锡市城市规划信息中心共同完成规划大数据研究,利用人工智能技术探索构建行业知识图谱。
2020年:围绕国土空间规划与空间治理,紧跟政策要求和管理需求,在新数据应用、时空大数据处理及人工智能等方面不断实现技术升维,努力为国土空间治理治理能力的提升添砖加瓦。