如何抓取和分析互联网公开数据
文/郑晓伟
导读:互联网蕴藏着丰富的公开数据资源,通过获取这些数据,作为城市研究的辅助支撑,是未来城市研究者必备的技能之一,近期我们也会继续介绍一些简单有趣的公开数据分析应用。
在互联网领域,对数据的抓取叫做“采集”,在采集工具的作用下,可以很快的抓取一个网站的整站数据,而如果这些数据能够辅助我们的部分决策,那么这个工具和方法值得一学。(本文中数据抓取工具为“火车头”软件)
西安建筑科技大学城市体验、模拟与分析实验中心的郑晓伟为我们分享了他在开放数据获取方法及应用分析技术中的经验。
开放数据(大数据)的相关基础知识
开放数据和大数据的区别
开放数据:商业网站(大众点评、安居客等)数据、地图开放平台数据、社交媒体(新浪微博)数据、政府政务公开数据等。
大数据:手机信令数据、浮动车数据(例如车载GPS、公交刷卡、地铁刷卡)等。
大数据是近似全样本数据,而开放数据是非全样本数据:
对于大部分建筑学背景的城市规划师(计算机基础≠0,编程基础=0,网络知识基础=0,数理统计基础≈0,…)来讲,如何通过一定的手段获取各类开放数据(大数据)是进行各层面、各类型城市规划定量分析的最大障碍!
运用互联网数据进行城市规划与研究所使用的主要工具及流程
案例应用
以下开始介绍运用“大众点评网(dianping.com)”数据对西安市城市公共中心体系识别与优化调整的研究。
总结
1、大数据获取难度较大(特别是城市发展相对落后地区)
2、开放数据为非全样本数据,分析结果与实际存在一定的偏差,需要通过多种方式对数据进行补充
3、对数据的处理方法和处理技术尚处在探索与入门阶段,需要结合城市规划专业的特点进行长期不懈的努力和技术创新
4、未来用于城市现状调查和规划实施具有重要意义,如何在规划设计过程中应用大数据尚在探索当中
本文作者:郑晓伟 主任