【数据分享】中国自然保护区数据
絮絮叨叨
读完本文,你将得到一份中国保护区名录数据,以及各保护区对应的矢量范围。
人生何处不相逢 音乐: 陈慧娴
背景
在之前的这篇推送中,菌菌补充道:
从这里,我了解到了之前的这个kmz数据的来源。
本来我还以为,这个数据是用什么服务发布的,如果是直接发布的服务,那么完全可以使用类似这种方式来直接获取这个数据。但是很遗憾,这个网站上的数据都是这样才可以进行下载的:
并且这个范围还不是每个保护区都有。
很多类似这种都没有范围信息,只有上面的基本信息。
跟菌菌交流之后,觉得这个数据还挺有价值的,就把这个数据整理了一下。由于保护区比较多,有三千多个,整理这份数据也花了我们不少的精力。经过我们的努力,最终形成了两份数据,一份保护区明细表,一份保护区矢量数据。接下来就由我来分别介绍一下这两份数据。
数据
保护区花名册
数据格式
文件格式
本次整理好的保护区花名册,以Excel格式存储,文件扩展:.xlsx
字段格式
字段名称及含义如下所示:
保护区数量
从页面上可以看到,平台上的保护区共有3381个。但在整理的过程中,我们发现了有5个保护区的数据有点问题。除去5个问题保护区,有效的保护区数量是3376个。这5几个有问题的保护区分别是:
上海九段沙湿地保护区
虽然可以在页面上看到这个九段沙湿地,但是点击九段沙湿地,却是一个页面不存在的提示信息(后面的页面不存在不再重复进行截图)
这是我发现的数据存在的第一个问题。
广东null保护区
这样的null,点进去也自然是个不存在。
河北黄羊滩保护区
这个保护区,点击进去依然是页面不存在。
江西省null保护区
这个保护区,点击进去依然是页面不存在。
湖南省null保护区
这个保护区,点击进去依然是页面不存在。
保护区名册信息
除去几个问题数据,接下来我来从总量、批建年代两个方面来简单介绍一下这份数据的情况:
分省保护区数量
可以看到,广东省的自然保护区数量的最多,有415个。
批建年代
批建年代,有38个保护区的年份是缺失的
剩下的3388条数据,分布如下图所示:
从数据可以清楚的看出,自然保护区的批建时间从1956年就开始了。在2000年达到了高峰,有387个之多。
保护区矢量数据
数据格式
文件格式
本次整理好的保护区花名册,以Esri Shapefile格式存储,文件扩展:.shp
字段格式
字段名称及含义如下所示:
至于字段类型,为了保存所有的信息,字段的类型全部设置成了文本。
数据量
从数量上来看,有矢量范围的保护区共有789个
但是有些kmz中却有不止一个要素,其中陕西黄柏塬kmz中,有14个矢量要素。
将这些kmz全部加载到软件中,使用【FME基础】将kml转换为属性齐全的shp的处理方式进行处理后,得到了共有1028个要素。
加载到Google earth中,可以看到,这些保护区分布在全国各地。
数据分布
对这1028个要素进行简单统计,发现四川省的自然保护区数据最多,有130个。
数据中存在的问题
这个数据看起来不错,但拿过来看一看,却能发现不少的问题。
针对怎么进行数据质量控制,我在这篇年中杂谈中以及之前的推送中都有聊过,感兴趣的可以去瞅瞅。
重复问题
获取到的矢量数据,重复数据共有258个。以武夷山为例,图形完全重复的武夷山有4个,但他们的属性却又不完全相同。至于取哪一个,怎么取,我不是这方面的专家,我选择不处理,保持数据本来的样子。
要素间的压盖问题
数据之间压盖问题也有,以青海可可西里自然保护区附近的这几块保护区为例。这可以明显看到,这个边界之间互相压盖,上面的新疆中昆仑自然保护区则几乎完全位于新疆阿尔金山国家级自然保护区内部。
总结
就像上面介绍的那样,这份数据存在一些问题。但没问题的数据是可遇不可求的,如果在做这份数据的时候,能有个GIS方面的数据专家来把把关,相信这个数据质量就会好很多。
虽说数据有一些问题,但这毕竟是林科院官方平台共享的数据,价值还是有的。