R语言_空间计量:地理加权回归模型 (GWR) 操作及应用
一、 地理加权模型简介
1、简介
空间统计为自然科学和社会科学中广泛的学科提供了重要的分析技术,在这些学科中(通常是大型的)空间数据集经常被收集。在这里,我们提出的技术从一个特殊的分支的非平稳空间统计,称为地理加权(GW)模型。GW模型适用于一些通用或全局模型不能很好地描述空间数据的情况,但适用于一些空间区域,适当的局部模型校准可以提供更好的描述。
该方法使用移动窗口加权技术,在目标位置找到局部模型。在这里,对于某个目标位置的单个模型,我们根据某个距离衰减核函数对所有邻近观测值进行加权,然后将模型局部应用于该加权数据。这个局部模型可能应用的窗口大小是由带宽控制的。较小的带宽导致结果的空间变化更加迅速,而较大的带宽使结果越来越接近通用模型的解。当存在一些目标函数(例如,模型可以预测)时,可以使用交叉验证和相关方法找到最优带宽
地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA),地理加权回归(GW regression),地理加权判别分析(GW discriminant analysis),其中一些功能有基本和稳健形式之分。
运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。
六个核函数的介绍:
Global Model(均值核函数)、Gaussian(高斯核函数)、Exponential、Box-car(盒状核函数)、Bi-square(二次核函数)、Tri-cude(立方体和函数)
2、数据
GWmodel包中有五个示例数据集,分别是:(i) Georgia, (ii)LondonHP, (iii) USelect, (iv) Dub Voter, (v) EWHP。
LondonHP数据是英国伦敦的一套房价数据。该数据集(n = 372)从英国全国建房协会提供的2001年房价数据集中采样,并与各种变量相结合(Fotheringham et al. 2002)。
特征数据反映了房地产的结构特征、房地产建设时间、房地产类型和当地家庭收入状况。关于建立房价市场研究的模型已经成为GW回归的常见应用。
DubVoter数据集由九个百分比变量组成 ,2004年爱尔兰民主选举的投票率和 社会结构的八大特征(普查数据).Kavanagh, Fotheringham,和Charlton(2006)使用GW回归对该数据建模;以选民投票率(Gen El2004)为因变量(即每个ED中投票的人口百分比)。
这8个自变量测量了每个ED中人口的百分比:
a .一年内的移民(即一年前移到不同的地址)
B.地方政府租房者 (LARent);
C.社会一级(高级社会阶层) SC1)
d .失业 (Unempl)
E.没有接受过任何正规教育(Low Educ);
F. 18-24岁组(Age18_24);
G:年龄25-44岁(Age25_44)
H.年龄组45-64(年龄45_64)。
因此,这八个自变量反映了移民、公共住房、高级社会阶层、失业、教育程度和三个成年年龄组的衡量。
二、GW汇总统计
GW汇总统计(GW summary statistics)包括基本的GW 汇总统计和稳健的GW 汇总统计.
基本的GW 汇总统计包括GW 均值, GW 标准差, GW measure of skew和GW 皮尔逊相关系数.
稳健的GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW不平衡分位数)
GW 标准差反映一个数据的离散程度。
GW四分位数间距可反映变异程度的大小。
由这两幅图可以看出在中部和西部四分位数间距和标准差值比较大,第一幅图比第二幅图更显著一些。
这两幅图是用不同的核函数说明自变量LARent和因变量GenEl2004之间的相关关系,两幅图都表明出现最高的相关性的地方是中部和西南部,且都表明LARen越高,投票人数越少。
这两幅图表明了LARent和Unempl之间的相关关系,由稳健的GW汇总统计模型得出的第一幅图可知两者相关性最强的是在西南区域。而且可以看出第一幅图的效果比第二幅图好。
三、GW回归
GW 回归是探索因变量和自变量之间的空间变化关系,其也分为基本的GW回归和稳健的GW回归。
基本的GW回归是将通常的回归方法用于空间当中,最重要的是所有回归系数的估计都要加权,加权用到前面提到的核函数。
1、传统回归分析
2、地理加权回归
模型选择:因过多的自变量可能导致局部共线性问题,所以需要函数model.selection.gwr对模型进行优选。
根据优选结果,一般选择AICc值区域平稳时的模型。
3、带宽选择
选定模型后,利用bw.gwr函数进行带宽的自动选择
> bw.gwr.1<-bw.gwr(GenEl2004~DiffAdd+LARent+SC1+Unempl+LowEduc+Age18_24+Age25_44+Age45_64, approach='AICc',adaptive=TRUE, data=Dub.voter,
+ kernel = 'gaussian')
Adaptive bandwidth (number of nearest neighbours): 206 AICc value: 1986.269
Adaptive bandwidth (number of nearest neighbours): 135 AICc value: 1976.764
Adaptive bandwidth (number of nearest neighbours): 90 AICc value: 1965.391
Adaptive bandwidth (number of nearest neighbours): 63 AICc value: 1955.65
Adaptive bandwidth (number of nearest neighbours): 45 AICc value: 1945.059
Adaptive bandwidth (number of nearest neighbours): 35 AICc value: 1940.915
Adaptive bandwidth (number of nearest neighbours): 28 AICc value: 1938.911
Adaptive bandwidth (number of nearest neighbours): 24 AICc value: 1938.848
Adaptive bandwidth (number of nearest neighbours): 21 AICc value: 1941.492
Adaptive bandwidth (number of nearest neighbours): 25 AICc value: 1938.798
Adaptive bandwidth (number of nearest neighbours): 26 AICc value: 1939.632
Adaptive bandwidth (number of nearest neighbours): 24 AICc value: 1938.848
Adaptive bandwidth (number of nearest neighbours): 25 AICc value: 1938.798
4、 建模分析
利用上述带宽,对模型进行求解,输出结果包含全局回归分析部分和地理加权回归结果部分。
> gwr.res<-gwr.basic(GenEl2004~DiffAdd+LARent+SC1+Unempl+LowEduc+Age18_24+Age25_44+Age45_64, data=Dub.voter, bw=bw.gwr.1,adaptive=TRUE,kernel ='gaussian')
> gwr.res
***********************************************************************
* Package GWmodel *
***********************************************************************
Call:
gwr.basic(formula = GenEl2004 ~ DiffAdd + LARent + SC1 + Unempl +
LowEduc + Age18_24 + Age25_44 + Age45_64, data = Dub.voter,
bw = bw.gwr.1, kernel = 'gaussian', adaptive = TRUE)
Dependent (y) variable: GenEl2004
Independent variables: DiffAdd LARent SC1 Unempl LowEduc Age18_24 Age25_44 Age45_64
Number of data points: 322
***********************************************************************
* Results of Global Regression *
***********************************************************************
Call:
lm(formula = formula, data = data)
Residuals:
Min 1Q Median 3Q Max
-23.9343 -3.3500 0.4952 3.4707 13.4373
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 77.70467 3.93928 19.726 < 2e-16 ***
DiffAdd -0.08583 0.08594 -0.999 0.3187
LARent -0.09402 0.01765 -5.326 1.92e-07 ***
SC1 0.08637 0.07085 1.219 0.2238
Unempl -0.72162 0.09387 -7.687 1.96e-13 ***
LowEduc -0.13073 0.43022 -0.304 0.7614
Age18_24 -0.13992 0.05480 -2.554 0.0111 *
Age25_44 -0.35365 0.07450 -4.747 3.15e-06 ***
Age45_64 -0.09202 0.09023 -1.020 0.3086
---Significance stars
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.304 on 313 degrees of freedom
Multiple R-squared: 0.6383
Adjusted R-squared: 0.629
F-statistic: 69.03 on 8 and 313 DF, p-value: < 2.2e-16
***Extra Diagnostic information
Residual sum of squares: 8805.251
Sigma(hat): 5.245609
AIC: 1999.15
AICc: 1999.858
***********************************************************************
* Results of Geographically Weighted Regression *
***********************************************************************
*********************Model calibration information*********************
Kernel function: gaussian
Adaptive bandwidth: 25 (number of nearest neighbours)
Regression points: the same locations as observations are used.
Distance metric: Euclidean distance metric is used.
****************Summary of GWR coefficient estimates:******************
Min. 1st Qu. Median 3rd Qu. Max.
Intercept 62.012248 72.829881 80.048930 92.440428 112.9831
DiffAdd -0.580554 -0.287084 -0.104285 0.033510 0.5200
LARent -0.138133 -0.108998 -0.086609 -0.060518 -0.0255
SC1 -0.107798 0.097477 0.213065 0.330217 0.6307
Unempl -1.725240 -0.886922 -0.697879 -0.502747 -0.1479
LowEduc -3.151604 -0.647137 0.267017 1.320805 2.7557
Age18_24 -0.386244 -0.210260 -0.147768 -0.034195 0.3549
Age25_44 -1.049659 -0.664023 -0.448819 -0.317477 -0.1191
Age45_64 -0.877839 -0.331709 -0.084343 0.069030 0.2888
************************Diagnostic information*************************
Number of data points: 322
Effective number of parameters (2trace(S) - trace(S'S)): 68.87372
Effective degrees of freedom (n-2trace(S) + trace(S'S)): 253.1263
AICc (GWR book, Fotheringham, et al. 2002, p. 61, eq 2.33): 1938.798
AIC (GWR book, Fotheringham, et al. 2002,GWR p. 96, eq. 4.22): 1865.704
Residual sum of squares: 5287.326
R-square value: 0.7827857
Adjusted R-square value: 0.723449
***********************************************************************
5、结果可视化
点数据可视化:以下为点数据残差可视化代码与结果