共线性的诊断与评价名词解释

共线性的诊断与评价名词解释:

文献中对共线性一直没有严格的定义。

术语Collinearity、multicollinearity、ill conditioning都用来表示共线性。从字面上,两个变量共线性是指两个变量的数据向量落在一条直线上,即在一维子空间上。

一般来说,k个变量共线性,是指如果这k个变量的数据向量落在维数小于k的子空间上,即其中一个向量可以用其它几个向量线性表示。实际上,这种精确的共线性是很少出现的,共线性只是近似意义上的。

在线性回归模型中,共线性是指设计矩阵中列向量与列向量之间是否存在共线性。所以从本质上说回归模型中的共线性是设计矩阵的数据特征,而不是回归模型的统计特征。

但在线性回归的许多应用领域中,数据常常是非试验数据,这时数据之间常常出现共线性,那么对于建立在该数据基础上的线性回归模型的统计方面是否会出现问题?答案是肯定的。共线性虽不是统计问题,但对二乘估计及其它估计有很重要的影响。

共线性的诊断与评价就是要对数据矩阵中共线性的存在提出诊断方法,研究共线性存在时,对回归估计等的影响程度进行评价,并提出相应治疗措施。

关于对数据矩阵中共线性的诊断,人们提出了一些方法,最直接的就是直观诊断法。直观上,实际工作者认为变量之间应呈现某种规律,如回归系数的符号;另外有些变量实际工作者对其重要程度有一个认识。如果回归结果跟想象的不符,则人们常认为数据矩阵中有共线性存在,或用共线性来解释这种不符合。

但这种不符合的出现并不是共线性的充分必要条件。下面介绍几种诊断方法:

相关阵R的检验法。当是中心标准化时,,当某两个变量之间的相关系数很大时,确实表明这两个变量之间存在共线性。

但可能有3个或更多个变量之间存在共线性,而没有两个变量之间存在高相关,此时,用R就不能诊断出来。

另外相关阵R不能揭示在变量之间存在几个近似共线性关系。

方差膨胀因子诊断法。

当是中心标准化长度为1的数据矩阵时有,R-1的对角元rii称为方差膨胀因子VIFi[chatterjee和Price(1977)]。它与Xi的多重相关系数Ri的关系是。式中VIFi称为方差膨胀因子是因为第i个回归系数的方差,可见VIFi很高,意味着Ri→1,即出现共线性,引起第i个回归系数的方差变大。

但这里出现与用R诊断同样的问题。另外对VIFi的高低无法给出一个有意义的界限。

Farrar与Glauber(1967)技术。

设Z是来自p维正态分布的n个样本,且是中心标准化的,则R=ZTZ。当Z的列完全共线性时,det R=0,当的列正交时,det R=1′。从而可用detR去检验Z中的列偏离正交或共线性的程度。

Farrar和Glauber提出用统计量x2=-(n-1-(2p 5)/6)lndet R,这里x2~x2(p(p-1)/2),去检验。

如显着,认为有共线性。进一步,他们还提出用偏相关系数去判定共线性的类型。该方法同样存在许多问题。

特征法诊断。目前普遍采用矩阵或相关阵R的特征根诊断共线性的存在。

Kendall(1975)和Silevy(1969)建议如果有很小的特征根存在,说明共线性存在。但对“小”,没有明确的界限。

条件数诊断。

在数值分析中,广泛采用条件数作为诊断量测。方阵的条件数定义为k=λ1/λp,其中λ1≥λ2≥……≥λp>0为的特征根。

一般认为k≥100存在较强共线性,k>1000存在严重共线性。但条件数不能告诉我们有几个共线性关系以及每个共线性关系中包含哪几个变量。

回归系数方差分解比联合条件指标诊断法。这是目前发展得比较好的一种方法。该方法由Belsley等在1980年提出的。设的列标准化。

如模型有常数项,则包含1。对任意矩阵可分解成,其中Un×p,Vp×p,Dp×p,且UTU=VTV=1,D=diag(μ1,μ2,…,μp),μi≥0,i=1,2,…,p,μi称为的奇异值。

则,V是对角化ZTZ的特征向量。是的特征根,i=1,2,…,p。

从计算角度,矩阵Z的奇异值分解的算法要比算的特征系统数值稳定性好,尤其在是病态时更是如此,人们发现,列中的近似线性关系对应着有较小的奇异值。依据条件数的定义,k(x)=μmax/μmin≥1,其中μmax,μmin为Z的非零最大和最小奇异值,它反映病态条件的程度。于是定义ηkmax/μk,k=1,2,…,p,为矩阵Z的第k个条件指标。如果出现高条件指标,就认为Z列中有近似线性依赖。

大量的模拟研究表明,如果共线性很弱,条件指标小于10,共线性很强,条件指标在10到30之间,共线性很严重,条件指标在30以上乃至100以上。由此有n个高条件指标,就有n个共线性关系。

进一步,通过回归系数的方差Var(b)

,进行分解有可见Var(bk)分解成p项和,每项只与唯一的一个奇异值对应。令,,则定义第k、第j个方差分解比为πjkkjΦk,k,j=1,2,…,p,从而存在n个条件指标诊断为高条件指标,就有n个共线性关系。

在与高条件指标相应的方差分解比中,有n个回归系数的方差分解比大(超过0.5),就认为有n个变量包含在共线性关系中,并且这些方差分解比的大小提供了对应的回归估计受共线性影响的程度。

诊断出线性回归模型中共线性存在以后,必须消除或设法减弱共线性,以便提高最小二乘估计的精度,提高预测的准确性。这种补救的方法一是引进新数据,但此时新数据可能成为强影响点;另一种是利用Bayes技术,通过对回归系数β引进一些随机约束来改进估计;还有一种是用有偏估计如岭估计方法,通过引进岭参数,增强二乘估计,主成分估计等的稳定性。

(南京理工大学戴伯新撰;项可风审)

(0)

相关推荐

  • 方程组的解与秩

    方程组的解与系数矩阵的秩相关,解的情况由矩阵的自身的信息与秩的信息确定.AX=b,是一个线性方程组,A为m*n系数矩阵.方程组有解说明了向量b在系数矩阵的列空间中,可以为列向量线性表示.讨论解的情况关 ...

  • Lasso回归算法:坐标轴下降法与最小角回归法小结

    公众号后台回复"python",立刻领取100本机器学习必备Python电子书 前面的文章对线性回归做了一个小结,文章在这:线性回归原理小结.里面对线程回归的正则化也做了一个初步的 ...

  • 名词解释:中间消耗

    中间消耗(zhōng jiān xiāo hào)名词解释:也称中间投入,是指生产单位在核算期内为获得总产出而转换或消耗的非耐用货物和服务的价值.其内容具体包括生产者在生产经营过程中所消耗的原料.材料 ...

  • 名词解释:临时设施

    临时设施(lín shí shè shī)名词解释:是指建筑业企业为保证施工和管理的进行而建造的各种简易设施,包括现场临时作业棚.机具棚.材料库.办公室.休息室.厕所.化灰池.储水池.沥青锅灶等设施: ...

  • 名词解释:国有资产预算管理

    国有资产预算管理(guó yǒu zī chǎn yù suàn guǎn lǐ)名词解释:是指国有资产所有者代表机构为实现其职能,利用价值形式,在所管理的范围内,对具有一定法律形式和制度保证的国有资 ...

  • 名词解释:偿债基金折旧法

    偿债基金折旧法(cháng zhài jī jīn shé jiù fǎ)名词解释:是固定资产折旧的一种方法,在信托者手中存放一笔现金基金,将每年的折旧费存入,以便以后代置固定资产之用.此方法要考虑资 ...

  • 名词解释:原始成本

    原始成本(yuán shǐ chéng běn)名词解释:亦称历史成本.资产在其取得时,为它所支付的现金或现金等价物的金额.负债在正常经营活动中,为交换而收到的或为偿付将要支付的现金或现金等价物的金额 ...

  • 名词解释:会计核算软件

    会计核算软件(kuài jì hé suàn ruǎn jiàn)名词解释:是指专门用于会计核算工作的电子计算机应用软件,包括采用各种计算机语言编制的用于会计核算工作的计算机程序.凡是具备相对独立完成 ...

  • 【新人】名词解释:“重生”是什么?

    所谓重生,标准模式是主角回到若干年前,带着这些年的记忆,成为更年轻时的自己,而这些记忆,这些人生经历,自然成为了他最强大的金手指. 如果说系统流是近几年渐渐被写滥的话,重生文可就是被写滥了十几年了,而 ...

  • 明清瓷器名词解释

    景德镇原名昌南镇,因其烧制的明官窑瓷器光至茂美,底部有"景德年制"故名景德镇.明初,景德镇御窑厂成立,从此景德镇成为北方制瓷的中心.御窑专供烧造宫廷使用的器物,制作精巧,无物不备. ...

  • 名词解释:外汇信托放贷

    外汇信托放款(wài huì xìn tuō fàng kuǎn)名词解释:是指金融信托投资机构运用吸收的外汇信托资金或自筹外汇资金对目行审定的企业或项目发放的贷款.外汇信托放款按期限分为短期外汇信托 ...