R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法

2024-04-28 14:50:39

原文链接：http://tecdat.cn/?p=23709

在经济学中，技术效率是指在既定的投入下产出可增加的能力或在既定的产出下投入可减少的能力。常用度量技术效率的方法是生产前沿分析方法。所谓生产前沿是指在一定的技术水平下，各种比例投入所对应的最大产出集合。而生产前沿通常用生产函数表示。前沿分析方法根据是否已知生产函数的具体的形式分为参数方法和非参数方法，前者以随机前沿分析（StochasticFrontierAnalysis，下文简称SFA）为代表，后者以数据包络分析（DataEnvelopeAnalysis，下文简称DEA）为代表。

本文在R软件中实现SFA、DEA与自由处置包分析FDH模型。

用R进行模拟

1.按照p=0.2的二项分布，随机生成一个大小为100的向量。

> x

plot(table(x), main = "frequency")

其他分布。泊松P（λ）（函数rpois）等。

2.数字变量按照高斯分布N（μ=1，σ=1）随机生成一个大小为100的向量。

> x hist(x, main = "")

其他分布。Uniform U[a,b]（函数runif）等等。

模拟数据

输出y和输入x都是n=15的大小

真正的前沿是由函数定义的。

为了模拟数据:

1. 定义输入的矢量为x∼U[0,1]

2. 定义一个向量u∼N+(µ = 0.25, σ = 0.2)

3. 输入的矢量定义为

函数set.seed允许我们保持相同的模拟数据

> u = rtmvnorm(n = ns, mean = c(0.25), sigma = c(0.2),
+ lower = c(0))
> y = ybar/(1 + u)

数据的表示方法

模拟数据。

> plot(y ~ x

绘制真正的边界。

> lines(t.fr ~ x.seq)

"真实前沿 "效率测算

以产出为导向的测算。

输入导向的方法:

Shepard 方法:

> lambda = y/sqrt(x)
> theta = y^2/x
> delta = 1/theta

可重复研究

> matable <- xtable(tab1\[1:5, \], digits = 3, align = "l|ccc",
+ caption = ""真实前沿效率测算")

表:真实_前沿效率_

随机前沿

1.用函数lm调整一个线性模型，并保留回归线的系数β：y = α + βx

2. 找到能使（yi-yˆi）最大化的公司k，i=1，...，n。注意，公司k可以通过函数识别来手动找到和检测

3. 计算α 0，使回归线y = α 0 + βx穿过企业k，并代表随机前沿。

点击标题查阅相关内容

R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响

左右滑动查看更多

01

02

03

04

1. OLS 模型

> res.lm <- lm(y ~ x)

2. 使用函数识别

> identify(x, y)

3. 找到α0

> alpha2 <- y\[3\] - beta.lm\[2\] *
+ x\[3\]
> plot(y ~ x, type = "p",
+ 1))

随机前沿效率测算

让我们定义f1 : x → α 0 + βx

> f1 = function(x) alpha2 + beta.lm\[2\] * x

> f1.inv = function(x) (x - alpha2)/beta.lm\[2\]

面向产出的方法。

面向输入的方法:

Shepard 方法:

DEA - FDH 表示

手动检测位于两个边界上的公司

> plot(y ~ x)
> lines(x\[c(2, 9, 3, 4)\], legend = c("DEA",
+ "FDH"))

DEA-FDH效率前沿/衡量标准

让我们考虑5号公司

1. 如果该公司在输出方向上是有效的，它将位于前沿线的哪一部分？在输入方向上？

2. 利用这个估计前沿的位置，计算出效率的衡量标准

Naive Bootstrap

重复B次(用循环的方式)

1.用函数样本在15个观测值中取样

2.计算前沿的新估计值

3.计算新的效率方法

4. 储存结果，计算偏差, 方差, 置信区间

对真实数据的分析

数据集

在62个农场观察到一个输出变量和三个输入变量

> plot(y ~ x1,pch = 16, col = "blue")
> abline(lm(y ~ x1, data), col = "red")

散点图3-d

> scatterplot3d(x1,
+ x2, y)

数据结构

p个输入包含在一个p×n的矩阵中

> input <- t(cbind(spain$x1, spain$x2, spain$x3))

q个输出包含在一个q×n的矩阵中

> output <- t(matrix(spain$y))

效率的衡量标准

计算 DEA 效率估计值

计算 FDH 效率估计值

计算m阶效率估计值

计算非参数的条件和非条件的α-量化估计（默认情况下，α=0.95

> res <- rbind(dea, fdh, orderm,
+ res.hquan)

你可以使用函数order或sort来计算企业的排名，排名根据效率测算。

> plot(density(res.dea)

Bootstrap

函数boot实现了Simar和Wilson（1998）的bootstrap方法，用于估计Shepard（1970）输入和输出距离函数的置信区间。

> boot(input, output)

赞 (0)

Ace Admin 使用教程

(原) 公司项目要换框架,然后丢了一套国外的给我,ace admin,本想着拿来改改,翻翻百度就能用的,可它是国外的啊,国内普及率又不高,没办法,硬着头皮一点点啃英文文档吧. 最近留邮箱要文档的太多拉 ...
直播！R语言入门和ggplot2科研数据可视化入门分享！就在今晚，欢迎大家参加呀！

会议时间:2021/03/17 19:30-21:30 (GMT+08:00) 点击链接入会,或添加至会议列表:https://meeting.tencent.com/s/H9goXk0EWnqO 会 ...
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

原文链接:http://tecdat.cn/?p=4146 通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等人(2 ...
R语言with/within函数添加数据框到环境变量

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. R语言中的with/within函数介绍一个神操作如何把数据框或列表 ...
R语言对推特twitter数据进行文本情感分析

tweets <-trump_tweets_df>%select(id, statusSource, text, created) %>%extract(statusSource, ...
R语言主成分回归（PCR）、多元线性回归特征降维分析光谱数据和汽车油耗、性能数据

原文链接:http://tecdat.cn/?p=24152 什么是PCR?(PCR = PCA + MLR) · PCR是处理许多 x 变量的回归技术 · 给定 Y 和 X 数据: · 在 X 矩阵 ...
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析

原文链接:http://tecdat.cn/?p=22328 目前,回归诊断不仅用于一般线性模型的诊断,还被逐步推广应用于广义线性模型领域(如用于logistic回归模型),但由于一般线性模型与广义线 ...
R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

原文链接:http://tecdat.cn/?p=21602 正则化(regularization) 正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径.该算法 ...
R语言多元时间序列滚动预测：ARIMA、回归、ARIMAX模型分析

原文链接:http://tecdat.cn/?p=22849 当需要为数据选择最合适的预测模型或方法时,预测者通常将可用的样本分成两部分:内样本(又称 "训练集")和保留样本(或外 ...
R语言极值理论EVT：基于GPD模型的火灾损失分布分析

原文链接:http://tecdat.cn/?p=21425 极值理论关注风险损失分布的尾部特征,通常用来分析概率罕见的事件,它可以依靠少量样本数据,在总体分布未知的情况下,得到总体分布中极值的变化情 ...