多值选择模型概述
一、导论分类数据是关于被解释变量的数据,被解释变量数据可以归结为多种互斥数据中的一种。例:考试成绩的评价:优秀、良好、中等、差。身体状况:极好、正常、差。被解释变量的类型多余两种,我们称之为多值或者多项。计量经济学文献主要侧重于从几个互斥的类别中建立单一结果模型,其中被解释变量的结果必须服从多项分布,二值选择模型中服从伯努力或者二项分布。但是,我们不能直接进行分析。因为多项分布的概率,有不同的模型可以使用。对模型进行分类:有序、无序,并且任意给定模型的参数都是难以进行解释的,一般感兴趣的是代表值处的边际效应(MES),其反映了对可观测的结果中每个结果概率值的影响,并不是对某个单一条件均值的影响。二、概述2.1 概率和ME以解释变量xi为条件,某个个体i的结果为j的概率值为
i=1,2……n j=1,2……m其中对应于不同的多项选择模型。由于总概率值为1,所以有m-1个概率值可以自由设定。例如
注意:多值选择模型的参数并不能直接进行解读。系数为正并不能说解释变量系数的增加就会使被选择结果的概率值增大。主要解释是通过计算边际效应。
上式表示样本(个体)i中的第k个解释变量对结果j的边际效应。2.2 MLE使用极大似然估计(MLE)进行估计,第i个个体的密度函数可以表示为:
其中yi1,...,yim是m个指示变量,如果yi=j,那么yij=1,否则yij=0N个独立观测值的样本的似然函数是其N个密度函数的乘积,所以:
极大似然估计量,使其对数似然函数最大化:
并且服从
2.3 Stata多项选择命令表1:用于多项选择的Stata命令模型命令数据条件Logit模型clogit asclogit长格式嵌套Logit模型nlogit长格式多项选择Probit模型mprobit asmprobitasmprobit长格式秩-序模型rologit asroprobitAsroprobit 长格式有序模型ologit optobit立体Logit模型slogit二元probit模型biprobit注:标红使用长格式数据,其余的使用宽格式数据。可以使用因子变量的命令是asclogit、 asmprobit、asroprobit、nlogit