学习统计学必须掌握的几个核心概念
统计学不是简单的分析工具,是一种思考问题的思维方式,让我们客观地看待事物,冷静地分析情况,让我们避免人云亦云,减少错误地判断。上篇,我提到过回归分析的道与术,继续拿回归分析说说。我分析数据这么多年,从中得出的经验,就是:太完美的数据根本不可能有,即使有往往反而有问题,因为很有可能是经过改编过的。折射到我们人生,也恰恰说明人生本就是不完美。也许你会感叹自己的人生不如意,这个时候你可以考虑一下回归的含义,也许会有一种新的体会。当我们从生活的角度去重新体会“回归”的含义时,你会发现,其实这正是我们古代哲人所说的“物极必反”的真谛。当我们无论我们的境况如何,都应该想到,我们最终将会“回归”平常,回归自然。
再简单说说因子分析,它则是体现了一种抓主要问题的思想。当很多问题摆在我们面前的时候,这个时候假如你想要研究所有的问题,往往抓不住事物的本质,容易丧失方向。应该像因子分析一样,抓住这些特征背后的关键因子是什么,抓住这一点,一切问题就迎刃而解。
当前网络盛行的时代,各种信息纷繁复杂,也许让你眼花缭乱,根本分不清真相。其实我最想说的就是,无论现在的信息多么膨胀,我们都要保持一个清醒的头脑。片面的信息就像单因素分析,未必准确,往往会混杂了一些其它因素的影响,这时候你是很难做出判断的。如果你根据单因素做出了判断,结果很难说到底是否准确,只有多收集信息,利用多因素分析,排除混杂因素,这时候你得到的结论才是可靠的。
什么是统计学
什么是统计学?统计学解决什么问题?统计学是数学的分支吗?很多问题,一直是争论不休的。但是,根据统计学的发展历史来看,唯一可以确定的,统计学的生命源泉来自于外部,主要目的是解决现实中碰到的,带有不确定性因素的问题。只要我们面临不确定性,从实验设计、数据收集、收集分析,以及结果的解释,都是统计学需要解决的问题的。
所以说,统计是处理数据的一门科学。人们给统计学下的定义很多,比如“统计学是收集、分析、表述和解释数据的科学”;“统计是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概况、演示、分析、解释和得出结论”。综合地说,统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。
数据分析所用的方法可分为描述统计方法和推断统计方法。描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据推断总体特征的统计方法。比如,要了解一个地区的人口特征,不可能对每个人的特征进行一一测量;对产品的质量进行检验往往是破坏性的,也不可能对每个产品进行测量。这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是统计推断要解决的问题。
总体与样本
统计研究的目标是总体。
什么是总体?它是包含所有研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,比如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合,等等。
实际研究的内容却是样本。
什么是样本?它是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征。比如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本,然后就根据这100个灯泡的平均使用寿命去推断这批灯泡的平均使用寿命。
再举个通俗的例子来理解总体和样本。为了了解某区八年级学生的身高,有关部门从八年级中抽200名学生测量他们的身高,然后根据这一部分学生的身高去估计某区所有八年级学生的平均身高。
总体:某区八年级学生每人身高的全体
个体:每名学生的身高
样本:被抽取的200名学生的身高
样本容量:200
参数与统计量
总体与样本,参数与统计量,是一一对应的关系,通常叫总体参数和样本统计量。参数是用来描述总体特征的概括性的数字度量,它是研究者想要了解总体的某种特征值。研究者所关心的参数通常有总体平均数、总体标准差、总体比例等。
由于总体数据通常是不知道的,所以参数是一个未知的常数。比如,我们不知道某一地区所有人口的平均年龄,不知道一个城市所有家庭的收入的差异,不知道一批产品的合格率,等等。正因为如此,所有才需要进行抽样,根据样本计算出某些值去估计总体参数。
统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样的随机的,因此统计量是样本的函数。研究者所关心的统计量主要有平均数、样本标准差、样本比例等。由于样本是已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样本统计量去估计总体参数。
除了样本均值、样本比例、样本方差这类统计量,还有一些是为统计分析的需要而构造出来的统计量,比如用于统计检验的z统计量、t统计量、卡方统计量、F统计量等等,以后会一一介绍。
数据类型与变量
统计数据是对现象进行测量的结果。比如,对经济活动总量的测量可以得到国内生产总值(GDP)数据;对股票价格变动水平的测量可以得到股票价格指数的数据;对人口性别的测量可以得到男女分布比例的数据。
按照所有的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据,是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。比如,人口按照性别来分为男和女两类;企业按行业来分可以分为医药企业、家电企业、纺织品企业等。为了方便处理,对于分类数据可以用数字代码来标识各个类别,比如,用1表示男性,0表示女性。
顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的,比如将产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格以及不及格等。同样,顺序数据也可以用数字代码来标识,比如,1——优,2——良,3——中,4——及格,5——不及格。
数值型数据,是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。
按照统计学数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或者观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。而实验数据则是在实验中控制实验对象而收集到的数据。社会经济现象的数据大部分都是观测数据,而自然科学领域的数据大部分是实验数据。
按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。截面数据,是在相同的时间点上收集的数据,这些数据通常是在不同的空间上获取的。比如全国31个省份的GDP数据。时间序列数据,是在不同时间点收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。比如某省份2010年到2019年的GDP数据。
变量是说明现象某种特征的概念,比如“商品销售额”、“受教育程度”和“产品质量等级”等都是变量。变量的具体取值成为变量值,比如商品销售额可以是20万元、30万元等,这些数字就是变量值。根据数据的类型,可以分为分类变量、顺序变量和数值型变量。而数值型变量,又可以分为离散型变量和连续型变量,离散型变量是只能取有限个值,而且其取值都是整数,比如企业个数,产品数量等都是离散型变量。年龄、温度等都是连续型变量。