学习统计学必须掌握的几个核心概念

统计学不是简单的分析工具,是一种思考问题的思维方式,让我们客观地看待事物,冷静地分析情况,让我们避免人云亦云,减少错误地判断。上篇,我提到过回归分析的道与术,继续拿回归分析说说。我分析数据这么多年,从中得出的经验,就是:太完美的数据根本不可能有,即使有往往反而有问题,因为很有可能是经过改编过的。折射到我们人生,也恰恰说明人生本就是不完美。也许你会感叹自己的人生不如意,这个时候你可以考虑一下回归的含义,也许会有一种新的体会。当我们从生活的角度去重新体会“回归”的含义时,你会发现,其实这正是我们古代哲人所说的“物极必反”的真谛。当我们无论我们的境况如何,都应该想到,我们最终将会“回归”平常,回归自然。

再简单说说因子分析,它则是体现了一种抓主要问题的思想。当很多问题摆在我们面前的时候,这个时候假如你想要研究所有的问题,往往抓不住事物的本质,容易丧失方向。应该像因子分析一样,抓住这些特征背后的关键因子是什么,抓住这一点,一切问题就迎刃而解。

当前网络盛行的时代,各种信息纷繁复杂,也许让你眼花缭乱,根本分不清真相。其实我最想说的就是,无论现在的信息多么膨胀,我们都要保持一个清醒的头脑。片面的信息就像单因素分析,未必准确,往往会混杂了一些其它因素的影响,这时候你是很难做出判断的。如果你根据单因素做出了判断,结果很难说到底是否准确,只有多收集信息,利用多因素分析,排除混杂因素,这时候你得到的结论才是可靠的。

什么是统计学

什么是统计学?统计学解决什么问题?统计学是数学的分支吗?很多问题,一直是争论不休的。但是,根据统计学的发展历史来看,唯一可以确定的,统计学的生命源泉来自于外部,主要目的是解决现实中碰到的,带有不确定性因素的问题。只要我们面临不确定性,从实验设计、数据收集、收集分析,以及结果的解释,都是统计学需要解决的问题的。

所以说,统计是处理数据的一门科学。人们给统计学下的定义很多,比如“统计学是收集、分析、表述和解释数据的科学”;“统计是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概况、演示、分析、解释和得出结论”。综合地说,统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。

数据分析所用的方法可分为描述统计方法和推断统计方法。描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据推断总体特征的统计方法。比如,要了解一个地区的人口特征,不可能对每个人的特征进行一一测量;对产品的质量进行检验往往是破坏性的,也不可能对每个产品进行测量。这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是统计推断要解决的问题。

总体与样本

统计研究的目标是总体。

什么是总体?它是包含所有研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,比如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合,等等。

实际研究的内容却是样本。

什么是样本?它是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征。比如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本,然后就根据这100个灯泡的平均使用寿命去推断这批灯泡的平均使用寿命。

再举个通俗的例子来理解总体和样本。为了了解某区八年级学生的身高,有关部门从八年级中抽200名学生测量他们的身高,然后根据这一部分学生的身高去估计某区所有八年级学生的平均身高。

总体:某区八年级学生每人身高的全体

个体:每名学生的身高

样本:被抽取的200名学生的身高

样本容量:200

参数与统计量

总体与样本,参数与统计量,是一一对应的关系,通常叫总体参数和样本统计量。参数是用来描述总体特征的概括性的数字度量,它是研究者想要了解总体的某种特征值。研究者所关心的参数通常有总体平均数、总体标准差、总体比例等。

由于总体数据通常是不知道的,所以参数是一个未知的常数。比如,我们不知道某一地区所有人口的平均年龄,不知道一个城市所有家庭的收入的差异,不知道一批产品的合格率,等等。正因为如此,所有才需要进行抽样,根据样本计算出某些值去估计总体参数。

统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样的随机的,因此统计量是样本的函数。研究者所关心的统计量主要有平均数、样本标准差、样本比例等。由于样本是已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样本统计量去估计总体参数。

除了样本均值、样本比例、样本方差这类统计量,还有一些是为统计分析的需要而构造出来的统计量,比如用于统计检验的z统计量、t统计量、卡方统计量、F统计量等等,以后会一一介绍。

数据类型与变量

统计数据是对现象进行测量的结果。比如,对经济活动总量的测量可以得到国内生产总值(GDP)数据;对股票价格变动水平的测量可以得到股票价格指数的数据;对人口性别的测量可以得到男女分布比例的数据。

按照所有的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据,是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。比如,人口按照性别来分为男和女两类;企业按行业来分可以分为医药企业、家电企业、纺织品企业等。为了方便处理,对于分类数据可以用数字代码来标识各个类别,比如,用1表示男性,0表示女性。

顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的,比如将产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格以及不及格等。同样,顺序数据也可以用数字代码来标识,比如,1——优,2——良,3——中,4——及格,5——不及格。

数值型数据,是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。

按照统计学数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或者观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。而实验数据则是在实验中控制实验对象而收集到的数据。社会经济现象的数据大部分都是观测数据,而自然科学领域的数据大部分是实验数据。

按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。截面数据,是在相同的时间点上收集的数据,这些数据通常是在不同的空间上获取的。比如全国31个省份的GDP数据。时间序列数据,是在不同时间点收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。比如某省份2010年到2019年的GDP数据。

变量是说明现象某种特征的概念,比如“商品销售额”、“受教育程度”和“产品质量等级”等都是变量。变量的具体取值成为变量值,比如商品销售额可以是20万元、30万元等,这些数字就是变量值。根据数据的类型,可以分为分类变量、顺序变量和数值型变量。而数值型变量,又可以分为离散型变量和连续型变量,离散型变量是只能取有限个值,而且其取值都是整数,比如企业个数,产品数量等都是离散型变量。年龄、温度等都是连续型变量。

(0)

相关推荐

  • 统计学基础知识

    本篇归纳统计学基础知识,包括一些基础理论.概念.方法等,作为数据分析的前置知识. 概述 统计学的概念 什么是统计学? 统计学是关于收集.处理.分析.解释数据并从数据中得出结论的科学 数据收集也就是取得 ...

  • 医学统计学考前复习提纲

    第1章 绪论 一.名解 1.Statistic统计量:由样本观测值获得的统计指标称为统计量. 2.Statistics统计学:收集.分析.解释与呈现数据资料同时处理数据中变异的一门学科. 3.Medi ...

  • 不要再问统计学了!

    大家好,我是宝器! 昨天在知乎看到一个问题:从零开始学数据分析,什么程度可以找工作,如何计划学习方案? 提问者背景是:在coursera 上面学data science 中的R programming ...

  • 统计学的实质是什么?--写给所有将要或者正在学习统计学的朋友们

    统计学定义是,通过搜索.整理.分析.描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学.统计学研究数据,发现数据背后的规律.不过,大部分初学者对这样的统计学定义依然一知半解.统 ...

  • 梁宝川:想制定一个好的学习计划,你必须抓住这个核心

    每日写一篇文章的第3年28天 Anki考研找梁宝川 很多小伙伴进行考研学习的过程当中必不可少的一个环节,就是制定自己的学习计划. 通过计划来规划自己每天的学习行为. 但是对于很多小伙伴来说,非常容易出 ...

  • 陈春花:没有学习力,组织未来就没有核心竞争力

    导读:知识革命时代,淘汰的不是工具,而是人.激活一个人的价值,最好的方法就是让他真正拥有学习力,学习力也将成为组织未来真正的核心竞争力. 01 知识革命时代,淘汰的不是工具,而是人 从 1911 年管 ...

  • 五一出行,绝佳的英语学习机会——机场篇!14600英语核心词汇之67

    这是第67篇14600英语核心词汇学习 五一假期马上就要结束了,很多家庭会坐飞机返回.在机场打发时间,我选择带上这本书: 但是国内可能不太好买到,所以我把一些重点信息以图文结合的形式分享给大家,希望对 ...

  • 知识点!这10个国家的养老服务模式,值得学习!(一文读懂核心特征)

    本文摘编自<多种养老模式和服务技术现状与思考>,作者:黄河银.张蓝之.张勤修.李慧珍.唐迷.曾珍.原文刊载于<中国老年学杂志>2021年1月第41卷.知识产权归原作者所有.全文 ...

  • 孩子学习问题太多?4种核心方法,轻松矫正孩子的不良行为

    导读: 经常会在评论里收到家长的回复,为孩子的种种学习问题忧心不已,甚至私信咨询到底如何纠正孩子的一些不良行为. 说实话如果家长只是描述问题本身,根本无法回答,因为孩子的问题只是表象,没有" ...

  • 胡卫平:如何基于核心概念进行学习进阶的设计?

    ▲现代教学技术教育部重点实验室主任胡卫平教授 本世纪以来世界主要的发达国家和经合组织,联合国教科文组织等国际组织都在积极推动基于核心素养的改革.核心素养的培养是学生能够适应个人发展和社会发展需要的必备 ...

  • 【2021考前作文微指导1】审题:如何抓住核心概念

    问题:不少学生写作文往往扣不住中心话题,或扣住了中心话题,但对话题概念吃不透,拿不准,说不清. 写作文,都会有一个中心话题,这一话题往往从题目的材料中来,从题目的主题要求中来.中心话题往往又会具体到一 ...

  • 课题核心概念有两个可以吗

    每个研究课题,都有其"核心概念",可能遇到一个或多个的情况.那么,课题核心概念可以有两个吗?可以.课题核心概念是对课题突出关键词的诠释,一般可以有2-3个. 课题研究是要解决问题的 ...