统计学定义是,通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学研究数据,发现数据背后的规律。不过,大部分初学者对这样的统计学定义依然一知半解。统计学的本质是什么?统计学是数学吗?如果不是数学,它和数学有什么关系?我们统计分析的目的是什么?它的原理难以理解,如何应用统计原理于数据分析呢?今年秋季以来,作为一名浙江中医药大学的医学统计学教授,通过不断地学习与反思,本人总结出一些出关于统计学本质、统计思维的关键感悟。特此撰写长文进行梳理,来帮助学习者来理解统计学。
本篇文字约5000字,阅读时间为14分钟。无论你正在、将要或者已经完成学习统计学,我都推荐你们耐心阅读。
我分5点来介绍统计学的实质
1.统计学的本质;
2.统计学是数学吗?
3.统计学是抽样研究;
4.统计学是经济学;
5.统计学核心是研究变量与变量之间的关系。
现代统计学诞生于19世纪末20世纪初,奠基人Karl.Pearson与其前辈们一起,将统计学方法用来描述事物客观现象。更准确来说,他们在大规模群体的基础上,用一种数学的参数(比如均数、标准差)描述事物的状态。随后,另外一位取得卓越成就的现代生物统计学大师Fisher认为,统计学可用小样本的信息来推断真实世界的事物特征。他提出了假设检验思想,也就是统计学的最为核心的思维与方法。现代统计学的发展直至今日,仍然主要以Fisher的思想体系为基础。统计学思维认为,客观世界存在着一些普遍性的规律。这些规律,虽然是确定的,但是不可知的。因为客观世界的规律是所有群体表现出来的特征,统计学称之为总体的特征。总体特征可否直接得到?不能。人类能够听到的、见到的、感觉到的,只是总体客观世界的局部反映而已。局部的体现可称之为样本的特征。我们只是盲人摸象、管中窥豹罢了。那么,管中窥豹,可否全豹?显然不能,但能见一斑。什么意思?我们可以看到整体的一部分,即样本,庆幸的是样本和总体有一定的相似性。所以Fisher认为,虽然无法直接得知客观世界的真实地特征,但是只要局部群体的特征具有代表性,那么局部可以反映总体;总体特征依然可以猜出来的。由此诞生了现代统计学。现代统计学家寻找各种技术与方法猜总体,来实现人类孜孜以求的夙愿---发现科学的真谛。为达到这一目的,统计学家首先需要采集一定代表性的样本,描述样本的特征,比如样本的均数,样本的率;接着借助一定统计技术,比如总体参数置信区间估计方法、假设检验方法,来判断总体的特征,从而发现数据背后存在着的一般性规律。这就是统计学的基本方式:根据小规模的代表性群题的信息,去猜测事物或者数据背后一般的运行规律。医学研究的统计过程亦是如此。研究者可能想知道药物的效果,或者想证明某种外科治疗手段的价值,或者期望证明适度饮酒对身体有没有伤害?统计本质而言,都是在探讨人类一般规律性的科学问题。任何学者探讨的医学问题,都不是针对观察到的群体,而是基于观察得到的表面现象,探讨现象背后的本质规律。因此,《赤裸裸的统计学》一书的作者称,统计学家做的事情就是侦探家做的事情。侦探家,会运用各种侦探技术,根据案发现场的一切可观察得到的信息,去侦破犯罪的过程。犯罪起因、犯罪目的、最重要是罪犯是谁?为解答这些问题,一系列逻辑思维和缜密的推导过程会展开。统计研究过程何其像呀。案发现场就是的我们能采集的到的样本,案发现场的蛛丝马迹便是统计学计算得到的样本均数。数据背后是什么?背后必然有相应的规律导致这一现象的发生。医学研究人员应该为此感到高兴。当我们能从一个杂乱无章的现场识别背后的罪犯时,这不是激动人心的时刻吗?统计学是数学吗?这是困扰所有学习统计学的人。针对这一问题,有些人认为,统计学分析核心内容均为数学运算,根据数学公式去产生所需要的均数、标准差、百分数;另外则有人认为,统计学就是概率,它总是在讨论总体的发生概率(的确,统计学非常重要的指标P值就是关于概率学的概念)。这两类说法都不是很准确。统计学并非数学,两者存在着一定的区别。统计学不是数学,学习难度没有数学那么难。概率论确实是数学的一部分,统计学也非常倚重于概率学。但是,统计学并非概率学。一方面,概率论只是基于总体层面进行理论推到和运算,是数学演算和分析,并不涉及样本及基于样本推断总体的逻辑思维。另外一方面,现代统计学诞生的时间比概率论理论早了半个世纪。概率论还在发展萌芽中时,现代统计学就借助其基本朴素的思想----发生可能性发展了现代统计学的统计推断思想。数学是一种演绎的思想,从理论的公式来,到理论的公式去,即公式证明公式,最终人类用公式来指导自然科学的发展。比如,爱因斯坦的E=MC2公式。这是20世纪伟大的物理学家爱因斯坦基于其它数学和物理学理论演绎出来的新的真理性的公式。它揭示客观世界的一个规律是质量乘以光速的平方等于能量。这一公式具有跨时代的指导意义,它推动了20世纪核工业的发展,譬如核电站的建设与发展,核武器的研究与发展。因此,数学的公式意味着真理,它科学地反映了客观世界的规律。它具有指导性,是现代自然科学发展的根本性源泉。但是,绝大多数客观世界的规律不像数学“1+1=2”恒等不变。比如,天气预报对于明天的判断、高血压治疗药物对于一名高血压患者的治疗效果,都是确定的。可能所有人高血压患者中, 55.0%的比例有效果,但是将近一半的患者药物效果不佳。这一总体人群的治疗效果无法用公式推导产生,也无法直接测量,只能被猜测,基于样本的特征推断产生。因此,统计学与数学之间存在着非常明显的区别。统计学是一种归纳。它无法直接计算,但它往往通过汇总真实的数据(而非理论公式)来猜测总体的信息(而非计算),而归纳的总体存在着一定不确定性。数学和统计学上述区别导致两者在应用上存在着明显的差异。数学主要用于宏观的指导,比如爱因斯坦的公式,它能够揭示核物质的理论产能结果。但是,实际上,一公斤的核物质,产生的能量不严格等于MC2,其实每个类型的核反应堆产生的能量是不确定的,但相同类型的核反应堆产生的能量遵守一定的自然规律,它可以通过统计分析探究得到。因此,统计学在应用层面更为细致和微观。统计学作为发现事件真相的科学方法,其整个过程和抽样这一动作紧密结合,难以分割。统计学过程实际上很大程度上是一个抽样过程,任何的统计研究都是如此。统计学研究利用了一小部分群体,也就是基于样本推断总体。这一过程看似是研究人员顺手看到信息来猜测总体,似乎很简单。实际则不然,统计学过程存在着一个复杂的抽样过程。要去猜总体,一个重要的举措就是精心准备的样本。我们看得的,顺手拿到的,其实不是好的样本。因此,高质量的统计研究,首先就是要拿到高质量的样本。任何统计研究项目,其核心内容就是抽样研究。既然是抽样研究,研究人员需要认真考虑:什么是好的样本?好的样本,指的是,能够代表总体的样本。统计研究核心任务是猜测总体,“卡脖子”的情况便是样本是否有代表性。具有代表性的样本,则推断产生的总体和实际情况相差无几;没有代表性的样本,则将得到有偏的总体。但是,好的样本就需要精心准备,精心设计,精心实施,都非易事。因此,统计研究不是那么轻松、简单的数据工作,而是一项复杂的系统工程。为实现样本的代表性,统计研究需要解决两个关键问题。第一,什么方式抽样才能得到代表性样本;第二,样本量是多大。这两个问题,是当前任何统计学研究都无法回避的事情。任何的统计研究,研究的对象必然要千挑万选,考虑包括且不仅限于以下内容:抽样的方法、具体抽样的过程、抽样的误差、各亚组人群的比例、等比例还是等误差?抽样的分层数、随机数字的产生方法等。整个过程严谨细致,其抽样结果真正代表统计研究希望探讨的目标总体群体。同样重要的是样本量的考虑。样本量的多少直接决定整个研究项目的成功与否。若研究者未采纳相对科学的样本量测算方法,则会陷入迷思:我的研究项目到底需要多少样本量。因为,过低的样本量,会导致统计分析很可能得不到所期望的阳性结果(P<0.05), 意味着整个项目半途而废;过高的样本量,那么项目的人财物投入将面临严重的考验。因此,一个高质量的统计研究,样本量是无法绕开的坎。根本而言,考虑统计分析不仅是要认真考虑分析技术的问题,更重要的是,必须认识它本身不仅是一个数据分析问题,更是抽样研究的问题。这一思维必须建立起来,否则任何研究都将失去统计学的真正内涵。统计学是经济学的理念,是目前学习统计学的人基本缺乏的基本思维方式。统计学为什么和经济学划等号了呢?经典的经济学主要是理性主义经济学,它是一门研究人类如何将有限或者稀缺资源进行合理配置,从而实现资源价值最大化的科学。统计学研究亦是如此,它是合理分配科研人员的智力、时间和资金来有效发现事物运行规律,实现发掘真理的过程。统计学不是数学。数学研究者只要一纸一笔,甚至是评价大脑思考就能完成它的伟大证明过程,甚至计算机都不需要。近几年,一个非常著名的华人科学家张益唐(1955-),他初步证明了困扰全世界科学家几十年的“弱孪生素数猜想”。据其介绍,这一证明的主要思考过程,是他在朋友家院子里等待观看野生梅花鹿现身的时间内完成。英国数学家安德鲁.怀尔兹,躲在自家阁楼15年,经过长年的思考和演算最终成功完成费马大定理的证明。然而,统计学必须借助于庞大的客观世界,将人、动物、环境、计算机等元素整合在一起,才能完成统计过程。它与其它社会运动一样,整个过程将会产生诸多成本,这些成本是必须的,是真相发现过程必须支付的,统计学研究须在人力、物力、财力的共同支撑下才能实现。因此,统计学研究必须要尽量控制成本,用尽量小的成本来发现事物背后的真相,它是具有较好成本效益的一种方法学。统计学控制成本的方式便是抽样,它基于小规模样本而不是直接探讨总体。它的思维方式是,采用研究需要的最小样本量,实现发现社会的运作规律的目标。这与经济学思维方式不谋而合。为了实现这一目标,统计学研究必须要妥善分配资源,想方设法采取合理简约的方式来实现抽样和数据采集,采用精致的模型来规避由于简易化抽样调查过程带来的一些缺陷。因此,统计学学习人员,必须要了解甚至是掌握一些精致的统计学方法。这有利于减少成本而仍然实现相应的统计分析目标。很遗憾的是,当前一些研究没把统计学研究视为一种经济学过程,而是认定为一种医学过程的点缀。举个例子,近几年,有国内医学研究团队基于全国大范围50万人群队列进行研究与分析,探讨影响中国人群健康的主要饮食、环境、行为因素。由于人群规模极其庞大,研究成果连续在国际顶级期刊《新英格兰医学杂志》、《柳叶刀》杂志发表了多篇学术论文。学界和人民为之骄傲、感动,这是中国原创性的成果。然而,从经济学角度来看,这并非值得提倡的事情,这是违背统计学研究思维的事情。为什么?从发表论文角度,医学研究人群规模越大,耗费资金越多,录用杂志等级将越高。50万的人群规模,数以亿计的科研经费,全世界范围都屈指可数,必然有大概率的机会刊登顶级杂志。但是,从研究结果来看,10000规模人群、1000万人民币的投入同样可以获得相似的结果,差别在于录用论文的期刊,不再是《柳叶刀》,而是《柳叶刀》子刊。看起来杂志有差别,但是统计效果完全一样。发表《柳叶刀》杂志,不是说就能够有跟高概率获得诺贝奖,实际上大多数诺贝奖都没有顶级杂志录用的论文作为支撑。从经济学角度来看,50万人群的研究项目,只不过是浪费国家资源,不属于真正的统计学研究。这些学者只不过是在积累和提升个人荣誉,迎合国内虚荣膨胀的学术氛围罢了。统计学分析的主要目标是发现真相,探索世界事物运行的规律,常规的方法包括假设检验、回归分析两大类。这些统计方法发现了何种真相,探索获得了哪些规律?总结来说,医学统计学期望在其它学科的共同努力下,阐释事物属性(变量)与属性(变量)之间的关系,特别是是因果关系。无论是利用假设检验方法评价差异性,还是利用回归技术探讨影响因素,统计学无不在证明两类属性或变量之间到底有没有关系,甚至是因果关系。譬如,评价人群适度饮酒(100g-200g酒精每周)与不饮酒人群在十年内全人群死亡率的差异。比较两类人群的差别,探讨两组率的差异性,采用的统计学方法是卡方检验。实际上,这一差异性的探讨,是在进行关联性的探讨,也就是论证两个变量----饮酒量和死亡情况----因果关系。我们可能会学习道卡方检验是用来探讨组间差异性,t检验、F检验都是如此,其实他们都是在探讨变量和变量的关联性。
相关与回归分析方法,其关联性研究的意图更为直接。相关分析主要探讨变量与变量的关联性强度,而回归分析则是单方向探讨原因变量对结局变量的影响程度。譬如,我们可以将人群的健康结局(死亡情况)作为结局变量,饮酒作为原因变量,构建统计回归分析模型,探讨饮酒量是否是一个影响因素。换言之,适度饮酒和不饮酒人群相比,其对死亡率的影响影响程度多大。因此,作为统计学两大分析方法,差异性的假设检验方法和关联性方法都从各自角度探讨变量与变量之间的关联性。在更多的场合下,结合医学科研设计方法,利用复杂的统计技术,在探讨医学措施、医学有关因素与健康结局的因果关系。统计学学习者一定要清醒认识到,当大部分的医学研究都在探讨因果关联性情况下,在你面临医学研究问题时,你的统计学方法可否有效排除干扰,严谨、科学地证实它们的因果关系呢?如果不能,研究结论必然不可信、不可靠、无说服力,也缺乏科学价值。本篇到此结束,感谢诸位内心阅读,有关切的问题可以留言或者加微信号。欢迎分享本人长篇原创!本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看: