现况调查如何进行统计分析 | 30天学会医学统计与SPSS公益课(Day14)
30天打卡学习医学统计与SPSS
Day 14:现况调查的基本统计分析策略
隶属第四章:现况调查的统计分析策略
本日学习任务
观察性研究主要包括横截面研究、病例对照研究、队列研究。其中,横截面研究这一研究设计类型中,最常见的是现况调查。
现况调查(Prevalence Survey),又称现患调查或横断面调查(Cross-Sectional Survey):采用一时性调查方法,获得某地某人群在某一时点上关于某种疾病及有关因素(流行病学称之为暴露因素)分布的信息,并查明疾病与有关因素之间的相关性。
现况调查是一类非常常见的研究,研究者通过抽样调查的方式,获得人群的信息,基于统计学方法,描述人群的健康现况,分析暴露因素与结局的相关性。
它一个最大的特点是,暴露因素和健康状况都是同一个时点采集得到,没有先后顺序!
现况调查的统计分析策略
现况调查的主要目的是描述人群的健康现况,分析暴露因素与结局的相关性。根据上述的研究目的,一般现况调查需要借助多种形式的统计分析方法。
一般情况下,现况调查的统计分析有以下几部分内容:
第一,描述样本人群的特征。这一步即为描述统计学,即计算样本人群的均数、标准差、中位数、四分位数间距、绝对数、率或者构成比。这一步同实验性研究的统计描述方法一致。
第二,参数估计。这是现况调查十分关键的一步。现况调查主要目的之一便是估计总体参数。既然如此,必须要根据样本的特征计算总体参数的置信区间。置信区间估计,可分为定量数据的总体均数置信区间估计和率的置信区间估计。本公众号先前已对率、中位数的置信区间估计做了介绍(总体率的95%置信区间估计基本方法和软件操作)、(《新英格兰医学杂志》论文统计解读:如何计算中位数差值的置信区间);至于均数的95%CI区间,SPSS软件路径是“分析-描述统计-”
第三,差异性比较。流行病学疾病现况分析存在着一个概念:三间分布,意味着要在空间、时间、和人间描述健康状况。因此一般情况下,现况调查会开展不同人群的健康结局的统计描述和不同人群的健康结局的差异性比较。
在本系列的统计课程中,我已经介绍了实验性研究的实验组和对照组的差异性分析方法, 包括t检验、卡方、F检验等。现况调查的差异性研究,一般应该采用什么方法呢?也是t检验、卡方、F检验、秩和检验!
不同的是,实验性研究的差异性结果,往往可以认定干预因素与结局的存在着因果关系,可以认为差异是干预措施带来的。而观察性研究的差异性分析结果,只能认为是两组人群是有差异的,但不能认定暴露因素与结局变量的因果关系成立!
第四、相关分析
除了从差异性分析角度探讨变量与变量的相关性,统计分析策略方面,我们往往借助更多的方法探讨变量与变量的相关性。
更多的关联性方法包括线性相关分析、秩相关分析。其中,线性相关分析和秩相关分析是研究变量相关性的重要补充,因为t检验、F检验和卡方检验,无法去分析定量变量与定量变量的相关性!(我将在接下来一讲介绍线性相关分析和秩相关分析)
第五,回归分析
要探讨健康结局与暴露因素的关联性,最有利的工具是回归分析方法。
回归分析,是关联性分析方法的高级方法。回归分析常见包括线性回归、logistic回归、Cox回归分析、Poisson回归等。
回归分析分为单因素回归和多因素回归。
单因素回归探讨一个影响因素与健康结局的关联性。当探讨暴露因素与结局变量两个变量相关时,回归分析结果与t检验一致、与F检验一致、与卡方检验一致,与线性相关分析结果一致。具体可以关注公众号推文(两组均数比较,可以用方差分析吗?谈谈结果一样的那些统计方法。)
单因素回归分析仍然属于探索性分析,因为在现实世界中, 影响健康结局的因素有很多,单因素分析无法反应真实世界中的复杂情况。
解决的方案之一便是在简单回归分析基础上,开展多因素回归分析。多因素回归可以同时探讨多个影响因素共同的作用模式,从而更为科学地探讨暴露因素与结局的因果关系,研究暴露因素对结局的影响及影响程度。
总的来说,现况调查基本的统计策略便是,统计描述、总体置信区间估计、差异性比较、相关分析、单因素与多因素回归分析。
上述5部分策略,并非需要面面俱到。一般而言,根据现况调查不同的目的,统计分析会有倾向性。当侧重于估计总体时,总体置信区间估计与差异性比较内容在统计报告中会重点阐述;当探讨关联性时,则差异性比较和回归分析会是重要内容。
特别注意
目前非常普遍的现象是,现况调查正在被不正确地应用。为此,我介绍几点注意事项:
1.以估计总体为主要目的的现况调查,必须强调抽样的代表性问题。现况调查在研究设计时,必须要采用合适的抽样调查,获得代表性的有样本。特别是估计总体的现况调查,如果缺乏科学的抽样,研究结论没有任何价值。所以,不推荐随意、随便调查来开展现况调查。