Day 2-2: 定量数据统计描述
正态性判定结果,意味着不同分布的定量数据,统计分析手段不同。这一不同体现在统计描述和统计比较(专业来说是统计推断),统计比较内容后期逐步展开,今日首先介绍下定量数据正态和偏态分布的的统计描述方法、SPSS操作和统计表格绘制。
正态与近似正态分布描述正态分布,包括近似正态分布,可以采用均数描述数据的平均值,采用标准差来描述离散程度。
偏态分布分统计描述偏态分布,特别是严重偏态分布,可以采用中位数(M)描述数据的平均值,采用四分位数间距(IQR)描述离散程度。其中四分位数间距有两种形式,第一种直接写出25%的分位数和75%的分位数(P25, P75),第二种为P75-P25的差值。
SPSS操作方法:分析—描述统计—探索SPSS可以给出分组描述和整体描述,其操作过程就在正态性检验中(2)分组描述:因变量不变,因子列表加上分组变量。第(1)步、第(2)可以给出结果的均数、标准差、方差、中位数、四分位数间距,但给不了P25, P75。P25、P75操作如下图:统计选项(这个操作很重要,诸位要掌握)单组分析结果:下面这张表给了均数、中位数、四分位数、标准差、而且也给了一个另外个重要的值,平均值的95%CI置信区间(这个东西在Day3课程用得着,大家留心下)下表给了P25、P75的值(上四分位数和下四分位数),诸位看第一行结果就可以(加权平均)一般情况下,医学研究论文,常见的数据有定量数据和定性数据,定量数据又有正态分布和偏态分布,采用的一般是描述均数和中位数;定性数据,一般采用率和构成比描述。同时,往要采用差异性比较的方法来探讨不同组间有无统计学差异。这些结果在论文中往往要同时呈现在一张表格中。特别是统计学分析的第一张表格,研究对象基本特征及其组间差异性。案例:病例对照研究,分析胆道癌发生的影响因素。根据病例对照研究的特征,人群分为发病组和对照组,探讨胆道癌与他汀类药物的关系。一般情况下,任何一个研究的第一张表格是描述患者的基本特征以及在病例和对照组之间的分布差异性。研究人群分为病例组和对照组,特征包括年龄(定量正态)、性别、体重指数、慢性病历史(糖尿病、胆结石、肝炎病毒感染、冠心病)、健康行为(又包括运动与饮食)、患者的转氨酶(定量、偏态)、甲胎蛋白(定量、偏态)。那么这组数据既有整体、又有偏态、又有定性或者率相关数据,还有差异性比较的结果,如何整合到同一张表格里呢?1.表格包括总人群、病例组人群、对照组人群和P值三列,其中总体人群列可以省略。还有各组差异性比较的结果(P值,后续课程会进行介绍)。2.正态分布的数据描述有两种Mean±SD和Mean(SD),但国内学者喜欢用Mean±SD,但国外也有Mean(SD)形式。3.偏态分布数据,不能用Mean±SD来描述,必须用中位数和四分位数间距M(IQR)来开展。当然也有另外一种形式,是中位数(下四分位数P25、上四分位数P75)的形式(这种形式已经成为主流)。4.分类数据,一般用n和%共同来描述,列出所有组别的绝对数和相对数,形成多行多列的格式,一般相对数的小数点不能超过2位。5. 有些分类数据,特别是二分类数据,可以只呈现阳性率的数据,比如有没有患糖尿病,有没有胆结石等,有健康运动比例、健康饮食的比例。6.与表格中的数值一般保留1-2位小数不同,所有的P值应该提供三位小数。7.现在国际上对表格左对齐还是右对齐没有一致意见,一般来说,常见以某一些数学符号作为对其标志,比如小数点、括号、±等。但总的来说,什么样的对齐方式较为美观,就采取何种对其方式。8.所有的变量要注明度量单位(如果有的话)、表格数据的含义。