成绩统计与分析(二):常用统计量
打开易点成绩统计软件对演示文件夹的“2011年高三级第一学期期末考试成绩表.xls”进行统计,在生成的学生统计报表里有分制、各科成绩、总分、平均分、排名、百分等级、标准分,我们重点讨论下百分等级和标准分。
百分等级用 PR 表示,是相对位置量数,指在一个按大小顺序排列的数列中低于某分数的分数的次数与总次数的百分比。计算公式:PR=100-(100R-50)/N,式中R为某分数在按大小排列数列中的名次,N是分数的总次数或个数。如图所示,李万语文成绩86在班级中的百分等级是21.55,表示班级中语文科低于86的学生占了21.55%;而年级的百分等级为24.35则表示年级中语文科低于86的学生占了24.35%。而按总分计算的百分等级因为排名和总分、平均分是关联的,所以可以说班级中有85.34%年级中有84.56%的考生总分低于554、平均分低于554/5。百分等级显然要比直接排名更容易了解学生在考试中的相对位置,也叫做超前百分数。
标准分用 Z 表示又称Z分数是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的差除以标准差所得的量数。计算公式是:Z = (X - M)/S。标准差我们后面再提,标准分是一种相对地位分有正负之分,可比性根据在于标准正态分布,一般在 [-3,3] 中(几率为99.74%) ,平均值为零。我们举3个例子来说明一下。
例1:李万在上一次的语文考试中的成绩是70班级标准分为1.03,而本次考试中成绩是86班级标准分为-0.96,其中分制都是相同的那么李万在这两次考试究竟是进步了还是退步了?按原始分数70<86我们得出的结论是李万进步了,但按班级标准分1.03>-0.96李万则退步了,那么哪个才准?原始分数和标准分表示的意义不同,我们只能说分数提高了但他这科在班级中的排位是退步了。
例2:如图所示李万各科成绩:86、114、131、133、90,班级标准分:-0.96、0.9、1.75、1.12、0.53,不管分制是否相同我们都无法直接通过原始分数去判断他考得怎么样,但根据班级标准分我们可以看出他各科在班级中的大概位置还可以看出他比较擅长数理化(0.9、1.75、1.12)而文科(-0.96、 0.53)相对弱一些。
例3:如图所示个人总分李万554而李达545,按成绩李万比李达好,但按班级标准分3.34<4.24则李万比李达差,我们或许会产生疑问:为什么原始成绩和标准分不成正比?我们观察一下各科原始分数,李万:86、114、131、133、90,李达:103、107、121、123、91,从原始分数看我们知道李万语文成绩差了点但却不好衡量差多少。我们再观察一下班级标准分,李万:-0.96、0.9、1.75、1.12、0.53,李达:1.25、0.59、1.22、0.6、0.58,结合正态分布区域我们能大概知道考生该科所处的位置,李万语文-0.96已低于平均了,就是说由于李万语文偏科严重造成总标准分比不上李达。
根据各科标准分我们可以大概知道考生是否存在偏科以及优劣科目。这里我们还要知道一点从计算公式得知标准分是单位等距的而百分等级是单位不等距的,所以不同测验的百分等级不能进行运算也不能像标准分那样进行对比。
Z分数有小数有负值使用起来不是很方便于是进行线性变换(T变换)就有了高考标准分:T=500+100Z,公式中取500为平均分100为标准差。软件收录了高考标准分和百分等级对照表,可以通过T分数来查出对应的百分等级,比如527对应的百分等级为0.60640001即表示小于527的考生占了大约60.64%。
在学科报表中分制、参考人数、实考人数、缺考人数、总分、平均分、最高分、最低分、低分人数、低分率、及格人数、及格率、优秀人数、优秀率这些都是常用统计量不一一介绍,我们简单讨论下面几个。
平均分、中位数、众数属于集中量数即代表一组数据的集中趋势和典型特征。
平均分 M =(X1 + X2 + ... + Xn)/n
中位数用 Md 表示,是在一组按大小顺序排列的数据中位置居中的那个数。数据是奇数个时,正好是中间位置的数,即第(N+1)/2 个那个数;数据是偶数个时,求中间位置两个数的平均数。如:1 3 6 7 9 Md=6;3 6 7 9 20 21 Md=(7+9)/2=8。
众数用 M0 表示,是一组数据中次数出现最多的那个数。在众数不明显的情况下,一般可看众数段,即哪个分数段的次数多,就以该段中点值作众数。图中众数99(6)表示分数99出现了6次为最多。
一组数据若离中趋势小则集中量的代表性就大,反之若离中趋势大则集中量的代表性就小。所以要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数即描述次数分布中离中趋势这一特征的统计量。
全距用 R 表示,是指一组数据中由最大量数到最小量数的距离。R小说明离散程度小比较整齐。图中最高分-最低分=108-74=34
平均差用 AD 表示,是指一组数据内的每个数与算术平均数的绝对值的算术平均数。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。计算公式为:AD=∑|Xi-M|/n。图中 AD=∑(|108-93.38|+|107-93.38|+...)/58=6.28
标准差、方差:标准差指一组数据中每一个数值与它们的算术平均数之差的平方的算术平均数的平方根,样本标准差符号为 S、总体标准差用 σ 表示。S越大表明离散程度越大,数据不均匀,集中量的代表性小。而方差=标准差的平方,S2表示样本方差,σ2表示总体方差。总体就是指全部数据计算公式里用n,而样本就是抽取的部分数据计算公式里用n-1。方差与标准差除具有平均差的优点之外,还具有受抽样影响小和适于代数运算等优点,是最优良的差异量数。标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。那么这个标准差对我们教育统计有什么意义呢?在示例统计中2班语文的平均分是91.61标准差10.18而5班语文平均分91.53标准差12.24,这两个班级平均分相近但标准差不同这说明了什么呢?2班的标准差比5班小说明2班各考生语文分数比5班更均匀,也就是说2班多为中庸者而5班有可能会出现尖子生也有可能出现比较差的学生。继续跟踪数据发现2班最高分114最低分71,5班最高分120最低分69也恰好印证了这个推测。
在统计中,两极差、四分位差、平均差和标准差都属于绝对差异量数。这种差异量数具有与原始资料相同的单位,可用以比较两种差异量的大小。但遇到两种资料的单位不同,或资料的单位虽然相同,但平均数相差甚大时,仍用绝对差异量进行比较,其所得结果则往往不可靠。在这种情况下,则必须使用差异系数。差异系数是一种相对差异量,常用 cv 表示,计算公式:cv = σ/M×100%。根据公式我们可以看出差异系数小就意味着考生成绩比较整齐(σ)或者平均分数(M)比较高。
四分差是指成绩按大小顺序排列后,两端各去除1/4人数后得到的最大最小成绩之差的一半。四分差越大表示考生得分越参差不齐。
偏度:表征概率密度分布曲线相对于平均值不对称程度的特征数。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
峰度:表征概率密度分布曲线在平均值处峰值高低的特征数。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。简单来讲,峰度是描述分布形态的陡缓程度。峰度为0表示与正态分布相同,峰度大于0表示比正态分布陡峭,小于0表示比正态分布平坦。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。
至于图中难度和贡献度并非标准统计量只介绍下算法:难度=平均分/分制,贡献度=(学科班级平均分-学科年级平均分)/学科年级平均分×100%