两种高考选考科目计分方法对比研究
作者简介
关键词 高考综合改革;选考科目计分;科目内标准化方法;基于假设总体的量表化方法
2014 年,《国务院关于深化考试招生制度改革的实施意见》提出启动高考综合改革试点,规定“考生总成绩由统一高考的语文、数学、外语3个科目成绩和高中学业水平考试3 个科目成绩组成”,“计入总成绩的高中学业水平考试科目,由考生根据报考高校要求和自身特长,在思想政治、历史、地理、物理、化学、生物等科目中自主选择”[1]。同年,《教育部关于普通高中学业水平考试的实施意见》明确提出“计入高校招生录取总成绩的学业水平考试3 个科目成绩以等级呈现”[2],并对各等级考生所占比例提出了指导性意见。不难看出,尽管各省(市、区)的高考综合改革实施方案不尽相同,但均包含了对选考科目计分原则的说明。
目前,在进行选考科目计分时,不少省(市、区)选考科目成绩直接按照考生在相应科目所有考生中的排名等级进行赋分。然而,在高考综合改革的框架下,考生自主选择选考科目,各科目实际参加考试的考生群体并非从全体考生中随机抽取,这些各科目实际参加考试的考生往往不属于同一总体,能力水平也会存在差异。在这种情况下,选考科目计分时,直接进行科目内标准化只能带来表面上的可比性,它有可能抹去各科目选考考生群体能力水平上的差异,给分数比较与分数组合带来困难。[3][4]
为了建立选考科目与其他科目成绩之间的可比性,以往研究建议以统考科目为选考科目建立通用量尺。[5]在这一思路下,不同研究者提出了具体的计算方法。例如,20 世纪中后期有研究者提出了锚量表化的方法,即以统考科目作为锚测量对选考科目进行量表校准。[6]这种基于假设总体的量表化方法,计算公式由Tucker 通过推导证明得到[7],并且在美国的SAT 和GRE 中进行了相关实践[6][7][8],比较成熟。新一轮高考综合改革启动后,我国学者提出的对选考科目进行统计校准的方法[9],也得到了学界的广泛认可。考虑到大众对“基于假设总体的量表化方法”更为熟悉,本研究为选考科目建立通用量尺时采用基于假设总体的量表化方法。[10]笔者[11]曾针对“当选考考生群体能力水平与考生总体并不一致时,直接采用科目内标准化方法进行计分的弊端和采用基于假设总体的量表化方法进行计分的可行性”进行了理论说明。而对于新一轮高考综合改革实践中改进选考科目计分方法必须回答的问题,即直接采用科目内标准化方法进行计分可能会带来多大的偏差,以及通过统考科目进行分数调整后能够在多大程度上减少这种偏差,还没有相关的研究成果。
一、两种选考科目计分方法:科目内标准化方法和基于假设总体的量表化方法
在目前公布的各省(市、区)高考综合改革方案中,选考科目的计分方法基本上是按照设置的人数比例,根据原始分的排名划定等级,然后按照等级赋分的。这种计分方法实际上是依照原始分的高低为考生重新赋等级分,等级分传达的是考生在相应科目内的排名信息。它和以标准差为单位表示考生原始分数在群体中相对位置的标准分本质相同。采用这类计分方法时,决定选考科目成绩的是考生在相应科目全体考生中的排名,排名高则成绩高。
基于假设总体的量表化方法是两种锚量表化方法之一。在具体实践中,这种方法的关键在于:根据一门或者多门统考科目基于全体考生群体的均值、方差,以及选考科目基于选考考生群体的均值、方差,估计该选考科目基于全体考生群体的均值和方差。
假设统考科目和选考科目分别记为科目A和科目B,科目B 基于全体考生的均值和方差的估计公式,见公式(1)和公式(2)[7]。
其中:
和
分别是科目B 基于全体考生群体t 的均值和方差的估计值,
和
分别是科目B 基于选考考生群体α 的均值和方差,
是依据选考考生群体α 计算出来的科目B 对科目A 的简单线性回归系数,
和
分别是科目A 基于全体考生群体t 的均值和方差,
和
分别是科目A 基于选考考生群体α 的均值和方差。估计出选考科目基于全体考生群体的均值和方差后,对选考科目原始总分进行线性转换,即得到基于科目A 全体考生原始总分所构建的通用量尺上的选考考生在科目B 上的成绩,见公式(3)。这时,科目B 成绩与科目A 成绩共同放到了通用量尺上,两个科目分数可比。
其中:XB为选考考生科目B的原始总分,YB为相应原始分在通用量尺上的转换分数。
二、研究设计
本研究关注锚测量为单个测验时,单个选考科目的计分情况,因此拟模拟30,000 名考生在两个科目(科目A和科目B)上的作答反应。研究者对选考考生在科目B 上的观察分数在不同计分方法下所产生的计分偏差进行考察,因为这一考察是基于观察分数进行的,考察过程中不需要确认相应科目上的观察总分是否来自多值计分还是二值计分题目,所以,为了简化研究条件,生成模拟数据时科目A 和科目B 这两个科目中的所有题目均采用“0/1”计分,试卷长度分别为60题和30 题。全体考生在两个科目上的作答反应采用多维项目反应理论(multidimensional item response theory,MIRT)模型模拟。
MIRT 模型是单维项目反应理论模型在多维情况下的扩展。[12]本研究模拟数据时采用了实践中更加成熟稳定的补偿型MIRT 模型[13]:三参数逻辑斯蒂克模型的补偿型多维扩展(multidimensional extension of the three-parameter logistic model,M3PL)模型,见公式(4)。
其中:аi是项目i 在各个维度上的区分度向量,θj是考生j 在各个维度上的能力向量,c 是题目的猜测度参数,截距参数d 是一个标量。MIRT模型下,题目i 整道题目只有一个难度参数
,MIRT 模型也定义了题目的区分度参数
。
本研究题目参数生成方法如下:题目的区分度参数从(0.7,1.3)的均匀分布中随机抽取,难度参数从标准正态分布N(0,1)中随机抽取,猜测度参数的对数形式logit-c 从N(-1.09,0.5)的正态分布中随机抽取。[14]被试的能力参数服从均值为(0,0)、协方差阵为σ 的多元正态分布。
锚测量与待校准测验的相关越高,量尺校准的结果越好。[6]因此,统考科目与选考科目的相关强度是本研究关注的一个因素。以往研究[15]表明,高考统考科目与其他科目观察分数存在中等或中等以上程度相关。协方差阵σ 的非主对角线元素代表科目之间的相关程度。考虑到观察分数的相关会略低于真值的相关,因此在生成模拟数据时,本研究将协方差阵σ 的非主对角线元素设置为0.6,0.7,0.8 和0.9 这4 个水平。生成模拟数据时,每个实验条件均重复30 次以获得稳定结果。本研究在协方差阵σ 的4 个水平下,30 个复本的科目A 与科目B 观察分数相关的均值分别为0.52,0.61,0.70 和0.79,记为r1,r2,r3 和r4。
在选考科目计分时,科目内标准化方法不适用,是因为各科目考生群体来自不同的总体,其能力水平均与考生总体能力水平不一致。因此,选考考生群体能力水平是本研究关注的另一个因素。考虑到全体考生总体正态分布的对称性,本研究只考察选考考生群体能力水平大于全体考生能力水平的情况。选考考生群体能力水平因素设置为5 个水平,具体设置为选考考生群体能力均值分别比全体考生在科目B 上的能力均值高0.1,0.2,0.3,0.4 和0.5 个标准差,记为a1,a2,a3,a4 和a5。
另外,在选考考生群体能力水平大于全体考生能力水平时,选考考生群体能力还很可能呈现负偏态分布。因此,选考考生群体能力分布是本研究关注的第三个因素。研究中,选考科目的选考考生能力分布设置为正态分布和β(5,2)分布两个水平。
也就是说,本研究关注统考科目与选考科目的相关强度、选考考生群体能力水平、选考考生群体能力分布这3 个因素,共计4×5×2=40 种实验条件。
另外,选考科目选考考生群体是对全体考生进行分层随机抽样获得的。在对30 个复本进行分层随机抽样时,某些条件下,当某些复本的某些层的待抽样数据量不足时,当次抽样无效。各实验条件下实际使用的复本数量如表1 所示。
表1 各实验条件实际使用的复本数量
本研究需要比较通过科目内标准化方法和基于假设总体的量表化方法(记为m1 和m2)计算得到的选考考生科目B 成绩与考生在科目B上真实成绩的差距。通过m1,m2 两种方法得到考生成绩,其报告形式不同:m1 方法得到的是标准分;m2 方法得到的是原始分。
为了进行分数比较,报告分数的量尺应该统一,因此,我们将这3 种分数转换到给定的报告分数量尺上。本研究将报告分数的量尺设为均值为500、标准差为100。
通过m1 方法得到的选考考生的科目B 成绩为标准分,此标准分通过线性转换调整为均值为500、标准差为100 的报告分数。
通过m2 方法得到的选考考生科目B 成绩的报告分数,可以首先由公式(3)计算得到的选考考生科目B 在通用量尺上的转换分数和全体考生在科目A 上原始总分的均值、标准差来计算标准分,然后将此标准分通过线性转换调整为均值为500、标准差为100 的报告分数。
考生在科目B 上的真实成绩计算方法如下:本研究为模拟研究,考生在科目B 上的作答反应已知,因此,首先根据模拟的全体考生在科目B上的作答数据,将各考生科目B 原始总分转换为基于全体考生样本的标准分,其次将此标准分通过线性转换调整为均值为500、标准差为100 的报告分数。因为本研究要讨论的是,在选考考生群体能力水平与考生总体能力水平不一致的情况下,考生在科目B 上的观察分数在不同的计分方法下会发生怎样的偏差,所以考生科目B 成绩的真值是以观察分数而非考生能力真值为基础的。
每种实验条件分别通过科目内标准化方法和基于假设总体的量表化方法计算选考考生的科目B 成绩,并计算通过这两种方法得到的考生成绩与考生在科目B 上的真实成绩之间的均方根误差(RMSE),作为这两种方法对考生成绩估计准确性的指标。
假设xt为考生在科目B 上的真实成绩,xo为通过科目内标准化方法或者基于假设总体的量表化方法计算得到的选考考生成绩,n 为某种实验条件的复本数量,那么,该实验条件下的均方根误差(RMSE)见公式(5)。
三、研究结果
在各实验条件下,通过科目内标准化方法和基于假设总体的量表化方法得到的选考考生科目B 成绩的均方根误差,如表2 所示。
表2 选考考生科目B 成绩的均方根误差
由表2 可知:当选考考生群体能力呈正态分布时,采用科目内标准化方法计算选考考生科目B 成绩,选考考生科目B 成绩与真实成绩会存在较大偏差,而且选考考生群体能力与全体考生能力水平差距越大,科目内标准化方法的均方根误差越大;科目A 与科目B 的相关强度对于该方法的均方根误差影响不大。虽然与科目内标准化方法下的情况相似,采用基于假设总体的量表化方法时,选考考生科目B 成绩的均方根误差也会随着选考考生群体能力与全体考生能力水平差距的增加而增大,但在所有的实验条件下,如果采用基于假设总体的量表化方法对选考考生科目B 成绩进行计分,科目B 成绩的均方根误差均会缩小,而且缩小的幅度会随着科目A 与科目B 相关强度的增加而增大。与科目内标准化方法相比,当科目A 与科目B 观察分数的相关为0.52时,使用基于假设总体的量表化方法,选考考生科目B 成绩的均方根误差会降低约32%(以选考考生群体的a1~a5 这5 种群体能力水平下的平均值来计);观察分数的相关为0.61 时,降低约44%;观察分数的相关为0.70 时,降低约57%;观察分数的相关为0.79 时,降低约73%。
当选考考生群体能力呈负偏态分布时,两种方法下选考考生科目B 成绩的均方根误差与其呈正态分布时的变化趋势总体一致:选考考生科目B 成绩的均方根误差均会随着选考考生群体能力与全体考生能力水平差距的增加而增大;科目A 与科目B 相关强度对于科目内标准化方法的均方根误差影响不大,而基于假设总体的量表化方法下科目B 成绩的均方根误差会随着科目A 与科目B 相关强度的增加而减小;在所有实验条件下,采用基于假设总体的量表化方法对选考考生科目B 成绩进行计分时,科目B 成绩的均方根误差均会缩小。
另外,如图1 所示,为了比较两种计分方式下计分差异的分布情况,我们绘制了4 种相关强度下,选考考生科目B 成绩与真实成绩差异(由“选考考生科目B 成绩—相应考生的真实成绩”计算得来)的箱线图。每个箱线图中的5 条线分别表示上下边缘、上下四分位数和中位数,其中上、下边缘指的是“上四分位数 1.5×四分位距”和“下四分位数-1.5×四分位距”这个区间内该组数据的最大值和最小值;两个星号分别表示这组数据的最大值和最小值;黑点表示这组数据的均值。图1 中的两个横轴为具体的实验条件,纵轴为两种计分方式下计分结果与真实成绩的差异。为避免图1 中箱线图过多导致堆积重叠,每种相关强度仅选取选考考生群体能力的两端水平(a1和a5)。
图1 两种计分方式下选考考生
科目B 成绩与真实成绩的差异
四、结论与讨论
本研究同样显示:无论采用科目内标准化方法还是采用基于假设总体的量表化方法,选考科目的计分偏差均会随着选考考生群体能力与全体考生能力水平差异的增加而增大。如果选考考生群体能力水平与全体考生总体能力水平差异非常大,即使采用基于假设总体的标准化方法进行量尺调整,选考科目的计分还是会有不小的偏差。在实践中,如果出现选考考生群体与考生总体能力水平差异极大的情况,我们不能仅仅依靠基于假设总体的量表化方法进行选考科目的量尺调整。另外,本研究重点关注在选考考生群体能力分布、选考考生群体能力水平、统考科目与选考科目的相关强度这3 个因素的影响下,当锚测量为单个科目时,单个选考科目的计分情况。在实践中,选考科目的计分除了受上述3 个因素的影响,还会受到其他因素的影响。比如,目前有些省份历史、物理科目拟采用原始分计分[16],这样各选考科目题目参数(比如难度、区分度)的影响就更加不可忽视。对于这些现实中可能遇到的更为复杂和多变的问题,后续尚需依据实测数据,经研究后制定预案,为新一轮高考综合改革中选考科目的计分提供更多的参考建议。
新一轮高考综合改革提出选考科目以等级形式出现,这一规定的初衷是摒除不同科目原始分数单位不统一的缺陷,建立起不同科目考生成绩的可比性。但在实践中,具体情况比较复杂,不同科目的选考考生群体并非来自同一总体,因而直接采用科目内标准化方法可能会带来额外偏差。因此,在新一轮高考综合改革实践中,相关部门仍需对实践中遇到的新问题,进行深入、细致的研究,拿出能够落地的方案,只有这样才能更好地将制度设计落到实处。