作文机器评卷的到来
作文机器评卷的到来
渐新堂
我们的作文考场阅卷,经历了不少的探索。
为了减少人为因素的影响,在几百上千年的考试中,我们采用了密封阅卷的方式——科举考试中就糊上卷头,还逐步采用另外的人专门进行誊抄,以防笔迹被判阅者认出。
在工业化先行者欧美国家的考试中,采用标准化方式,于1980年代1990年代初进行写作能力的分解考查尝试。给出一个题目。下面列出十多项素材,要求根据题目选出最恰当的三项五项并排好第一第二第三的序列,以考察选材的能力;给出一个短文,列出若干个标题让考生选择,以检查给文章标出合适题目的能力;给出论据,列出若干论点让其选择,看看考生的逻辑思维以及议论的能力……
在我国改革开放之初,高考作文评分也经历了以章熊为首的艰苦探索,提出了内容有偶然性语言表达有稳定特质的观点,坚持进行分解评分,分领域分档次分类别的评分探索。
然而,以上探索在面临巨大规模的高厉害考试中,很难获得理想的成效,不是费时太多成本太高,就是因人为因素包括水平高低情绪波动等而引起分数的客观性差。
上世纪末,美国等教育发达国家开始研究,本世纪初则逐渐投入了写作的机器阅卷。
我国一些教育测评公司于几年前也开始了对作文机器阅卷的持续关注。并发表了一些评介文章。
本世纪初叶,作文机器阅卷是按照标准化思维进行探索设计的。根据美国一些考试中的实践,将机器阅判作文的标准分为三个维度。一是语言维度,即词汇量以及词类的使用量来进行判断,犹如我们电脑八十年代的错误拼写要标注出红颜色一般,属于比较初级的问题。二是逻辑的角度,即各个段落是否围绕一个主题在进行叙述说明论证,是否遵照了同一律不矛盾律等,不要出现偏离与违背自己确定的主要话题。三是潜语义分析,即组织有资质有水平的写作阅卷者上百人(大规模考试)在随机抽样的大样本中选取三五百份考场作文,由这些阅卷者进行或10类或几类的按照平时考场阅卷的标准,由高到低进行分类,装进不同的类别之中去。最后,根据事前的研究与约定,确定好三个维度的不同权重,计算出该文章的最后得分。
但是,中文写作在当时深感有一个大障碍,即在中文写作中,词的连写与切分的瓶颈还没有突破性的进展。
近几年阿尔法狗同世界围棋冠军的挑战,给了研究者们新的启示。
因为智能机器人不是背诵记忆进了若干的棋谱,而是深度学习了天量的世界冠军的下棋案例。既然如此,作文机器评分,为什么不走这样的道路呢,为什么要去研究作文评分标准呢?
台湾师范大学的教授们大胆学习借鉴,用了好几年的时间研发出机器评分工具,并开始使用在台湾三十多万人参与的中考性质的考试之中了,与人工阅卷相比,有极高的相似度。
该软件的基本思路是,只要有当地足够数量的考场阅卷案例让机器人进行深度学习,就能够完全按照已经有的阅卷标准进行准确客观快速的机器阅卷。 平常情况下,语文教师将一大堆作文习惯性地分为好中差三等,机器人则分为从优秀良好中等较差极差五等,其区分鉴别能力提高了三分之二。当然,还有一些附加的直观的加减项目。
据一家语文杂志社的人传,考试中心的人在会议上说,作文机器阅卷在技术上已经非常成熟,不存在任何障碍。只是推出的时间以及舆论准备和中学语文教师的心理接受问题。
这是经不起推敲的说法。
现在的问题要害是学生的书写千差万别,行楷草书以及不规范的字迹,机器如何进行图形识别的问题。尽管一些科技公司在投入巨资力图及早突破,短期内似乎还没有明显的喜人进展。
一些公司也准备今年开始免费在一个省的高考一个地区的中考中进行第三评,将其数据与人工评阅的结果进行比对,逐步推进作文机器评分的实质性落地,逐步在中国实现大规模的作文机器评分。
语音转换、人机对话、智能写屏,也许几年之后也是路径之一。
总之,作文机器评分不可阻挡地正在一步步逼近我们了!
长按或扫描此码方便继续关注