又再说作文机器阅卷答三疑
又再说作文机器阅卷答三疑
渐新堂
又再说作文机器阅卷后,北京李先生四川尹先生等提出了机器阅卷中的三个问题:准确吗,机器句式识辨过关了吗,会不会形成新八股文?
机器作文阅卷相比之下是准确的。因为人工阅卷多年来困扰大家的问题一定程度上可以得到缓解。
人工作文阅卷,最受诟病的是情绪化和疲劳度。大家都知道,人的情绪是很难在阅卷期间一周乃至十天保持一致保持稳定。同样一篇文章,情绪好的时候与不好的时候,所给出的分数差异很大。要使一个人的情绪稳定,是很难的事情。情绪化阅作文卷,带来的是面对同样一篇作文,分数的稳定性同一性太小。而阅卷的疲劳几乎是难以逾越的难关,因为每年夏季的高考中考,都是在时间紧任务重劳动强度大的状态下进行的。一旦疲倦,眼睛累得来睁不开,好与不好自然就缺乏判断,导致不同档次不同品质作文的得分,出现高度的趋同性一致性来,也叫做趋中性,趋向于给绝大多数考生一个中不溜秋的分数,使大多数作文分数没有什么差异,可信度低,失去了选拔性高厉害考试的意义。导致一些地方在一段时间里给学生参考选报志愿时,删掉作文分数才去进行比较。
因此,几十年来的人工作文阅卷,应该说作文评分的准确性是有限的,才导致了社会对作文评分的长久批评。
作文机器阅卷,则可以很好地避免情绪化和疲劳性,使作文的整个阅卷判阅保持高度的一致性和永不疲倦的始终如一的不带情绪的中立态度。
还可以这样说,作文人工阅卷,对几十万上百万份作文的分等,实际上是只分了三等,即特别好的和特别差的,其他的都被阅卷过程中的人概括为“一般般”,给出的分数自然也就一般般了!因此,常常出现大家的作文都在42分上下波动,只有极少数的是50多分,也只有极少数是20分30分的结果。然而,作文机器阅卷则根据预设,可以分为五等八等甚至十等,这是人工作文阅卷远远达不到的实际分等水平。
关于句式的辨认,在今天已经不是问题了。过去十多年是这样的思考,按照工程实施的思路来对文章进行分解拆分,根据不同的维度领域,按照一定的权重赋予不同的分值。过去训练机器人下围棋也是这样的思路,要求机器人预先装进几万几十万个高级棋谱,然后与世界冠军比赛。后来发现这样机械设定太死板,不如直接学习世界卷军的围棋下法,结果出人意料。于是,作文机器阅卷,五年前就开始改弦易辙,不再进行教条化的死板的分项预设,不再去研究各个项目领域的权重,而是学习阿尔法狗战胜世界围棋冠军的做法,深度学习若干世界冠军的围棋棋局,平移到作文机器阅卷,也借用了深度学习算法的名称,进行试验。即,将高考实际存在的阅卷结果进行深度学习。也可以抽调几十位有资质又有水平负责任的阅卷老师对高考中考作文等距抽样出来的试卷,按照要求分等给分,可以分为或五等或六等或八等十等。电脑通过对这些作文评分结果的深度学习,依葫芦画瓢,分成同样的等级数。一句话,阅卷场上人们怎么给分,机器就完全深度学习过来照着给同样的分,不再去探讨理论领域项目的权重等问题。这就回避了句式的问题,自然也回避了词法的问题。
这里顺便说一下,词的切分,曾经一度成为拦路虎,但是,七八年前已经取得突破。在国务院汉办举行的外国人考汉语中,就已经开始实行了机器阅短文,只不过文字很短,仅仅两三百字,内容也很具体,有明确的给分点。
机器作文评分与文章是否八股没有一丝一毫的必然联系。在信息社会,要求我们的表达要适应时代发展,要快速规范有效,用最少的时间传递出最丰富有效的信息。犹如面对若干求职者的面试,往往每一参试者只给5分钟或10分钟的时间,或简单扼要地介绍自己,或者简明扼要地回答抽中的考题。国际学术会议或者其他的类似大会,也往往规定文档格式:内容提要、主题词,每段的首句必须是该段的中心句。发言也常常规定不得超过多少分钟,甚至多少秒钟。这样才方便受众快速识别与获取更多更有效的信息。
担心形成新八股的问题,应该不在高考阅卷场的考虑之列。一些急功近利的人,在人工作文阅卷时期也在制造应试模式,因为模式化的确有快速入格的效果。但是,一旦格式化,甚至僵化,就难以获得令自己满意的高分。
高考中考的考场上是不适宜也不应当去鼓励进行文艺创作的,毕竟只有奉命写作,才能够在统一招生条件下有相对统一的评判标准,何况,时间非常短暂,常常只有四十分钟左右的时间,去进行创作,风险大也不合适宜。有这一才能,则可以在考场外的投稿以及参赛中通过作品去展示去体现。