让教育评价能落地、动起来、有回响 | 院长观点
全文3257字,预计阅读6分钟
教育评价事关教育发展方向,一直是大家所关注的话题。2020年10月,中共中央、国务院印发了《深化新时代教育评价改革总体方案》(以下简称《总体方案》),将教育评价又一次带入了公众视野。
《总体方案》进一步强调破除“唯分数、唯升学、唯文凭、唯论文、唯帽子”的顽瘴痼疾,首次系统提出“改革结果评价、强化过程评价、探索增值评价、健全综合评价”的评价原则,为后续教育评价的发展指明了方向。
事实上,当前很多教育评价的问题便在于过于强调“结果评价”,忽视过程、增值和综合评价。一个重要的原因是“结果评价”的数据更易于收集、统计和比较。
关于教育评价中的问题,笔者曾用“评价想法好,标准是多少;数据各处讨,彼此是孤岛;勉强收到了,质量堪苦笑;评价复评价,何时是个了”这一打油诗来形容,颇与很多一线教育工作者之心有戚戚然。
本文便试图针对这个问题,通过梳理国内外的各种教育实践,探索如何让好的教育理念和评价指标真正“能落地、动起来、有回响”。
笔者认为,让教育评价落地,离不开教育、数据和技术的三轴驱动。所谓三轴驱动,即从教育理念、数据科学和信息化技术手段三个方面综合进行评价的设计与实施。
具体来说,当我们有了一个抽象的、较为宏观的教育理念,首先应对其进行更为具体的细化与拆分,将希望达成的教育目标明晰为相关的指标体系与评价标准。
依托指标体系,将宏观教育理念下的教育过程以及需要回应的问题进行针对性拆解,明确对数据的需求以及使用数据回应问题的方法。
接下来,数据基础设施的建设便势在必行。一方面,数据基础设施如何建设,受到评价指标体系和数据需求的指导;另一方面,一个统一、稳定、可扩展的数据底层,将为后续的数据分析、评价落地提供切实的抓手和基础。
在数据基础设施之上,各类信息应用系统相继建设,并在系统的使用过程中,不断地产生和积累数据,通过技术手段,实现对结果数据和过程数据的多维收集与分析(详见图1)。
图1 教育-数据-技术三轴驱动示意图
举一个简单的例子,如果一所高校近几年的目标是进行“双一流”建设,则其首先应该对“双一流”的建设目标进行拆分,明确“双一流”建设成效评价指标体系和所需要的数据支撑,匹配到具体业务系统(例如科研系统、教务系统等)中的数据,并通过数据基础设施进行相关指标数据的收集、匹配和分析。
区别于孤立响应业务需求,这种配合自上而下评价指标进行信息化建设的做法在国际上早有先例。
加州大学伯克利分校曾经建有超过100个信息系统,这些系统彼此并不相通,形成复杂而冗余的数据交互网络。
2016年秋季,该校的信息部门花费大力气将其整合为一个完整且数据底层互通的学生信息系统,一方面大大提升了用户的使用体验,另一方面也使得数据赋能教育理念的落地成为可能。
如今,加州大学伯克利分校信息部门以“通过工具、数据和基础设施为世界一流研究性大学建设赋能”为使命愿景,明确提出数据和技术对办学理念的支撑。信息部门通过对齐学校整体的战略规划,阶段性研制自己的战略规划,设置具体的目标和相应的可量化指标,并最终落实于实实在在的工具、数据和基础设施建设中。
例如,加州大学伯克利分校的Cal Answers系统(详见图2),便通过整合校园职工数据、人力资源数据、科研经费数据、财务数据、薪酬数据、采购数据、教学计划数据、招生数据、选课数据、学生画像及毕业数据、学生财务数据等多口径的数据,为学校师生以及校园管理者提供全面、准确、统一的数据可视化查询,方便学校各利益相关方进行人力资源、财务数据、学生数据等多方面的监测与评价,确保学校的发展与其使命愿景、战略规划保持一致。
图2 加州大学伯克利分校的Cal Answers通过系统整合不同的业务数据实现学校数据监测。
在诸如课程或教师评价这一相对微观的尺度上,教育、数据和技术的三轴驱动同样发挥着重要作用。
例如根据研究,师生互动、生生互动、教师备课投入情况、学生预习情况等,都可以作为影响最终教学效果的变量。
那么如何捕捉这些变量数据,在最终考试成绩这一结果性评价的基础上,一定程度实现“过程性评价、增值评价和多维评价”?除了传统的听课、教评,一些在线辅助教学工具提供了更多的可能。
以南京大学教授研发并在南京大学使用的“教学立方”平台为例。该平台允许教师提前上传课件等预习材料,并记录学生在预习时的行为动作(例如学生既可以自主标记课件中的难点,其在每一页课件的停留时间也会被客观记录,帮助老师判断课程内容的难易程度);
教师可利用该平台在课上开展实时的抢答、问答等,快速判断学生对知识点的掌握情况;学生可在每节课后快速对课程的满意度进行反馈评价;学生和老师也可以在课后,通过平台进行问题讨论与答疑等。
通过对不同纬度数据进行分析,教师和学校可以更加充分地了解每一门课程的教学情况,从而更加有的放矢地提升教学质量(图3)。
图3 教学立方平台后台截图,教师可以从不同纬度了解课程的教学情况。
需要注意的是,当我们在拆解教育理念和目标时,不一定所有的指标都是量化的、结构化的、客观的。访谈、问卷、量表等传统的数据收集手段和质性分析仍然是我们可以依仗的方法。只不过通过技术的加成,这些数据可以被更方便和有效地利用。
以清华大学“中国大学生学习与发展追踪研究(China College Student Survey,CCSS)项目“为例,该项目在运行的前七年,都是通过传统纸质问卷填答与纸质常模手册返回的方式进行的。
2016年,项目组开始将调查常模与每所学校的分析报告放在专门的线上平台;2017年,从抽样到问卷填答的全流程均在线上平台完成。各所高校可以很方便地登录调查平台,查看每个学生以及学校整体的调查情况,也可以利用调查数据撰写相关的分析报告。该平台通过学生主观调查反馈,结合其他数据,与学校共同构建完善的教学质量保障体系。
CCSS网上调查平台登录界面(来源:一读EDU编辑部截图)
相比于高等教育,评价在基础教育领域所受的社会关注度更高。“唯分数、唯升学”之所以难以改变,很大程度上是受“高考”“中考”等人才选拔方式和评价指挥棒的影响。
在美国,大学招生除了要参考“高考”(SAT/ACT)成绩外,还需关注学生在高中所修大学预备课程、高中所有课程成绩(GPA)、课程强度与难度、个人陈述、推荐人推荐、学术志趣、面试情况、课外活动、实习经历等多方面的情况。学生需要在申请大学时,提供关于以上维度的相关证据。
近年来,一个由哈佛大学、普林斯顿大学、耶鲁大学等常青藤联盟高校领衔,80余所高校共同创建的新的大学申请系统CAAS(the Coalition of Access, Affordability and Success)投入使用。
与之前的大学申请系统不同,这个系统从高一便开放给学生,学生将随着自己的成长发展在系统中积累资料,用于升学申请,而不需要像以前仅在大学申请之前进行资料的上传提交。参与联盟的大学,希望通过这一更加全面和过程性的招生平台,招收更多具有批判思维、人文修养高、演讲能力强,而不单纯是学术背景优秀的学生。
这样的评价方向在我国的新高考改革中同样可以看到。“两依据、一参考”正是对唯高考分数的调整和补充。作为“一参考”的综合素质评价档案要求从思想品德、学业水平、身心健康、艺术素养、社会实践等多个维度评价学生,切实落实立德树人、培养“德智体美劳全面发展”人才的教育目标。
然而,保证综合素质评价档案填写的真实性、有效性,是让档案切实可行、真正被使用的前提。
基于大数据和信息化平台,清华大学附属中学做出了自己的尝试。他们通过个性化地细分评价指标与指标赋分,在诚信记录、记录提交、公示质疑、调查核实、仲裁复议等一系列闭环操作后,形成对学生多维指标的全面、真实和过程性记录,真正实现学生综合素质全面发展。
本文作者方略研究院执行院长胡皖琪(来源:“教育测量与评价”微信公众号)