大约只有4%~5%的用户会完成MOOC课程,如何挽留有退课风险的用户?
MOOC (大规模开放式网络课程)兴起于2012年,由美国的顶尖大学首先创办,此后MOOC席卷全球。MOOC的产生变革了传统教育模式,使得每一个人都有机会享受最优质的教育资源。然而,MOOC也存在一定的缺陷,其中一个最大的缺陷就是学生的退课率要远远高于传统课堂的教育模式。据统计,大约只有4%~5%的用户会完成自己的MOOC课程。
本文以学堂在线(中国最大的MOOC平台)以及用于KDDCUP 2015的数据为基础,详细探讨了三个问题:
1.用户退课的原因
2.如何准确预测出学生的退课概率
3.如何才能挽留有退课风险的用户
第一个数据集包含39个IPM课程及其注册学生,它也用于KDDCUP 2015。
另一个数据集包含698个IPM课程和515个SPM课程,来源于学堂在线。
用户退课的原因
文章主要分析了用户在不同课程上退课的correlation(如果用户在一门课上退课,其是否也会有很大概率在另一门相似的课程上退课?)以及用户朋友的退课行为对其造成的影响,结果如下:
课程之间的相关性
在上图中,我们可以观察到不同登记课程的用户辍学概率之间存在显着正相关,尽管整体上相关性随着时间的推移而降低。此外,我们对同一类别和不同类别的课程进行了分析。可以看出,同一类别课程之间的相关性高于不同类别的课程。一个可能的解释是,当用户有限时间学习MOOC时,他们可能首先放弃替代课程而不是那些具有互补知识领域的课程。
来自辍学朋友的影响
为了定量分析辍学朋友的影响,我们计算了辍学朋友数量的用户辍学概率。上图显示了结果。当辍学朋友的数量从1到10时,我们看到用户的辍学概率从0.33单调增加到0.87。这表明用户的辍学率很大程度上受到她/他朋友的辍学行为的影响。
文章中提出了一种上下文感知的特征交互模型(Context-aware FeatureInteraction Network,CFIN),与其它退课预测的方法不同,CFIN可以充分考虑MOOC中用户行为的上下文信息(包括用户信息与课程的信息),适用于大规模用户在多门课程中的退课预测。CFIN在KDDCUP与XuetangX的数据集上均超过了baseline方法。下图为CFIN的模型示意图:
文章还针对不同的功能进行细粒度分析适用于不同的用户群。具体来说,将一组典型特征提供给CFIN,并计算每个群集的平均注意力。结果显示在下图中,
可以观察到五个簇上的注意力权重的分布是完全不同的。
CAR中显示出最显着的差异(正确答案比率):
第5组(硬性工作者)的注意力量远高于其他群组,这表明正确的回答率对于预测难以辍学是最重要的工作人员。
对于具有更多论坛活动的用户(群集2),在论坛中回答问题似乎是关键因素,因为“#question”的相应注意力是最高的。
另一个有趣的事情是辍学率高的用户(群集1,3和4)。与第2组和第5组相比,他们对停止视频和观看视频的数量有更高的关注度。这表明对于参与度低于活动的学习者而言,视频活动在预测辍学方面发挥更重要的作用。
文章探讨了三种对退课学生的干预措施,并通过线上A/B test 实验对三种干预措施的有效性进行了验证。下图为A/B test结果:
我们将所提出的算法部署到了学堂在线的智能学习辅助子系统XiaoMu上,以帮助提高用户保留率。具体来说,我们使用我们的算法来预测每个用户从课程中的辍学概率。如果用户的辍学概率大于阈值,小木将向用户发送干预消息。我们通过考虑不同的策略进行了有趣的A / B测试。
本文来源:
http://keg.cs.tsinghua.edu.cn/jietang/publications/AAAI19-Feng-dropout-moocs.pdf