以「高考」为主题,技术应该怎么玩?| 极限编程

hi~我是shadow,今天我给自己出了道题,题目是:以高考为主题,有哪些技术应用的场景,并亲手尝试实现。

(我给自己打70分……原因,看完就知道😃)
解题

通过调研市面上的高考产品,我挑选了一些有意思的应用,主要有3种。
🚀 高考志愿填报预测

填写分数、考生所在地与想去的意向学校或专业就可以推荐最优学校与专业并有预测概率等。这个技术实现难度比较小,只需要准备历年的高考录取数据即可。
技术实现思路

→ 数据集

全国近2700多所大学历年各专业录取的分数线、考生所在地、学校、专业、录取的人数。

→ 模型

决策树

→ 输入

分数、考生所在地

→ 输出

学校、专业的概率

🚀 性格测评

帮助学生在703个本科专业中找到自己擅长且喜欢的专业。只需参与测评,即可从256类人群标签中找到自己的性格标签,并分别从学科潜力、职业倾向、职能胜任力等不同维度评估多项指数。


提到职业与专业的选择,让我想到了一本书《决定未来的10种人》:

人类学家、实验师
嫁接员、跨栏高手、合作者
导演、用户体验设计师、布景师
关怀者、讲故事的人
确实,当今职业与专业的变化太快,许多学生一毕业就意味着失业,因为所学专业和目前社会上的岗位无法匹配,或者太过超前。所以选择专业是在太重要了,关键是了解自己的性格特点。

性格测评,这个实现有点难度,如何定义性格标签,而且需要对应到问卷上,最后还需要把性格标签映射到岗位、学科专业上。
技术实现思路

→ 数据集

从领英准备数据,提取职业岗位信息、大学、专业

→ 定义性格标签与学科的关系

待思考如何定义,我评估了下不是我这一晚上2小时就可以搞定的。😓
🚀 语文作文预测

预测明年的作文题是什么类型的,有什么我们可以准备的题材。因为手上正好有历年的作文题数据集,所以决定先从数据本身开始探索,具体使用什么方法在探索中寻找。
技术探索过程
此工具是极限编程过程中实现的,大概耗时3小时

工具截图

→ 探索性数据
使用了design-ai-lab工具开了个小工具,通过加载excel格式的数据集,经过分词之后,先研究作文题的文本特征。
→ 文本特征
使用一组关键词来表达,借鉴了词云的表达方式。词云的可视化方式,把权重考虑进去,比关键词更进一步帮助我们了解内容的特征。
参考案例

简单实现

作文题的文本特征

→ 交互式探索
此工具是交互式的,点击关键词,过滤出关键词对应的文本,这样我们就可以通过观察所有相关作文题,靠人脑来判断存在什么规律
例如,发现了以下有意思的信息:
# 150字
发现150字,一般是这么个要求:介绍漫画、写一则活动消息。
# 难忘
较早时期的高考题,多个省份的考题是类似的,强调艰苦奋斗、雷锋、胜利、理想之类的。
# 按时间观察题材的变化
一个比较有意思的发现就是1977和2019左右的题材变化是很明显的,随着时间的变化,题材的变化应该会很有趣。

1977-1979年

2019-2020年

🔥 好玩的项目
通过以上探索,我发现了一个好玩的项目:用于预测题材的可视化。
实现步骤
→ 整理数据集
首先,需要整理数据集,比如清除掉一些和题材无关的名词,比如议论文、记叙文、文体之类的。
→ 制作题材标签
从分词里寻找,例如难忘、劳动、音乐、青年等。
→ 按照时间计算标签词频,例如

{

难忘:0.8,

劳动:0.4,

音乐:0.4,

青年:0.9

}

→ 进一步分类标签,需要再进一步分类题材标签,这个只能靠人脑来判断。
→ 可视化展示,我设想了一种形态:
效果图示意
待我手痒时,再实现这个好玩的项目……

*待续

(0)

相关推荐