hi~我是shadow,今天我给自己出了道题,题目是:以高考为主题,有哪些技术应用的场景,并亲手尝试实现。
通过调研市面上的高考产品,我挑选了一些有意思的应用,主要有3种。填写分数、考生所在地与想去的意向学校或专业就可以推荐最优学校与专业并有预测概率等。这个技术实现难度比较小,只需要准备历年的高考录取数据即可。
→ 数据集
全国近2700多所大学历年各专业录取的分数线、考生所在地、学校、专业、录取的人数。
→ 模型
决策树
→ 输入
分数、考生所在地
→ 输出
学校、专业的概率
帮助学生在703个本科专业中找到自己擅长且喜欢的专业。只需参与测评,即可从256类人群标签中找到自己的性格标签,并分别从学科潜力、职业倾向、职能胜任力等不同维度评估多项指数。提到职业与专业的选择,让我想到了一本书《决定未来的10种人》:确实,当今职业与专业的变化太快,许多学生一毕业就意味着失业,因为所学专业和目前社会上的岗位无法匹配,或者太过超前。所以选择专业是在太重要了,关键是了解自己的性格特点。性格测评,这个实现有点难度,如何定义性格标签,而且需要对应到问卷上,最后还需要把性格标签映射到岗位、学科专业上。
→ 数据集
从领英准备数据,提取职业岗位信息、大学、专业
→ 定义性格标签与学科的关系
待思考如何定义,我评估了下不是我这一晚上2小时就可以搞定的。😓预测明年的作文题是什么类型的,有什么我们可以准备的题材。因为手上正好有历年的作文题数据集,所以决定先从数据本身开始探索,具体使用什么方法在探索中寻找。
工具截图
使用了design-ai-lab工具开了个小工具,通过加载excel格式的数据集,经过分词之后,先研究作文题的文本特征。使用一组关键词来表达,借鉴了词云的表达方式。词云的可视化方式,把权重考虑进去,比关键词更进一步帮助我们了解内容的特征。
简单实现
作文题的文本特征
此工具是交互式的,点击关键词,过滤出关键词对应的文本,这样我们就可以通过观察所有相关作文题,靠人脑来判断存在什么规律。发现150字,一般是这么个要求:介绍漫画、写一则活动消息。
较早时期的高考题,多个省份的考题是类似的,强调艰苦奋斗、雷锋、胜利、理想之类的。
一个比较有意思的发现就是1977和2019左右的题材变化是很明显的,随着时间的变化,题材的变化应该会很有趣。
1977-1979年
2019-2020年
通过以上探索,我发现了一个好玩的项目:用于预测题材的可视化。首先,需要整理数据集,比如清除掉一些和题材无关的名词,比如议论文、记叙文、文体之类的。
{
难忘:0.8,
劳动:0.4,
音乐:0.4,
青年:0.9
}
→ 进一步分类标签,需要再进一步分类题材标签,这个只能靠人脑来判断。
*待续