ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码—191017再次更新
ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码—191017再次更新
竞赛相关信息
竞赛背景:
为贯彻关于“推动互联网、大数据、人工智能和实体经济深度融合”以及“善于运用互联网技术和信息化手段开展工作”等讲话精神,引导高校在校生学习掌握计算机与互联网知识,提高计算机的技能应用,中国软件行业协会培训中心将举办全国大学生计算机技能应用大赛。大赛旨在增强广大在校大学生的IT应用技能,对于进一步落实学校培养应用型人才的目标要求,培育创新创业人才、促进产学研相结合有着重要意义。
当今社会,房屋租金由装修情况、位置地段、户型格局、交通便利程度、市场供需量等多方面因素综合决定,对于租房这个相对传统的行业来说,信息严重不对称一直存在。一方面,房东不了解租房的市场真实价格,只能忍痛空置高租金的房屋;另一方面,租客也找不到满足自己需求高性价比房屋,这造成了租房资源的极大浪费。
本次计算机技能大赛中的大数据赛题将基于租房市场的痛点,提供脱敏处理后的真实租房市场数据。选手需要利用有月租金标签的历史数据建立模型,实现基于房屋基本信息的住房月租金预测,为该城市租房市场提供客观衡量标准。
任务与数据
数据为某地4个月的房屋租赁价格以及房屋的基本信息,我们对数据做了脱敏处理。 选手需要利用训练集中的房屋信息和月租金训练模型,利用测试集中的房屋信息对测试集数据中的房屋的月租金进行预测。
数据分为两组,分别是训练集和测试集。 训练集为前3个月采集的数据,共196539条。 测试集为第4个月采集的数据,相对于训练集,增加了“id”字段,为房屋的唯一id,且无“月租金”字段,其它字段与训练集相同,共56279条。 训练集所含字段如下:
2018年全国大学生计算机技能应用大赛
住房月租金预测大数据赛(付费竞赛)
数据集处理前后
1、训练集、测试集
2、FE处理后的训练集
输出结果
1、测试集经过模型训练后输出的结果
设计思路
1、处理的【小区房屋出租数量】列为空值的思路
2、处理数据
2、总思路
核心代码
代码运行输出
[LightGBM] [Warning] feature_fraction is set=0.6, colsample_bytree=1.0 will be ignored. Current value: feature_fraction=0.6
[LightGBM] [Warning] min_data_in_leaf is set=18, min_child_samples=20 will be ignored. Current value: min_data_in_leaf=18
[LightGBM] [Warning] min_sum_hessian_in_leaf is set=0.001, min_child_weight=0.001 will be ignored. Current value: min_sum_hessian_in_leaf=0.001
[LightGBM] [Warning] bagging_fraction is set=0.7, subsample=1.0 will be ignored. Current value: bagging_fraction=0.7
相关文章
Competition:2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码