ML之FE：Kaggle比赛之根据城市自行车共享系统数据进行FE+预测在某个时间段自行车被租出去的个数

2024-06-22 13:47:38

Kaggle比赛之根据城市自行车共享系统数据预测在某个时间段自行车被租出去的个数

一、FE整体设计思路

二、FE分步骤处理

相关代码

#先把数据读进来
import pandas as pd
data = pd.read_csv('F:/File_Python/Resources/data_csv_xls/kaggle_bike_competition_train.csv', header = 0, error_bad_lines=False)

#查看数据字段
data.head()
#datetime小时计数、season季节、holiday是否假期、workingday工作日、weather天气、temp华氏温度、atemp、humidity湿度、windspeed风速、
#casual非注册租车人数、registered注册租车人数

输出结果

# 处理时间字段：把datetime域切成日期、时间两个字段。
temp = pd.DatetimeIndex(data['datetime'])
data['date'] = temp.date
data['time'] = temp.time
data.head()

#特征向量化
#打算用scikit-learn来建模。对于pandas的dataframe我们有方法/函数可以直接转成python中的dict
#还要对离散值和连续值特征区分一下了，以便之后分开做不同的特征处理。

from sklearn.feature_extraction import DictVectorizer

# 我们把连续值的属性放入一个dict中
featureConCols = ['temp','atemp','humidity','windspeed','dateDays','hour']
dataFeatureCon = dataRel[featureConCols]
dataFeatureCon = dataFeatureCon.fillna( 'NA' ) #in case I missed any
X_dictCon = dataFeatureCon.T.to_dict().values() 

# 把离散值的属性放到另外一个dict中
featureCatCols = ['season','holiday','workingday','weather','Saturday', 'Sunday']
dataFeatureCat = dataRel[featureCatCols]
dataFeatureCat = dataFeatureCat.fillna( 'NA' ) #in case I missed any
X_dictCat = dataFeatureCat.T.to_dict().values() 

# 向量化特征
vec = DictVectorizer(sparse = False)
X_vec_cat = vec.fit_transform(X_dictCat)
X_vec_con = vec.fit_transform(X_dictCon)

赞 (0)

【数据竞赛】Kaggle实战之特征工程篇-20大文本特征（上）

作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉特征工程--文本特征上半篇! 前言这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
ML之FE：结合Kaggle比赛的某一案例细究特征工程(Feature Engineering)思路框架

ML之FE:结合Kaggle比赛的某一案例细究特征工程(Feature Engineering)思路框架 Feature Engineering思路框架 1.结合Kaggle比赛的某一案例细究Feat ...
ML之RF：kaggle比赛之利用泰坦尼克号数据集建立RF模型对每个人进行获救是否预测

ML之RF:kaggle比赛之利用泰坦尼克号数据集建立RF模型对每个人进行获救是否预测输出结果后期更新-- 实现代码 #预测模型选择的RF import numpy as np import pa ...
ML之FE：利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测

ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测输出结果 RentListingInqu ...
Competition——ML/DL：机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介

Competition--ML/DL:机器学习.深度学习各种计算机视觉.自然语言处理.科学预测等等比赛竞赛简介相关内容 Competition--互联网比赛(编程相关):国内外各种互联网比赛举办时间 ...
EL之Bagging：kaggle比赛之利用泰坦尼克号数据集建立Bagging模型对每个人进行获救是否预测

EL之Bagging:kaggle比赛之利用泰坦尼克号数据集建立Bagging模型对每个人进行获救是否预测输出结果设计思路核心代码 bagging_clf = BaggingRegressor( ...
ML之FE：对爬取的某平台二手房数据进行数据分析以及特征工程处理

ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理对爬取的某平台二手房数据进行数据分析以及特征工程处理 Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月 ...
ML之FE：对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘输出结果实现代码 # coding: utf8 import pand ...
专家论道：新时代智慧城市建设重在加强数据智能

郭院士的讲话指出了当前智慧城市建设的主要痛点,产业界对此有深刻的理解.据中国新一代IT产业推进联盟成员单位.智慧军工产业联盟企业数字化架构专委会单位.中国航天国军标质量体系认证单位.业内领先的数据中台 ...
智慧海绵城市监测评价系统-海绵城市信息化系统-海绵城市数字化监控

"智慧海绵城市"建设发展方向:数据化.可视化.模型化.国际化. 系统介绍基于"物联网" 理念,利用先进的传感技术,实时监测城市水文信息,结合住建部颁布执行的& ...