ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
对爬取的某平台二手房数据进行数据分析以及特征工程处理
Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月2日上海二手房)将近30*100多条数据并进行房价分析以及预测
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理实现代码
1、定义数据集
<class 'pandas.core.frame.DataFrame'>
total_price unit_price roomtype height direction decorate area 0 290万 46186元/平米 2室1厅 高楼层/共6层 南 平层/简装 62.79平米
1 599万 76924元/平米 2室1厅 低楼层/共6层 南 平层/精装 77.87平米
2 420万 51458元/平米 2室1厅 低楼层/共6层 南 北 平层/精装 81.62平米
3 269.9万 34831元/平米 2室2厅 低楼层/共6层 南 平层/精装 77.49平米
4 383万 79051元/平米 1室1厅 中楼层/共6层 南 平层/精装 48.45平米
age garden district id Unnamed: 11 total_price_Num 0 1993.0 国和一村 杨浦 107102693322 NaN 290.0
1 2005.0 虹康花苑(三期) 长宁 107102590033 NaN 599.0
2 1995.0 纪念小区 虹口 107102469522 NaN 420.0
3 2009.0 新凯二期 松江 107102187832 NaN 269.9
4 1996.0 白浪新村 闵行 107102568627 NaN 383.0
unit_price_Num area_Num
0 46186 62.79
1 76924 77.87
2 51458 81.62
3 34831 77.49
4 79051 48.45
total_price unit_price roomtype height direction decorate area 2995 230万 43144元/平米 1室1厅 低楼层/共11层 南 平层/简装 53.31平米
2996 372万 75016元/平米 1室1厅 低楼层/共11层 南 平层/精装 49.59平米
2997 366万 49973元/平米 2室1厅 中楼层/共6层 南 平层/简装 73.24平米
2998 365万 69103元/平米 2室1厅 低楼层/共17层 北 平层/精装 52.82平米
2999 420万 49412元/平米 2室2厅 低楼层/共14层 南 北 平层/精装 85平米
age garden district id Unnamed: 11 total_price_Num 2995 2010.0 南新东园 浦东 107102716551 NaN 230.0
2996 2006.0 九歌上郡 闵行 107102716557 NaN 372.0
2997 1995.0 高境一村 宝山 107102716802 NaN 366.0
2998 1990.0 遵义西大楼 长宁 107102716833 NaN 365.0
2999 2011.0 象屿名城 松江 107102717793 NaN 420.0
unit_price_Num area_Num
2995 43144 53.31
2996 75016 49.59
2997 49973 73.24
2998 69103 52.82
2999 49412 85.00
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3000 entries, 0 to 2999
Data columns (total 15 columns):
total_price 3000 non-null object
unit_price 3000 non-null object
roomtype 3000 non-null object
height 3000 non-null object
direction 3000 non-null object
decorate 3000 non-null object
area 3000 non-null object
age 2888 non-null float64
garden 3000 non-null object
district 3000 non-null object
id 3000 non-null int64
Unnamed: 11 0 non-null float64
total_price_Num 3000 non-null float64
unit_price_Num 3000 non-null int64
area_Num 3000 non-null float64
dtypes: float64(4), int64(2), object(9)
memory usage: 375.0+ KB
None
age id Unnamed: 11 total_price_Num count 2888.000000 3.000000e+03 0.0 3000.000000
mean 2001.453601 1.070999e+11 NaN 631.953450
std 9.112425 1.535036e+07 NaN 631.308855
min 1911.000000 1.070000e+11 NaN 90.000000
25% 1996.000000 1.071020e+11 NaN 300.000000
50% 2003.000000 1.071026e+11 NaN 437.000000
75% 2008.000000 1.071027e+11 NaN 738.000000
max 2018.000000 1.071027e+11 NaN 9800.000000
unit_price_Num area_Num
count 3000.000000 3000.000000
mean 58939.028333 102.180667
std 25867.208297 62.211662
min 11443.000000 17.050000
25% 40267.500000 67.285000
50% 54946.000000 89.230000
75% 73681.250000 119.035000
max 250813.000000 801.140000
数据集维度: (3000, 15)
数据集所有字段: Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
'decorate', 'area', 'age', 'garden', 'district', 'id', 'Unnamed: 11',
'total_price_Num', 'unit_price_Num', 'area_Num'],
dtype='object')
统计字段名及其对应长度: roomtype 22
['2室1厅' '2室2厅' '1室1厅' '3室2厅' '1室0厅' '3室1厅' '2室0厅' '1室2厅' '4室3厅' '5室2厅'
'4室2厅' '5室3厅' '3室0厅' '5室1厅' '5室4厅' '6室4厅' '6室2厅' '6室3厅' '7室2厅' '9室6厅'
'3室3厅' '4室1厅']
roomtype字段下所有类别 对应数量
2室2厅 751
3室2厅 706
2室1厅 622
1室1厅 323
4室2厅 192
3室1厅 174
1室0厅 47
1室2厅 37
2室0厅 37
5室2厅 35
4室3厅 25
5室3厅 17
6室2厅 9
6室3厅 5
5室1厅 5
3室3厅 4
3室0厅 3
5室4厅 3
4室1厅 2
6室4厅 1
7室2厅 1
9室6厅 1
Name: roomtype, dtype: int64
统计字段名及其对应长度: height 138
['高楼层/共6层' '低楼层/共6层' '中楼层/共6层' '高楼层/共18层' '低楼层/共9层' '中楼层/共5层' '高楼层/共11层'
'高楼层/共4层' '高楼层/共32层' '中楼层/共7层' '高楼层/共30层' '中楼层/共12层' '中楼层/共24层' '低楼层/共4层'
'低楼层/共5层' '中楼层/共13层' '中楼层/共11层' '低楼层/共7层' '高楼层/共8层' '中楼层/共18层' '中楼层/共14层'
'低楼层/共17层' '中楼层/共30层' '低楼层/共18层' '高楼层/共13层' '中楼层/共31层' '中楼层/共29层'
'独栋/共2层' '高楼层/共29层' '低楼层/共30层' '低楼层/共15层' '高楼层/共28层' '联排/共3层' '中楼层/共8层'
'中楼层/共56层' '低楼层/共16层' '低楼层/共56层' '低楼层/共32层' '高楼层/共7层' '高楼层/共5层' '中楼层/共9层'
'高楼层/共33层' '高楼层/共22层' '低楼层/共26层' '中楼层/共35层' '低楼层/共23层' '低楼层/共35层'
'中楼层/共19层' '中楼层/共17层' '高楼层/共31层' '低楼层/共38层' '低楼层/共28层' '低楼层/共22层'
'低楼层/共24层' '中楼层/共16层' '高楼层/共25层' '低楼层/共14层' '双拼/共2层' '中楼层/共4层' '高楼层/共17层'
'低楼层/共34层' '中楼层/共28层' '高楼层/共24层' '中楼层/共20层' '低楼层/共12层' '高楼层/共16层'
'中楼层/共25层' '联排/共1层' '中楼层/共15层' '高楼层/共34层' '低楼层/共49层' '中楼层/共10层'
'低楼层/共11层' '高楼层/共14层' '中楼层/共21层' '中楼层/共32层' '共3层' '中楼层/共38层' '共1层'
'低楼层/共19层' '中楼层/共22层' '中楼层/共33层' '低楼层/共13层' '低楼层/共20层' '高楼层/共12层'
'中楼层/共37层' '高楼层/共15层' '低楼层/共25层' '低楼层/共31层' '高楼层/共26层' '高楼层/共9层' '双拼/共3层'
'低楼层/共33层' '高楼层/共20层' '高楼层/共40层' '低楼层/共21层' '低楼层/共10层' '上叠别墅/共4层'
'低楼层/共2层' '低楼层/共8层' '低楼层/共61层' '中楼层/共59层' '高楼层/共36层' '中楼层/共27层'
'下叠别墅/共6层' '高楼层/共10层' '高楼层/共27层' '高楼层/共21层' '低楼层/共3层' '高楼层/共37层'
'高楼层/共49层' '低楼层/共27层' '高楼层/共19层' '中楼层/共34层' '低楼层/共1层' '高楼层/共35层'
'低楼层/共43层' '低楼层/共51层' '中楼层/共39层' '低楼层/共29层' '中楼层/共36层' '高楼层/共43层'
'联排/共2层' '中楼层/共23层' '独栋/共3层' '高楼层/共23层' '高楼层/共39层' '共2层' '高楼层/共38层'
'高楼层/共45层' '中楼层/共63层' '中楼层/共26层' '下叠别墅/共5层' '下叠别墅/共3层' '下叠别墅/共4层'
'低楼层/共37层' '低楼层/共41层' '高楼层/共58层']
height字段下所有类别 对应数量
高楼层/共6层 557
中楼层/共6层 335
低楼层/共6层 260
中楼层/共5层 90
低楼层/共18层 84
高楼层/共18层 75
中楼层/共11层 65
中楼层/共18层 65
中楼层/共14层 57
低楼层/共14层 56
低楼层/共11层 51
高楼层/共5层 50
高楼层/共11层 47
高楼层/共7层 43
中楼层/共7层 43
中楼层/共17层 36
中楼层/共8层 35
低楼层/共24层 33
中楼层/共24层 32
低楼层/共7层 31
低楼层/共12层 30
高楼层/共14层 27
低楼层/共16层 26
高楼层/共16层 25
低楼层/共15层 24
中楼层/共12层 24
低楼层/共17层 24
高楼层/共12层 24
低楼层/共5层 21
低楼层/共13层 19
...
低楼层/共38层 3
高楼层/共23层 3
共1层 2
高楼层/共40层 2
高楼层/共36层 2
高楼层/共49层 2
独栋/共3层 2
低楼层/共49层 2
上叠别墅/共4层 2
共2层 2
高楼层/共10层 2
中楼层/共56层 2
低楼层/共37层 2
低楼层/共2层 1
高楼层/共45层 1
下叠别墅/共6层 1
下叠别墅/共3层 1
双拼/共2层 1
低楼层/共41层 1
低楼层/共51层 1
下叠别墅/共5层 1
高楼层/共39层 1
联排/共2层 1
高楼层/共43层 1
中楼层/共63层 1
高楼层/共58层 1
中楼层/共59层 1
中楼层/共36层 1
低楼层/共61层 1
低楼层/共56层 1
Name: height, Length: 138, dtype: int64
统计字段名及其对应长度: direction 34
['南' '南 北' '东南' '东 南' '北 西北' '东北' '西' '西南' '东南 南' '南 西南' '东' '南 西 北' '西 东'
'东 东南' '北' '南 西' '东 西' '北 南' '西南 西北' '暂无数据' '东 北' '东南 西北' '西北' '东南 西'
'东北 南 北' '东 南 北' '西 东北' '南 东南' '南 北 东 东南' '南 东' '南 北 西' '西 北 南' '西 北'
'东南 南 西北 北']
direction字段下所有类别 对应数量
南 2131
南 北 653
东南 50
西南 46
西 19
东 13
北 12
南 西 8
东南 南 7
北 南 7
南 西南 6
东北 5
东 南 5
暂无数据 5
南 西 北 4
西 东 3
东 东南 3
西北 3
东 西 3
东 北 2
北 西北 2
西 北 南 1
南 北 西 1
东南 南 西北 北 1
南 东南 1
西 东北 1
南 东 1
东南 西北 1
东南 西 1
西南 西北 1
西 北 1
南 北 东 东南 1
东北 南 北 1
东 南 北 1
Name: direction, dtype: int64
统计字段名及其对应长度: decorate 18
['平层/简装' '平层/精装' '简装' '平层/毛坯' '精装' '复式/精装' '平层/其他' '跃层/精装' '错层/精装' '复式/简装'
'复式/其他' '错层/其他' '错层/简装' '复式/毛坯' '跃层/简装' '毛坯' '错层/毛坯' '跃层/毛坯']
decorate字段下所有类别 对应数量
平层/精装 1428
平层/简装 997
平层/毛坯 247
复式/精装 166
平层/其他 57
复式/简装 39
复式/毛坯 17
错层/精装 16
精装 9
复式/其他 5
跃层/精装 5
简装 5
跃层/简装 2
错层/简装 2
跃层/毛坯 2
错层/其他 1
错层/毛坯 1
毛坯 1
Name: decorate, dtype: int64
统计字段名及其对应长度: garden 1859
['国和一村' '虹康花苑(三期)' '纪念小区' ... '南新东园' '遵义西大楼' '象屿名城']
garden字段下所有类别 对应数量
新南家园 15
世茂滨江花园 13
田林十二村 10
文怡花园 9
万馨佳园 9
绿地金卫新家园(西区) 9
金地湾流域(二期569弄) 8
中房公寓 8
鸿宝一村(南区) 8
新凯二期 8
中远两湾城 7
印象春城 7
新德佳苑 7
长丰坊 7
中环一号(一期) 6
惠康苑西苑 6
明园森林都市 6
明珠小区(川沙) 6
惠益新苑 6
富友嘉园 6
美兰湖中华园 6
中凯城市之光(静安) 6
金都雅苑(公寓) 6
达安锦园 6
徐汇苑 6
上海康城 6
丰庄十二街坊 6
中环一号(三期) 6
慧芝湖花园 6
御景龙庭 5
..
紫堤苑 1
金昌大厦 1
梓树园 1
西南名苑 1
佳宝一村 1
芳雅苑 1
德邑小城(公寓) 1
富丽苑 1
中友嘉园 1
证大家园(一期) 1
潍坊七村 1
钦州路111弄 1
东南华庭 1
铁岭路50弄 1
惠祥公寓 1
科苑新村 1
上海阳城 1
同济融创玫瑰公馆 1
湖畔佳苑(公寓) 1
寿祥坊 1
平阳三村 1
石泉小区 1
新福康里(公寓) 1
公馆77 1
合生城邦三街坊 1
双晖小区 1
明日星城(一期) 1
浅水湾恺悦名城 1
隽苑 1
紫竹小区 1
Name: garden, Length: 1859, dtype: int64
统计字段名及其对应长度: district 15
['杨浦' '长宁' '虹口' '松江' '闵行' '宝山' '静安' '徐汇' '浦东' '黄浦' '普陀' '嘉定' '奉贤' '金山'
'青浦']
district字段下所有类别 对应数量
浦东 794
闵行 400
徐汇 268
静安 228
宝山 208
普陀 169
嘉定 155
松江 146
杨浦 141
长宁 135
奉贤 95
黄浦 89
青浦 63
金山 55
虹口 54
Name: district, dtype: int64
dataset.corr():
age id Unnamed: 11 total_price_Num age 1.000000 0.000330 NaN 0.199691
id 0.000330 1.000000 NaN -0.143520
Unnamed: 11 NaN NaN NaN NaN
total_price_Num 0.199691 -0.143520 NaN 1.000000
unit_price_Num -0.143897 -0.071997 NaN 0.638882
area_Num 0.345437 -0.171639 NaN 0.787404
unit_price_Num area_Num
age -0.143897 0.345437
id -0.071997 -0.171639
Unnamed: 11 NaN NaN
total_price_Num 0.638882 0.787404
unit_price_Num 1.000000 0.184717
area_Num 0.184717 1.000000
散点图可视化:可寻找异常点
检查目标变量满足整体分布
mu = 631.95 and sigma = 631.20
绘制Q-Q分位数图:看是否与理论的一致
Skew in numerical features:
skewness.head():
Skew
area_Num 3.448604
unit_price_Num 1.121800
总共有 2 数值型的特征做变换
采用LabelEncoder,对部分类别的特征进行编号,转为数值型
temp1:
roomtype object
height object
direction object
decorate object
garden object
district object
total_price_Num float64
area_Num float64
dtype: object
temp2:
Index(['roomtype', 'height', 'direction', 'decorate', 'garden', 'district'], dtype='object')
[5, 10, 8, 6, 11, 2, 13, 3, 7, 14, 4, 0, 1, 9, 12]
roomtype height direction decorate garden district total_price_Num 0 4 134 16 6 507 5 290.0
1 4 83 16 7 1501 10 599.0
2 4 83 19 7 1333 8 420.0
3 5 83 16 7 829 6 269.9
4 1 40 16 7 1268 11 383.0
5 8 105 16 6 1505 10 1250.0
6 8 86 19 7 21 11 737.0
7 0 38 16 9 1230 8 162.0
8 5 98 19 7 1589 2 328.0
9 0 40 16 6 708 13 163.0
area_Num
0 62.79
1 77.87
2 81.62
3 77.49
4 48.45
5 135.03
6 112.00
7 35.76
8 77.63
9 30.25
roomtype height direction decorate garden district 2995 1 45 16 6 388 7
2996 1 45 16 7 236 11
2997 4 40 16 6 1819 2
2998 4 51 13 7 1586 10
2999 5 48 19 7 1547 6
total_price_Num area_Num
2995 230.0 53.31
2996 372.0 49.59
2997 366.0 73.24
2998 365.0 52.82
2999 420.0 85.00
2、特征工程(数据分析+数据处理)
赞 (0)