ML之FE：数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

2024-06-17 19:47:10

ML之FE：数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

特征工程之高维组合特征的处理思路

1、原始数据：语⾔言和类型两种离散特征

2、为了提高拟合能力，语言和类型可以组成二阶特征

3、以逻辑回归算法为例例

<x_i,x_j>表示x_i和x_j的组合特征，w_ij的维度等于 |x_i|*|x_j| = 2*2 = 4

4、所有的特征，才开始看起来没有任何问题

但当引入ID类型的特征时，就会出现大规模数据。

(1)、⽤用户ID和物品ID对点击的影响

(2)、用户ID和物品ID的组合特征对点击的影响

问题出现

若用户的数量=m，物品的数量为n，那么学习的参数的规模mxn。但是可是，在互联⽹网环境下，数量
都可以达到千万量级，几乎无法学习这么大规模的参数。

问题解决

有效的方法就是将用户和物品分别用k维的低维向量表示（k<<m, k<<n），其中$x_i^’$ 和 $x_j^’$分别表示
x_i和x_j对应的低维向量。

需要学习的参数的规模变成m*k+n*k （实质上就是等价于矩阵分解）。

赞 (0)

奇异值分解

奇异值分解矩阵对角化只适用于方阵,如果不是方阵也可以进行类似的分解,这就是奇异值分解,简称SVD.假设A是一个m x n的矩阵,则存在如下分解: 其中U为m x m的正交矩阵,其列称为矩阵A的左奇异 ...
ML之LoR：基于LoR算法实现对非线性数据集点进行绘制决策边界

ML之LoR:基于LoR算法实现对非线性数据集点进行绘制决策边界基于LoR算法实现对非线性数据集点进行绘制决策边界 1.查看数据集 import numpy as np from sklearn.d ...
ML之FE：数据处理—特征工程之数据集划分成训练集、验证集、测试集三部分简介、代码实现、案例应用之详细攻略

ML之FE:数据处理-特征工程之数据集划分成训练集.验证集.测试集三部分简介.代码实现.案例应用之详细攻略数据集划分成训练.验证.测试三种数据的简介分割训练数据前,先打乱了输入数据和教师标签.因为 ...
ML之FE：数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略

ML之FE:数据处理-特征工程之稀疏特征的简介.如何处理.案例应用之详细攻略稀疏特征的简介信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域,众多研究论文和专题研讨会表明了该领域的蓬 ...
ML之FE：利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整，建议收藏)

ML之FE:利用[数据分析+数据处理]算法对国内某平台上海2020年6月份房价数据集[12+1]进行特征工程处理(史上最完整,建议收藏) 相关文章 ML之FE:利用[数据分析+数据处理]算法对国内某平 ...
ML之FE：结合Kaggle比赛的某一案例细究特征工程(Feature Engineering)思路框架

ML之FE:结合Kaggle比赛的某一案例细究特征工程(Feature Engineering)思路框架 Feature Engineering思路框架 1.结合Kaggle比赛的某一案例细究Feat ...
ML之FE：利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测

ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测输出结果 RentListingInqu ...
ML之FE：利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测

ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测输出结果 1.数据集简介 Dat ...
ML之FE：基于FE特征工程对RentListingInquries数据集进行预处理并导出为三种格式文件(csv格式/txt格式/libsvm稀疏txt格式)

ML之FE:基于FE特征工程对RentListingInquries数据集进行预处理并导出为三种格式文件(csv格式/txt格式/libsvm稀疏txt格式)输出结果1.1.RentListingIn ...
ML之FE：基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测

ML之FE:基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测输出结果 1.输出基本信息 bj_d ...