用XGB learning to rank

2024-05-23 11:31:20

作者：时晴

说到learning to rank,大家应该都比较熟悉,但是说到用XGB做learning to rank,很少有人实现过.举个例子,比方说赛马,我们可以基于马的个头,体重,历史战绩等信息,建立XGB模型,进行二分类,最后选择赢的概率最高的马.这样做并没有问题,但是考虑到马是否能跑赢,和对手紧密相关,不管我选的马能力如何,只要他能跑赢同场比赛其他马即可,这就是排序.

Learning To Rank

学习排序其实也是有监督学习的一部分,和多分类和回归模型相比,我们并不是要预估一条样本的概率,而是预估很多个样本点的顺序.排序经常被用于搜索引擎,还有一些购物建议.在搜索框里搜任何一条query,top 3展示的一定是最相关的,越往后翻页相关度越低.

回到XGBoost,有3个目标函数,Point Wise,Pairwise和Listwise,这3种方法都可以用来排序,每个方法都有其优缺点.对于pointwise而言,每次仅仅考虑一个样本,预估的是每一条和query的相关性,基于此进行排序.Pairwise是每次取一对样本,预估这一对样本的先后顺序,不断重复预估一对对样本,从而得到某条query下完整的排序.Listwise同时考虑多个样本,找到最优顺序.

Point Wise虽然简单,但是存在不少问题.比如说赛马场景,马的输赢取决于对手.再比如搜索场景,我们确实可以预估每个query到每个document的点击率做为排序依据,但是点击率要考虑rank,例如排的越靠前的document点击率上占据优势,这些point-wise模型很难考虑进去.基于此,我们需要做learning to rank的模型.

建模

首先要明确的是训练数据,训练数据必须包含一列query id,该id下指明哪些样本要放到一起进行排序.同时特别需要注意的是,在训练集和测试集进行拆分时,需要按query id进行分割,如果直接随机拆分,同一个query id下的数据就会被分开,这样会导致模型出问题.我们可以用如下代码进行拆分.

from sklearn.model_selection import GroupShuffleSplitgss = GroupShuffleSplit(test_size=.40, n_splits=1, random_state = 7) .split(df, groups=df['query_id'])X_train_inds, X_test_inds = next(gss)

train_data= df.iloc[X_train_inds]X_train = train_data.loc[:, ~train_data.columns.isin(['id','rank'])]y_train = train_data.loc[:, train_data.columns.isin(['rank'])]

# 模型需要输入按query_id排序后的样本# 并且需要给定每个query_id下样本的数量groups = train_data.groupby('id').size().to_frame('size')['size'].to_numpy()

test_data= df.iloc[X_test_inds]

#We need to keep the id for later predictionsX_test = test_data.loc[:, ~test_data.columns.isin(['rank'])]y_test = test_data.loc[:, test_data.columns.isin(['rank'])]

我们的数据格式应该如下所示,如果数据长这样,那么我们上述代码中的groups就是[3, 4]:

然后我们就可以建模了,可以用XGBRanker训练排序模型,在这个场景下,我们无法自定义objective,也无法自定义mertic了.

import xgboost as xgbmodel = xgb.XGBRanker(      tree_method='gpu_hist',    booster='gbtree',    objective='rank:pairwise',    random_state=42,     learning_rate=0.1,    colsample_bytree=0.9,     eta=0.05,     max_depth=6,     n_estimators=110,     subsample=0.75     )model.fit(X_train, y_train, group=groups, verbose=True)

训练完后我们就可以进行预估,因为预估方法并不会输入groups,所以我们需要做一些特殊处理:

def predict(model, df): return model.predict(df.loc[:, ~df.columns.isin(['id'])])

predictions = (data.groupby('id') .apply(lambda x: predict(model, x)))

这里选择了'rank:pairwise'作为loss,看官方文档还有其他rank loss可供尝试:

pair wise 方法相比pointwise有优势，可以学习到一些顺序。但是pairwise也有缺点：

1.只能给出排序,并不能给出有多好,好多少.比如在搜索场景下,可能一条与query相关的doc都没,pointwise可以通过卡阈值得到这个信息,但是rank方式就不能区分.

2.当一个query下有很多doc，会产生大量的pairs。

3.对噪声的label 非常敏感。

感兴趣的赶紧尝试起来吧!

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试自动对联、作诗机、藏头诗生成器，调戏夸夸机器人、彩虹屁生成器，使用中英翻译，查询相似词，测试NLP相关工具包。

331篇原创内容

公众号

R语言线性回归和时间序列分析北京房价影响因素可视化案例

原文链接:http://tecdat.cn/?p=21467目的房价有关的数据可能反映了中国近年来的变化:人们得到更多的资源(薪水),期望有更好的房子人口众多独生子女政策:如何影响家庭的几何结构?更多 ...
Python:loc和iloc的区别

loc和iloc的区别 pandas以类似字典的方式来获取某一列的值,比如df['A'],这会得到df的A列.如果我们对某一行感兴趣呢?这个时候有两种方法,一种是iloc方法,另一种方法是loc方法. ...
Python之pypmml：pypmml的简介、安装、使用方法之详细攻略

Python之pypmml:pypmml的简介.安装.使用方法之详细攻略 pypmml的简介 pypmml是一个python pmml评分库,它实际上是用于PMML4S的python api.pmml ...
ML之xgboost：利用xgboost算法(自带,特征重要性可视化+且作为阈值训练模型)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

ML之xgboost:利用xgboost算法(自带,特征重要性可视化+且作为阈值训练模型)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 输出结果后期 ...
决策树的高级概述

这篇文章将作为决策树的高级概述.它将涵盖决策树如何训练,与"信息增益"和"基尼指数"相关信息.我还将进行超参数调整和决策树剪枝以进行优化.本文介绍的两种决策树算 ...
pandas骚操作：8个快速筛选数据的骚操作

后台回复[大礼包]送你Python自学大礼包日常用Python做数据分析最常用到的就是查询筛选了,按各种条件.各种维度以及组合挑出我们想要的数据,以方便我们分析挖掘. 东哥总结了日常查询和筛选常用的 ...
ML之Xgboost：利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病)

ML之Xgboost:利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病) 输出结果 X_train内容: [[ 3. 102. 44. ... 30.8 0.4 ...
机器学习最强调参方法！高斯过程与贝叶斯优化

机器学习模型中有大量需要事先进行人为设定的参数,比如说神经网络训练的batch-size,XGBoost等集成学习模型的树相关参数,我们将这类不是经过模型训练得到的参数叫做超参数(Hyperparam ...
Learning to Rank：X-wise

LTR(Learning to Rank)学习排序已经被广泛应用到文本挖掘.搜索推荐系统的很多领域,比如IR中排序返回的相似文档,推荐系统中的候选产品召回.用户排序等,机器翻译中排序候选翻译结果 ...
Excel统计排名函数RANK

点击下方 ↓ 关注,每天免费看Excel专业教程置顶公众号或设为星标 ↑ 才能每天及时收到推送个人微信号 | (ID:LiRuiExcel520) 微信服务号 | 跟李锐学Excel(ID:LiR ...
【My learning experience】（44）创意摄影（2）多重曝光在花卉创意上的运用（1）

今天是冯晓辉老师的第二课,主要讲多重曝光在花卉拍摄上的运用,一直喜欢冯老师的拍摄方式,前年交了钱,因上课那天临时有急事没去成,结果到现在也没机会上冯老师现场课,等疫情过了,有课时一定要补上.今天是第二 ...
干货|通俗易懂讲解Deep Learning 最优化方法之AdaGrad

干货|通俗易懂讲解Deep Learning 最优化方法之AdaGrad
MSI前方探营，RNG选手欧服Rank现状一览，对比DK差得有点多啊

RNG全员在抵达MSI举办地冰岛之后,也是迅速进入了战前的隔离模式,由于每个选手都是独立的单间,所以除了训练赛之外,大部分时间都是个人rank练习,而他们个人rank自然就是在西欧的服务器上. 最近有 ...
自监督学习（Self-Supervised Learning） 2018-2020年发展综述

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
英美任务型课堂教学（Project Based Learning）的环节

Nunan (1989) 认为,"任务型教学"作为一种教学法,具有结构性,它由教学目标(goals).信息输入(input).活动方式(activity).师生角色(teacher ...
(3条消息) Learning Robust Low

Learning Robust Low-Rank Representation (2012) 注释: 本篇主要学习LRR和online LRR理论.本文由RPCA的提出讲起:再叙述论文提出的onlin ...
校园日记21：My Japanese Learning

Friday 21, May. Sunny Written by Mikyo Many people around me know that it is really difficult for me ...

用XGB learning to rank

相关推荐