最新基于强化学习的推荐系统综述

2024-05-30 20:23:22

嘿，记得给“机器学习与推荐算法”添加星标

来自 | 专知

链接 | mp.weixin.qq.com/s/yOcWMmqddQPyEa2oROCzxQ

编辑 | 机器学习与推荐算法

祝老师们教师节节日快乐~

摘要

鉴于深度强化学习(DRL)在推荐系统研究中的出现，以及近年来取得的丰硕成果，本研究旨在对深度强化学习在推荐系统中的最新发展趋势提供一个及时而全面的概述。我们从在推荐系统中应用DRL的动机开始。然后，我们给出了当前基于DRL的推荐系统的分类，并对现有的方法进行了总结。我们讨论新出现的话题和未决的问题，并提供我们推进该领域的观点。本综述为来自学术界和工业界的读者提供了入门材料，并确定了进一步研究的显著机会。

链接：https://arxiv.org/abs/2109.03540

更多其他方向共38篇推荐系统综述，欢迎访问https://github.com/hongleizhang/RSPapers#surveys

引言

近年来，推荐技术有了长足的发展，从传统的协同过滤、基于内容的推荐、矩阵分解等推荐技术[62]，到基于深度学习的推荐技术。特别是深度学习在解决复杂任务和处理复杂数据方面具有很强的优势，因为深度学习能够捕捉非线性的用户-项目关系，能够处理图像、文本等各种类型的数据源。因此，它在推荐系统中得到了越来越多的应用。由于分布的变化，基于深度学习的推荐系统在捕获兴趣动态方面存在局限性[17,115]，即训练阶段基于现有的数据集，这可能不能反映真实的用户喜好，而用户的喜好变化很快。而深度强化学习(deep reinforcement learning, DRL)的目标是将深度学习和强化学习的力量结合起来，训练出一种能够从环境提供的交互轨迹中学习的agent。由于DRL中的agent可以主动从用户的实时反馈中学习，从而推断出用户的动态偏好，因此DRL特别适合于从交互中学习，如人-机器人协作; 它还推动了一系列互动应用的显著进步，从视频游戏、Alpha Go到自动驾驶[3]。鉴于DRL对推荐系统的重要性和最近的进展，我们旨在在本次综述中及时总结和评论基于DRL的推荐系统。

最近的一项基于强化学习的推荐系统[2]综述了推荐系统中的强化学习，但没有对日益增长的深度强化学习领域进行复杂的研究。我们综述重点在于系统全面地概述了基于DRL的推荐系统中的现有方法，并讨论了新出现的主题、未决问题和未来的方向。这项综述介绍了研究人员，实践者和教育工作者到这个主题，并促进了对该领域的关键技术的理解。

这项综述的主要贡献包括:

我们提供关于推荐系统中深度强化学习的最新综合综述，具有最先进的技术和指向核心参考文献的指针。据我们所知，这是基于深度强化学习的推荐系统的第一个全面综述。
我们给出了推荐系统中深度强化学习的文献分类。在概述分类和文献综述的同时，我们讨论了其优缺点，并对未来的研究方向提出了建议。
我们阐明了基于DRL的推荐系统的新兴主题和开放问题。我们还指出了未来发展方向，这对推进基于DRL的推荐系统至关重要。

本综述的其余部分组织如下: 第2节概述了推荐系统、DRL及其集成。第3节提供了一个分类和分类机制的文献综述。第4节回顾了出现的话题，第5节指出了未解决的问题。最后，第6节为这一领域的进一步发展提供了一些有前景的未来方向。

深度学习和强化学习的结合推动了推荐系统的突破。基于DRL的RS由三个构建模块组成: 环境构建、状态表示和推荐策略学习。环境建设是基于使用者的一组历史行为来构建环境。状态表示由包含某些用户信息(包括历史行为、人口统计数据等)的环境提供。推荐策略学习是理解和预测用户未来行为的关键组成部分。基于DL的RS接收用户反馈(如评级或点击)，以反映用户的兴趣并更新推荐人，而基于DRL的RS接收环境提供的奖励，以更新策略。环境提供的奖励是一个包含几个因素的预定义功能。基于DL的RS和基于drl的RS映射的详细过程如图3所示。

基于深度学习的推荐策略与基于DRL的推荐策略的区别:基于深度学习的推荐策略只能在训练阶段更新推荐策略。当用户的兴趣发生显著变化时，它们通常需要重新训练，这是计算效率低下的。基于DRL的RS将随着收到新的奖励而更新推荐策略。

未来挑战

在本节中，我们提供了一些基于DRL的推荐系统的潜在未来方向，得益于DRL研究的最新进展，我们相信这些主题可以推动基于DRL的推荐系统的进展。

因果与反事实推理

因果性是因果之间的一般关系。此外，在诸如计算式广告、搜索引擎和推荐系统[7]等许多应用中，推断因果效应是一个基本问题。近年来，一些研究者将强化学习与学习因果关系联系起来，以提高解决序列决策问题的效果。此外，强化学习框架中的学习主体面临着集成大量异构数据的复杂环境。从我们的观点来看，因果性可以通过引入因果的方向性来改善推荐结果。用户以前的选择会影响后续的操作。这可以被视为产生推荐系统动态的干预数据。通过将RL中的策略视为干预，我们可以检测RL中未被观察到的混杂因素，并选择预期奖励的策略，以更好地估计因果效应[82]。一些研究改进了以因果知识作为边信息的RL模型。另一种工作是使用因果推理方法来实现无偏的奖励预测[34]。

离线DRL和元DRL

推荐系统通常需要处理多个场景，如联合推荐和广告，离线DRL和元DRL为同时实现多个场景提供了一个很好的方向。离线DRL是一种新的DRL范式，它可以与现有的方法(如自我监督学习和迁移学习)相结合，向现实环境中移动。

结论

在这个综述中，我们提供了一个全面的概述深度强化学习在推荐系统中的使用。我们介绍了现有研究的分类方案，并按类别进行讨论。我们还提供了这些现有的新兴主题的概述，并指出了一些有前景的方向。我们希望这一综述能够对基于DRL的RS的关键概念提供系统的理解，并为未来的研究提供有价值的见解。

文末送书 | 如何使用深度强化学习算法解决实际问题

在使用深度强化学习(Deep Reinforcement Learning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的DRL算法了. 以DeepMi ...
深度强化学习落地方法论（6）——回报函数篇

目录前言非要手工设计吗? 主线reward和稀疏回报问题目标分解和辅助reward 目标分解实例杜绝异常行为贪婪胆怯鲁莽 Reward Shaping Optimal Reward Pr ...
综述 | 模仿学习ImitationLearning

转载于 :专知模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识,以复制他们的行为.它已经成功在视频游戏.自动驾驶.机器人模拟和物体操纵等领域得到了证明.然而,这种复制过程可能会有问题,比如 ...
精细化运营的核心支持工具：决策引擎

编辑导语:决策引擎是一个工具,利用决策引擎可以支撑企业在客户管理(CRM)的各种决策,在决策引擎之上可以开发出各种不同的解决方案.运营要讲求精细化,要根据产品.用户.市场的具体情况制定具体的运营措施. ...
ICRL 2020 会议日程解读

因疫情影响,The International Conference on Learning Representations(ICLR 2020)遗憾地成为首个线上虚拟学术顶会,而所有被接受的论文都要 ...
多智能体强化学习中的非平稳性问题

多智能体强化学习中的非平稳性问题 - hoogle的文章 - 知乎 https://zhuanlan.zhihu.com/p/72553328 1 简介深度学习变革了在复杂环境中开发自主行动的智能体 ...
官网更新：《电气技术》2018年第9期目次

综述 ►低压微电网多台并联逆变电源的功率分配策略综述 ►智能视频监控系统动态目标检测与识别算法综述研究与开发 ►大电流开关柜温度分布特性的影响因素分析 ►基于CEEMDAN能量相对熵的小电流接地系统 ...
谷歌的Loon气球是如何利用深度强化学习有效穿越平流层的？

作者:Salvatore Candido Loon和Google AI如何实现世界上第一次在量产航空航天系统(a production aerospace system)中应用强化学习算法. 驱动一个 ...
AI|当推荐系统遇上图学习：IJCAI 2021基于图学习的推荐系统最新综述

『运筹OR帷幄』转载作者:Shoujin Wang Shoujin Wang, 麦考瑞大学博士后, 研究方向:数据挖掘,机器学习,推荐系统. 编者按作为人工智能最重要的应用之一,推荐系统几乎存在 ...
RecNN | 一个基于强化学习的新闻推荐系统框架

嘿,记得给"机器学习与推荐算法"添加星标今天给大家推荐一个基于强化学习进行新闻推荐的算法库. 值得注意的是该库的创建者是一个高二的学生,该项目是作者的学校项目.作者觉得强化学习入 ...
GitHub项目推荐｜基于强化学习的自动化剪枝模型

今天为大家介绍一个GitHub上最新开源的一个基于强化学习的自动化剪枝模型,本模型在图像识别的实验证明了能够有效减少计算量,同时还能提高模型的精度.项目地址:https://github.com/fr ...
基于强化学习动态避障的Python实现（绝赞摸鱼版）

基于强化学习动态避障的Python实现吐槽在前这是我的研究生小课题,可是老师从头到尾没有理过我,只给了我一个题目,连稍微具体一点的要求都没提.那我就摸鱼摸爆于是我进行了许多的简化,到最后做出了一 ...
Merlin：基于深度学习的推荐系统框架

编辑整理:光光出品平台:DataFunTalk.AI启蒙者导读:随着大数据时代的到来,人们在一天内接触到的信息量越来越大,为了解决信息过载的问题,人们提出'推荐系统'这一概念,它被广泛应用于电子商 ...
基于自适应策略的深度强化学习

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
基于异步多智能体强化学习的公交驻车控制方法

基于异步多智能体强化学习的公交驻车控制方法
DeepMind最新论文：强化学习“足以”达到通用人工智能

撰稿:XT 排版:王落尘编审:寇建超从 1956 年达特茅斯会议首次定义人工智能(AI)至今,人工智能已经经历了 60 多年的发展历程,计算机领域的科学家们取得了一次又一次的革命性进步,从机器学习 ...
基于深度学习的单目深度估计综述

前段时间有思考过结合3D信息来辅助多目标跟踪任务,不过效果没有达到我的预期.一方面是多目标跟踪相关数据集除了KITTI之外缺乏多任务标注信息,另一方面单目深度估计对于密集拥挤人群的效果很差.所以我觉得 ...

最新基于强化学习的推荐系统综述

相关推荐