【赠书】深度强化学习落地指南，来自一线工程师的经验！

2024-06-24 04:11:27

‍‍

今天要给大家介绍的书是深度强化学习落地指南，本书是海康威视研究院任算法专家工作总结，对强化学习落地实践中的工程经验和相关方法进行了系统归纳。

本书内容

本书一共分为7章，包括强化学习的需求分析和算法选择的方法，动作空间、状态空间和回报函数设计的理念，训练调试和性能冲刺的技巧等。

第1章：需求分析，介绍了强化学习的基本概念，为什么要使用强化学习，以及强化学习可以做的事情。

第2章：动作空间设计，包括动作空间的完备性，动作空间的高效性，动作空间的合法性。

第3章：状态空间设计，包括状态空间设计的四个步骤划分，状态空间设计的两种常见误区，与动作空间和回报函数的协同设计。

第4章：回报函数设计，包括回报函数的基本设计，回报函数设计的常见陷阱，基于学习的回报函数。

第5章：算法选择，介绍包括DQN，DDPG，A3C等经典算法，以及TD3，SAC，PPO等更新的算法。

第6章：训练调试，包括训练前的准备工作，如数据预处理，训练过程中的超参数调节，如何监控训练状态。

第7章：性能冲刺，包括课程学习，额外监督信号的使用，进化策略方案。

作者简介

魏宁：本科和硕士分别毕业于西安交通大学和中国科学院大学计算机专业，在国际顶级会议和期刊上发表多篇学术论文，曾就职于德国KUKA Robotics从事协作机器人智能应用研发工作，目前在海康威视研究院任算法专家，负责深度学习、强化学习等领域的创新研究和落地应用，同时也是互联网社区“深度强化学习实验室”核心成员。

本书特点

本书从工业界一线算法工作者的视角，对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式，转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法，动作空间、状态空间和回报函数设计的理念，训练调试和性能冲刺的技巧等。

赠书

接下来是福利时间，本次我们赠送出3本书籍（前5次获得赠书的朋友不能再参与本次赠书活动），想要获得书籍的同学，在本公众号下方留言，根据点赞数的高低，下周二晚上（9.28）22:00统计出获奖读者并进行公示，届时联系有三微信Longlongtogo即可。

如果没有获得赠书，也可以在京东和当当购买，链接如下：

赠书结果 | 《算法小时代》

<算法小时代>精彩评论赠书活动截止周五结束了. 感谢各位朋友的参与, 也祝贺下面的朋友并获得赠书的朋友们. 阿伍特青年 158赞太子太师 125赞 wan.gx ...
深度强化学习综述(上)

人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作.对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手:对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶 ...
【Excel公式随笔】条件求和你只知道SUMIF，看看大神都是怎么玩的（文本有赠书活动）

公众号回复2016 下载office2016 今天有赠书活动,一直往后看-- 题目要求与说明: 每人参加三次测试,现在要统计所有人第一次的成绩之和,请问该当你遇到这样的问题该如何处理? 就这个题目 ...
澄明：简述深度学习与GeoAI

概念人工智能人工智能不是人的智能,但能像人那样思考,也可能超过人的智能. 机器学习机器学习的核心思想是创造一种算法,它能从数据中挖掘出有规律的东西,而不需要针对某个问题去写代码.你需要做的只是 ...
计算机架构的机器学习

视频介绍:计算机架构的机器学习最近机器学习 (ML) 进步的关键贡献者之一是定制加速器的开发,例如Google TPU和Edge TPU,它们显着提高了可用计算能力,从而解锁了各种功能,例如Alph ...
深度强化学习落地方法七步曲|写在前面、需求分析、算法选择、动作空间、状态空间、回报函数、训练

大纲 1.写在前面 2.需求分析篇 3.算法选择篇 4.动作空间篇 5.状态空间篇 6.回报函数篇 7.训练篇正文一.写在前面缘起随着这波人工智能浪潮的兴起,强化学习(Reinforcemen ...
Nature重磅：深度强化学习“落地”高空，全自动环境监测或成现实

在电影<飞屋环游记>中,男主人公用一大堆气球将自己的小木屋带上天空,并通过增减气球.手动施力来改变气球的飞行方向,去实现他未曾实现的梦想...... 当然,电影世界具有一定的幻想色彩.但是 ...
深度强化学习落地方法论（6）——回报函数篇

目录前言非要手工设计吗? 主线reward和稀疏回报问题目标分解和辅助reward 目标分解实例杜绝异常行为贪婪胆怯鲁莽 Reward Shaping Optimal Reward Pr ...
基于自适应策略的深度强化学习

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
Sergey Levine-伯克利《深度强化学习2020》课程视频及ppt分享

课程介绍本课程主要讲解深度强化学习相关的基础知识,基础模型:还设计迁移学习.多任务学习和元学习. 文末附本课程视频及ppt免费下载地址. 课程主页 http://rail.eecs.berkeley ...
深度强化学习DDPG在量化投资的应用

主动基金被动管,被动基金主动管. 所以,我们的模型主要应用于场内ETF,ETF可以随时交易且手续费相对较低.而且ETF是支持T+0的. 继续强化学习. 今天探讨一下这DDPG:深度确定性策略梯度(De ...
脑机头条第33期| OpenAI大规模深度强化学习玩DOTA2

更多脑机干货第一时间送达 2020年2月22日脑机头条第33期强化学习定义: 是智能体(Agent)以"试错"的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智 ...
从零实现一个支持深度强化学习的量化投资系统

研究过外汇自动交易,期货CTA,然后是股票的量化投资,当然本质上没有太大区别. 开源量化系统也用过几个,数据格式融合的问题,有些不方便,而且客观讲,实现一个简单的量化系统,其实非常简单. 这一次算是重 ...
Neuron：使用深度强化学习揭示大脑如何在高维环境中编码抽象的状态表示

人类拥有一种特殊的能力,可以通过感官对高维事物进行观察并高效地做出决策.然而,大脑如何表示环境的当前状态以指导这一过程尚不清楚.Deep Q-network (DQN)通过捕捉从多元输入到潜在动作值的 ...

【赠书】深度强化学习落地指南，来自一线工程师的经验！

相关推荐