【强化学习】强化学习专栏上线,60多篇文章等你follow
大家好,今天行健在有三AI开设新专栏《强化学习》。在这个专栏中,我们会分为五大模块去讲解强化学习涉及到的方方面面,包括强化学习基础理论宗派,经典算法,编程实践,前沿理论和文献,强化学习应用领域,强化学习与其他机器学习理论交叉领域综述等内容。
强化学习作为AI领域不同于监督学习和非监督学习之外的第三种存在,其发展前景和强大的处理问题的能力,在AI走向通用人工智能的道路上,有着非同寻常的价值。为了进一步了解和掌握这一算法的实质属性和能力边界,我们需要大量的基础研究和实践验证,相信随着这一专栏的不断更新,我们能够领略到强化学习的独特魅力,同时也更加深刻的知晓其应用的领域,范畴和条件。如果你准备好了,那就和我们一起出发吧。
作者 | 行健
编辑 | 行健&言有三
1 什么是强化学习
强化学习的思想源于行为心理学(behavioural psychology)的研究。
1911年科学家Thorndike提出了效用法则(Law of Effect):一定情境下让动物感到舒服的行为,就会与此情景加强联系,当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与此情景的联系,此情景再现时,此行为将很难再现。历史上曾经有过“巴普洛夫狗”的实验,一方面巴普洛夫给狗提供信号,一方面给予及时奖励。狗在信号和奖励之间建立了行为映射,从而强化了狗对信号的响应,最终使得狗能够自发的响应信号。
强化学习不仅直接模仿了生物学习的智能模式,而且也不像其它大多数机器学习方法中,智能体需要被告诉去选择哪种动作,使用强化学习方法的智能体能够通过尝试不同的动作(action),自主地发现并选择产生最大回报(rewards)的动作。这样一来,强化学习使得智能体可以根据自己的经验进行自主地学习,既不需要任何预备知识也不依赖任何外部智能“老师”的帮助。
2 强化学习能够做什么
图2.1 强化学习类比于儿童学习
强化学习的核心机制:用试错(trail-and-error)来学会在给定的情境下选择最恰当的行为。即通过试错学习如何最佳地匹配状态(states)和动作(actions),以期获得最大的回报(rewards)。
“如何最佳的匹配状态和动作”,强化学习所解决的这样很具有普遍性的问题使得强化学习在机器人学,最优控制,棋类对弈,策略博弈,飞行控制,导弹制导,预测决策,金融投资以及城市交通控制等领域都有大量的应用。
从计算机实现的角度看,大多数机器学习的方法都需要事先知道要解决的问题是“什么”,以及问题“怎么样”来解决。再通过编写程序来告诉计算机如何求解。在实际情形下,知道“做什么”远比知道“怎么做”的情形多得多。
例如,对于这样一个问题:一个城市交通网络由多个十字路口以及它们之间的道路组成,每一个十字路口的交通灯由一个Agent控制,那么这多个Agent应该如何协作控制红绿灯的时段长短,使得进入该城市交通网络的所有车辆在最短时间内离开该城市交通网络呢?Agent学习要“做什么”的问题是清晰的:使所有车辆以最短时离开该城市交通网络;但“怎样做”却是复杂和困难的。
强化学习提供了这样一种美好的前景:只要确定了回报,不必需要规定Agent怎样完成任务,Agent 将能够通过试错学会最佳的控制策略。在前面的多Agent交通控制问题中,只需规定所有车辆通过时间越短获取的回报越大,那么这多个Agent将自主学会最优的交通灯协作控制策略使得所有车辆在最短时间内通过该城市网络。尽管直到今天,解决这样多个十字路口的交通灯控制问题,强化学习依然面临巨大的计算量和较长的计算时间。但从实现的角度来看,强化学习是一种可以把人从必须考虑“怎么做”中解放出来的机器学习方法,也相信强化学习是能够使得智能从计算智能进化到人工智能直至生物智能的途径之一。
3 强化学习算法地图
强化学习涉及到的理论主要为控制论,最优化,蒙特卡洛搜索等。从强化学习的几个元素的角度划分的话,方法主要有下面几类:
Policy based, 关注点是找到最优策略。
Value based, 关注点是找到最优奖励总和。
Action based, 关注点是每一步的最优行动。
更细的分类如下图展示:
图3.1 强化学习算法地图
4 专栏目录和作者简介