这本手稿涵盖了强化学习的所有重要的基本方面。第二章采用马尔可夫决策过程对主体与环境之间的相互作用进行建模。第三章介绍了基于给定环境模型解决MDP问题的核心技术——动态规划。一般来说,解决MDP问题涉及到政策评估和政策改进的迭代。在第四章中,我们讨论了无模型方法:蒙特卡洛,TD学习,SARSA和q学习。第五章对强化学习中的值函数逼近进行了一般讨论。作为一个重要的例子,深度Q-learning将在第6章中详细介绍。第7章介绍了策略梯度方法,重点介绍了策略梯度定理、REINFORCE算法、Advantage Actor-Critic算法等基本概念。

成为VIP会员查看完整内容
95

相关内容

书籍在狭义上的理解是带有文字和图像的纸张的集合。广义的书则是一切传播信息的媒体。
【硬核书】博弈论,592页pdf
专知会员服务
164+阅读 · 2022年12月7日
【2022新书】深度强化学习基础: Python的理论与实践
专知会员服务
141+阅读 · 2022年11月18日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
231+阅读 · 2022年2月3日
专知会员服务
220+阅读 · 2021年8月2日
【2022新书】强化学习工业应用
专知
18+阅读 · 2022年2月3日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
28+阅读 · 2018年8月17日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
32+阅读 · 2021年3月29日
Arxiv
24+阅读 · 2021年1月25日
Few-shot Learning: A Survey
Arxiv
363+阅读 · 2019年4月10日
VIP会员
相关VIP内容
【硬核书】博弈论,592页pdf
专知会员服务
164+阅读 · 2022年12月7日
【2022新书】深度强化学习基础: Python的理论与实践
专知会员服务
141+阅读 · 2022年11月18日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
231+阅读 · 2022年2月3日
专知会员服务
220+阅读 · 2021年8月2日
相关资讯
【2022新书】强化学习工业应用
专知
18+阅读 · 2022年2月3日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
28+阅读 · 2018年8月17日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
相关论文
Arxiv
32+阅读 · 2021年3月29日
Arxiv
24+阅读 · 2021年1月25日
Few-shot Learning: A Survey
Arxiv
363+阅读 · 2019年4月10日
微信扫码咨询专知VIP会员