《深入浅出强化学习:编程实战》是《深入浅出强化学习:原理入门》的姊妹篇,写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。
本书首先介绍马尔可夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分3 篇介绍了目前强化学习算法中最基本的算法。第1 篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。第2 篇讲解直接策略搜索方法,介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。第3 篇讲解基于模型的强化学习方法,介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。建议读者根据书中的代码亲自动手编程,并修改程序中的超参数,根据运行结果不断体会算法原理。
郭宪,南开大学人工智能学院讲师。2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,2016年1月获得工学博士学位,并到南开大学从事博士后研究工作,2018年7月任教于南开大学至今。目前主要研究方向和兴趣是仿生机器人智能运动控制、强化学习和机器人博弈。
宋俊潇,香港科技大学博士,目前就职于启元世界,担任研究科学家,专注于决策智能相关算法的研究与开发。博士期间在国际知名期刊和会议发表论文9篇。2015年,获得阿里巴巴天池大数据黄金联赛个人年度第1名(参赛队伍总计15154支)。曾就职于网易游戏,担任资深数据挖掘研究员,负责个性化推荐算法及基于深度强化学习的游戏AI技术的探索研究,三次获得公司层面的技术进步奖。
方勇纯,南开大学人工智能学院院长、教授、博士生导师,国家杰出青年基金获得者(2013年),...