深入浅出强化学习:原理入门
郭宪
评分 5.0分
深入浅出强化学习:编程实战
评分 暂无
《深入浅出强化学习:编程实战》是《深入浅出强化学习:原理入门》的姊妹篇,写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。 本书首先介绍马尔可夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分3 篇介绍了目前强化学习算法中最基本的算法。第1 篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡