
强化学习(RL)是人工智能的一个流行和有前途的分支,它涉及建立更智能的模型和代理,这些模型和智能体可以根据不断变化的需求自动确定理想的行为。本书将帮助你掌握RL算法,并在构建自学习智能体时理解它们的实现。
从介绍强化学习环境中工作所需的工具、库和设置开始,本书涵盖了强化学习的构建模块,并深入研究了基于值的方法,如Q-learning和SARSA算法的应用。您将学习如何使用Q学习和神经网络的组合来解决复杂问题。此外,在学习DDPG和TD3确定性算法之前,我们还将学习策略梯度方法TRPO和PPO,以提高性能和稳定性。本书还介绍了模仿学习技术的工作原理,以及Dagger如何教会智能体驾驶。您将发现进化策略和黑盒优化技术,并了解它们如何改进RL算法。最后,你将学习探索方法,如UCB和UCB1,并开发一个名为ESBAS的元算法。
读完本书后,你将使用关键的强化学习算法来克服现实应用中的挑战,并成为强化学习研究社区的一员。