强化学习研究综述

强化学习（Reinforcement Learning，RL）是一种机器学习范式，其中智能体（Agent）在与环境（Environment）互动过程中学习 (Jia & Wang, 2020)[1] (Song et al., 2023)[2]。智能体通过尝试不同的动作（Action），并根据环境的反馈（奖励Reward）来调整其策略（Policy），以最大化长期累积奖励 (Silver et al., 2018)[3] (Wang et al., 2021)[4] (Mnih et al., 2015)[5]。强化学习的核心在于通过试错（Trial and Error）来学习，而不是像监督学习那样依赖于已标记的数据 (Jia & Wang, 2020)[7] (Jayaraman et al., 2024)[6]。