强化学习(Reinforcement Learning,RL)是一种机器学习范式,其中智能体(Agent)在与环境(Environment)互动过程中学习 (Jia & Wang, 2020)[1] (Song et al., 2023)[2]。 智能体通过尝试不同的动作(Action),并根据环境的反馈(奖励Reward)来调整其策略(Policy),以最大化长期累积奖励 (Silver et al., 2018)[3] (Wang et al., 2021)[4] (Mnih et al., 2015)[5]。 强化学习的核心在于通过试错(Trial and Error)来学习,而不是像监督学习那样依赖于已标记的数据 (Jia & Wang, 2020)[7] (Jayaraman et al., 2024)[6]。