强化学习2025 · 1 Markov Decision Process

认真上课

[TOC]

第一节课没记笔记,生成一下

马尔可夫决策过程(MDP)与强化学习基础笔记

1. 马尔可夫决策过程(MDP)定义

MDP 是强化学习的数学建模框架,用于描述智能体(Agent)在环境中与状态、动作、奖励的交互。

一个 MDP 通常由五元组表示:

  • 状态集合 $S$:环境可能处于的所有状态。
  • 动作集合 $A$:智能体在某状态下可选择的动作。
  • 状态转移概率 $P(s’|s,a)$:在状态 $s$ 下采取动作 $a$ 后转移到新状态 $s’$ 的概率。
  • 奖励函数 $R(s,a)$:在状态 $s$ 下采取动作 $a$ 后获得的即时奖励。
  • 折扣因子 $\gamma ;(0 \leq \gamma < 1)$:衡量未来奖励的重要性。

目标:寻找一条最优策略 $\pi$,使得长期累积奖励(回报)最大化。

2. 策略(Policy)

  • 策略 $\pi$ 定义为:$\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率。
  • 确定性策略:$\pi(s) = a$
  • 随机性策略:$\pi(a|s)$ 是一个概率分布。

3. 价值函数(Value Function)

价值函数用于评估某个状态或状态-动作的优劣:

  • 状态价值函数 $V^\pi(s)$:在状态 $s$ 下遵循策略 $\pi$ 的期望回报

    $$ V^{\pi}(s) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R(s_t,a_t) \mid s_0=s \right] $$
  • 动作价值函数 $Q^\pi(s,a)$:在状态 $s$ 下采取动作 $a$,然后遵循策略 $\pi$ 的期望回报

    $$ Q^{\pi}(s,a) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R(s_t,a_t) \mid s_0=s, a_0=a \right] $$
  • 两者关系:

    $$ V^{\pi}(s) = \sum_{a} \pi(a|s) Q^{\pi}(s,a) $$

4. 贝尔曼方程(Bellman Equation)

MDP 的核心递推关系:

  • 价值函数贝尔曼方程

    $$ V^{\pi}(s) = \sum_{a} \pi(a|s) \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{\pi}(s') \right] $$
  • 动作价值函数贝尔曼方程

    $$ Q^{\pi}(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \sum_{a'} \pi(a'|s') Q^{\pi}(s',a') $$
  • 最优价值函数贝尔曼最优方程

    $$ V^{*}(s) = \max_{a} \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{*}(s') \right] $$

5. 值迭代(Value Iteration)

值迭代是一种动态规划方法,用于计算最优价值函数和最优策略。

步骤:

$V_k(s)$表示从状态$s$出发迭代$k$次的值

  1. 初始化:对所有状态赋初值 $V_0(s)=0$。

  2. 迭代更新:

    $$ V_{k+1}(s) = \max_{a} \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V_k(s') \right] $$
  3. 收敛:当 $V_k$ 收敛时,得到最优值函数。

  4. 策略提取:

    $$ \pi^{*}(s) = \arg\max_a \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{*}(s') \right] $$

6. 策略迭代(Policy Iteration)

策略迭代通过“评估-改进”循环寻找最优策略。

步骤:

  1. 初始化:随机选择一个策略 $\pi$。

  2. 策略评估:在固定策略 $\pi$ 下,求解贝尔曼方程得到 $V^\pi(s)$。

  3. 策略改进:更新策略:

    $$ \pi_{\text{new}}(s) = \arg\max_a \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{\pi}(s') \right] $$
  4. 若策略收敛,则得到最优策略 $\pi^*$。

7. 值迭代 vs 策略迭代

  • 值迭代:直接逼近最优值函数,更新过程中隐式改进策略。
  • 策略迭代:交替进行“策略评估”和“策略改进”。
  • 效率对比
    • 策略迭代每次迭代计算量大,但收敛步数少。
    • 值迭代每次更新计算量小,但需要更多迭代。

8. 总结

  • MDP 提供了强化学习的数学基础。
  • 价值函数刻画了状态和动作的优劣。
  • 值迭代与策略迭代是动态规划求解最优策略的两大基本算法。
  • 在实际应用中,状态空间过大时,需结合函数逼近(如神经网络)来解决。
Licensed under CC BY-NC-SA 4.0
使用 Hugo 构建
主题 StackJimmy 设计