强化学习2025 · 2 RL

认真上课

[TOC]

Model

Model-based Learning

环境模型

  • 模型通常包含两部分:
    • 状态转移模型(Transition model):给定当前状态和动作,预测下一个状态的分布。
    • 奖励模型(Reward model):给定当前状态和动作,预测可能得到的奖励。

优势

  • 因为能在“想象”的环境模型中模拟许多轨迹,不需要每次都和真实环境交互
  • 学到的模型可在新情境下预测结果
  • 可解释性强

劣势

  • 需要保证环境模型的可靠
  • 需要额外学习和维护环境模型,有时规划过程(如基于树搜索)会比较耗时

假设智能体(agent)是一只老鼠,要在迷宫中找到奶酪。

  • 知道“向北会撞墙”,“向东有一个通道”。

  • 预测“从当前点走两步后会到达哪个位置”。

有了地图后,老鼠就能在脑子里“模拟”几条可能的路径,然后选择最短的去找奶酪。

假设agent是机器人,需要学会走路

  • 机器人先学习“动力学模型”:比如“如果关节转动10度,身体会前倾多少”。

  • 它可以在模拟器里尝试动作,预测是否会摔倒。

这样在真实环境中测试之前,机器人已经在“脑海”里学会了走路。

Model-free Learning

核心思想

  • 不尝试理解环境的规律,而是直接通过与环境的交互来学习

优势

  • 实现简单,不需要构建和维护复杂的环境模型。
  • 在环境复杂、难以建模时非常实用(比如真实世界中的天气、股市)。

劣势

  • 数据效率低:需要大量的真实交互才能学到较好的策略。
  • 可解释性差,只知道“做这个动作会有用”,但不知道为什么。

示例

  • 老鼠找奶酪
    • 不理解迷宫规则,只是不断试错。
    • “向北走几次都撞墙 → 不要往北走”。
    • “偶尔往东走到达奶酪 → 记住这种动作”。
    • 通过不断积累经验,学会走到奶酪,但不一定是最短路径。
  • 机器人学走路
    • 不建立动力学模型,只是反复尝试不同的动作(抬腿、摆手)。
    • 摔倒 → 负奖励;前进一步 → 正奖励。
    • 经过大量试错,最终学会稳定行走。
Licensed under CC BY-NC-SA 4.0
使用 Hugo 构建
主题 StackJimmy 设计