强化学习2025 · 2 RL

RL

强化学习2025 · 2 RL

认真上课

[TOC]

Model

Model-based Learning

环境模型

模型通常包含两部分：
- 状态转移模型（Transition model）：给定当前状态和动作，预测下一个状态的分布。
- 奖励模型（Reward model）：给定当前状态和动作，预测可能得到的奖励。

优势

因为能在“想象”的环境模型中模拟许多轨迹，不需要每次都和真实环境交互
学到的模型可在新情境下预测结果
可解释性强

劣势

需要保证环境模型的可靠
需要额外学习和维护环境模型，有时规划过程（如基于树搜索）会比较耗时

假设智能体（agent）是一只老鼠，要在迷宫中找到奶酪。

知道“向北会撞墙”，“向东有一个通道”。

预测“从当前点走两步后会到达哪个位置”。

有了地图后，老鼠就能在脑子里“模拟”几条可能的路径，然后选择最短的去找奶酪。

假设agent是机器人，需要学会走路

机器人先学习“动力学模型”：比如“如果关节转动10度，身体会前倾多少”。

它可以在模拟器里尝试动作，预测是否会摔倒。

这样在真实环境中测试之前，机器人已经在“脑海”里学会了走路。

Model-free Learning

核心思想

不尝试理解环境的规律，而是直接通过与环境的交互来学习

优势

实现简单，不需要构建和维护复杂的环境模型。
在环境复杂、难以建模时非常实用（比如真实世界中的天气、股市）。

劣势

数据效率低：需要大量的真实交互才能学到较好的策略。
可解释性差，只知道“做这个动作会有用”，但不知道为什么。

示例

老鼠找奶酪：
- 不理解迷宫规则，只是不断试错。
- “向北走几次都撞墙 → 不要往北走”。
- “偶尔往东走到达奶酪 → 记住这种动作”。
- 通过不断积累经验，学会走到奶酪，但不一定是最短路径。
机器人学走路：
- 不建立动力学模型，只是反复尝试不同的动作（抬腿、摆手）。
- 摔倒 → 负奖励；前进一步 → 正奖励。
- 经过大量试错，最终学会稳定行走。