[TOC]
Model
Model-based Learning
环境模型
- 模型通常包含两部分:
- 状态转移模型(Transition model):给定当前状态和动作,预测下一个状态的分布。
- 奖励模型(Reward model):给定当前状态和动作,预测可能得到的奖励。
优势
- 因为能在“想象”的环境模型中模拟许多轨迹,不需要每次都和真实环境交互
- 学到的模型可在新情境下预测结果
- 可解释性强
劣势
- 需要保证环境模型的可靠
- 需要额外学习和维护环境模型,有时规划过程(如基于树搜索)会比较耗时
假设智能体(agent)是一只老鼠,要在迷宫中找到奶酪。
知道“向北会撞墙”,“向东有一个通道”。
预测“从当前点走两步后会到达哪个位置”。
有了地图后,老鼠就能在脑子里“模拟”几条可能的路径,然后选择最短的去找奶酪。
假设agent是机器人,需要学会走路
机器人先学习“动力学模型”:比如“如果关节转动10度,身体会前倾多少”。
它可以在模拟器里尝试动作,预测是否会摔倒。
这样在真实环境中测试之前,机器人已经在“脑海”里学会了走路。
Model-free Learning
核心思想
- 不尝试理解环境的规律,而是直接通过与环境的交互来学习
优势
- 实现简单,不需要构建和维护复杂的环境模型。
- 在环境复杂、难以建模时非常实用(比如真实世界中的天气、股市)。
劣势
- 数据效率低:需要大量的真实交互才能学到较好的策略。
- 可解释性差,只知道“做这个动作会有用”,但不知道为什么。
示例
- 老鼠找奶酪:
- 不理解迷宫规则,只是不断试错。
- “向北走几次都撞墙 → 不要往北走”。
- “偶尔往东走到达奶酪 → 记住这种动作”。
- 通过不断积累经验,学会走到奶酪,但不一定是最短路径。
- 机器人学走路:
- 不建立动力学模型,只是反复尝试不同的动作(抬腿、摆手)。
- 摔倒 → 负奖励;前进一步 → 正奖励。
- 经过大量试错,最终学会稳定行走。