Diffusion Language Model · BirdResearch

AR LLM

对于自回归模型，假设输入是：[你, 好, ！]

词汇表是：

1
2
3
4
5
6
7
8


0: <pad>
1: 你
2: 好
3: 我
4: 很
5: 好
6: ！
7: <eos>

[TOC]

Dream 7B: Diffusion Large Language Models

2508.15487 Dream 7B: Diffusion Large Language Models

Performance

问题：
- AR模型对于需要整体考虑的任务（长期规划、多约束）场景表现差
- AR模型对于长文本的一致性较差
- 在各类通用任务中，要达到与Qwen2.5等顶尖自回归模型相当的性能仍存在显著差距
贡献：
- 基于自回归的LLM 初始化和上下文自适应噪声调度技术来实现扩散语言模型的规模化训练
- Dream 7B Base和Dream 7B Instruct

Approach

Dream

使用Transformer以偏移方式，预测所有[MASK]

常规的MDM是直接预测对应位置的[MASK]，需要重新训练一个新的Transformer

AR-based LLM Initialization

自回归模型的训练目标就是使用第$i$个隐藏状态预测$i+1$的token

因此我们以偏移方式进行预测，没有打破这种位置关系

因此将已有的自回归模型参数作为初始值

保留AR模型的知识
加速收敛

Context-Adaptive Token-Level Noise Rescheduling

先前衡量噪声程度一般都是句子级别的：LLaDA衡量某个句子在$t$时刻的权重是$\frac{1}{t}$

本文发现不同token之间的上下文信息是不同的，因此需要对噪声的衡量更加精细，避免学习的不平衡

公式化地，定义损失函数：

$$ L(\theta) = -\mathbb{E}_{x_0,t,x_t}\sum_{i=1}^{L}1\left [x_t^i=M\right] \cdot w(t,x_t,i) \cdot \log p_\theta(x_0^i\mid x_t) $$

对于LLaDA，其$w(t,x_t,i) = \frac{1}{t}$

考虑对于某个token的上下文信息：

距离越近的unmask的token提供的信息越丰富

因此论文定义为：

$$ w(t,x_t,i) = \frac{1}{2}\sum_{j=1}^L\left [x_t^j\neq M\right] Geo(p, |i-j|-1) $$

其中$Geo$表示几何分布核：

$$ Geo(p,d) = (1-p)^d\cdot p, \quad d\geq 0 $$

距离$d$越大，贡献越小
超参数$p$：

超参数p

Train

Dream-7B采用了与Qwen2.5-7B完全相同的Transformer架构配置
Pretrain
SFT

采用了之前的技巧，训练上与LLaDA没什么不同（注意损失函数）

Experiment

Base模型

benchmark

推理任务中（ARC-E、ARC-C）表现良好
规划任务中领先幅度巨大
训练数据量非常小

结论：

初始化策略和上下文自适应噪声调度有效性

Dream-Instruct

180万条数据，进行3轮微调

论文中没做分析
这里和LLaDA一样，SFT之后效果落后，甚至出现了性能下降

扩散大语言模型在遵循指令任务中具备与基于自回归的大语言模型相匹敌的潜力，为未来高级扩散大语言模型后训练方案奠定了基础

AR Initialization的贡献

验证：AR LLM初始化是有效的

实验设计：

LLaMA3.2-1B参数初始化的Dream-1B和从头训练的Dream1B

Loss 对比

Loss始终更低，证明了初始化是有效的

同时在这个实验中，论文说明了学习率的影响非常大：

大的学习率：破坏AR LLM的有益特性
小的学习率：阻碍学习扩散的过程

（但似乎没写上下文自适应噪声调度机制的消融实验）

Planning Ability

规划能力对比

Dream 模型在两项任务中始终优于其他同等规模的基线模型
扩散语言模型在解决涉及多重约束或特定目标优化的问题时具有天然优势（？）

Trade-off

Diffusion language models provide a unique advantage through their adjustable inference process

基于时间步长的方法为推理时缩放引入了新的维度，可与现有技术协同工作，例如 OpenAI o1和DeepSeek R1等大型语言模型中使用的思维链推理
这种可调节的计算质量权衡代表了扩散模型区别于传统自回归模型的关键优势。

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

2505.19223 LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

LLaDA1.5

看不懂

大概就是通过VRPO这个方法，基于LLaDA的工作，对LLaDA-instruct进行RL

LLaDA RL

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

2506.14429 LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

长上下文对比

核心问题：扩散型LLMs在长文本处理领域的研究空白
- 为什么扩散LLM在直接长度外推时保持稳定的困惑度并呈现局部感知特性
- 针对自回归 LLM 建立的长度扩展技术能否迁移至扩散架构
- 自回归基线相比，扩散 LLM 在长上下文基准测试中表现如何？会显现哪些独特能力或局限性？
贡献：
- 揭示了其在上下文外推过程中保持稳定困惑度和局部感知的独特特性，并通过RoPE机制进行了解释
- 基于 NTK 的 RoPE 外推法与缩放定律可无缝迁移至扩散 LLMs，实现 6 倍上下文扩展
- benchmark表明：扩散 LLMs 在检索任务中与自回归模型表现相当，在聚合任务中稍显不足，但在问答任务中表现卓越

Long-Context Phenomenology of Diffusion LLMs

大海捞针测试（Needle-In-A-Haystack, NIAH）

在一个超长的上下文（haystack，干草堆）里，研究者会插入一小段关键信息（needle，针）

模型的任务是：在生成或问答过程中，能否准确地“找到”并使用这段信息。

这类测试会改变针的位置（例如放在靠前、中间或靠后部分）以及上下文的总长度，用来观察模型在不同深度和不同长度下的表现。

实验目的：揭示扩散 LLM 在长上下文中出现的局部感知 (local perception)
实验设计：
- 输入：在不同长度（最多32k）的长上下文中插入一个needle
- 输出：限定模型输出最多32个token
- 实验对象
  - DLM：block size = 32，采样步数 = 32
  - LLM：默认
- 评估指标
  - 找到Needle的成功率
  - 模型在不同深度（前文、中间、后文）找到Needle的能力

LLaDA与LLaMA系列实验结果

附录中补充了其他DLM模型的实验

AR LLM在8K内的上下文表现完美，超过8K长度无法完成任何任务
DLM出现了类似**滑动窗口（窗口长度为4k）**的表现

DLM受采样步数影响较大，因此定量补充了实验：

Sample Step

表明扩散 LLMs 的长上下文性能虽受采样步数影响，但仍受限于模型支持的最大上下文长度

机制分析

自回归只能看见后续的：$[0, T_{train} - 1]$（LLaMA的$T_{train} = 8192$）
DLM是双向注意力：$[1-T_{train},T_{train}-1]$（LLaDA的$T_{train}=4096$）
- 对于单个token，可以同时出现在左边的上下文窗口，也可以出现在右边的上下文窗口

context

留坑：RoPE

LLaMA完全丢失了负相对位置的信息，外推能力受限
LLaDA虽然$T_{train}$比较小，但是能够接受到一个负正窗口

LLaMA：只学习了从头往后一个个token读取的能力

它可以知道，第2个token是第1个token的后一个……第1000个token是第999个token的后一个……

（像翻书一样可以一页一页翻）

但是一旦碰到第10000页，它推理不出这是9999页过来的（超出上下文，没有学习过这种关系）

LLaDA：双向上下文

可以推断出9999是10000的前一页

论文补充了t-SNE可视化实验

观察了两个模型最后的Q和K states

t-SNE

LLaDA随着上下文长度增加，仍然保持形状
LLaMA出现了明显的聚类分离，表示内部出现了distribution shift

Context Extension

将 NTK-based RoPE extrapolation（一种在自回归 LLM 中已验证的旋转位置嵌入扩展方法）迁移到扩散式 LLM

缩放旋转基数 β0，让正弦/余弦函数周期变长，相当于“拉伸坐标轴”，从而容纳更长的上下文

base

instruct

小幅扩展有效： 8k 或 16k，几乎在所有深度下都保持接近 100% 的检索准确率。
中等扩展出现性能下降：24k ，出现lost-in-the-middle现象
- 自回归模型中同样有的现象
大规模扩展失败：模型无法再有效外推，说明方法的实际上限已到达。

附录中对同类的DLM做了相同的实验

Experiment

SD、MD、Sum 和 Syn 分别代表单文档问答、多文档问答、摘要和合成任务

Avg 是所有子任务按评估数据数量加权的平均得分

LongBench

平均得分媲美AR LLM

检索（NIAH）/聚合（AGG）/问答（QA)

Ruler

检索任务：相当
聚合任务：不如AR LLM
问答任务：超过AR LLM

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

问题：完全基于扩散机制的多模态大语言模型能否达到与AR LLM相匹敌的性能？
论文贡献
- 首个完全基于扩散模型的多模态大语言模型
- 在多个基准测试中展现出卓越的可扩展性
- 在混合型及纯扩散式多模态大语言模型中均SOTA
Visual Instruction Tuning
Vison Tower（CLIP或SigLIP）：图像转视觉表征
MLP connector：嵌入LLM词空间
Language Tower：LLM

主流的多模态大模型架构之一，只需要相对较少的数据（less than 100w 图文数据对）

本文主要研究如何在DLM中进行Visual Instruction Tuning

Method

Language Tower：LLaDA 8B（与LLaMA3-8B相当的语言模型）
Vison Tower：SigLIP
MLP Connector：a two-layer MLP

Training

训练阶段引入了含有多轮对话的数据

为了简化描述，文章以2轮对话的数据进行说明，定义符号：

$\mathcal{v}$：Vison Tower和MLP Connector生成的视觉表征向量
$[M]$：掩码标记
数据：$(\mathcal{v}, p_0^1,r_0^1,p_0^2,r_0^2)$
$p_0^1 = [ p_0^{1,i}]$：首轮提示文本
$p_0^2 = [ p_0^{2,i}]$ ：次轮提示文本

对于一个二轮对话，训练目标定义为：

$$ L(\theta) = -\mathbb{E}_{\mathcal{v},t,p_0^1,r_0^1,r_t^1,p_0^2,r_0^2,r_t^2}\left[\frac{1}{t}\sum_{i=1}^{L_{p_1}}\sum_{j=1}^{L_{p_2}}1\left[r_t^{1,i}=M\wedge r_t^{2,j}=M\right] \cdot \log p_\theta(r_0^{1,i},r_0^{2,j}\mid \mathcal{v}, p_0^1,r_0^1,p_0^2,r_0^2 ) \right] $$

在多轮对话场景下，不同轮次的响应是强相关的

用户的问题可能在第 1 轮，答案在第 2 轮

推理链条往往横跨多个回合，不能只看单独的 token

模型必须在预测某个 token 时，同时考虑另一轮对话中的掩码 token

这样就把 跨轮次的依赖关系 学进去，而不是每轮单独学

联合约束迫使模型去捕捉 对话轮次之间的因果逻辑

理论上这个式子在先前工作中已经被证明为整个任务的负对数似然上界

在多轮对话中似乎可以采用causal mask，阻止早期对话轮次访问了后期的对话轮次
后文消融实验证明双向注意力的效果更好（实现对整体对话语境的全面理解）

该机制在近期视频扩散模型中已证实可有效提升生成视频的时间连贯性

本身训练的流程和LLaDA的SFT流程比较相似，加噪只会在Response中，且同时对多轮对话中的Response进行加噪

一次性让模型恢复所有对话中的MASK

AR + Train + Inference

Training Strategies

整个训练过程参考了LLaVA的训练策略

建立语言和视觉对齐关系并培养视觉指令跟随能力

训练目标函数与上文相同

阶段一：语言-图像对齐
- 目的：图像与语言的分布不一致，如果直接做指令调优，模型学习跨模态语义很困难
- 方法：将视觉表征与 LLaDA 的词向量进行对齐
  - 冻结Vison Tower和Language Tower（这两个本身进行过预训练），只训练MLP Connector
  - 数据集：LLaVA-Pretrain
阶段二：视觉指令调优Visual Instruction Tuning
- 目的：（单图像训练）建立基本的图像理解能力，（多图像训练）扩展到时序和跨图像推理
- 方法：（两个阶段）解冻所有层
  - 单图像训练Single image：在 1,000 万单图像样本上训练，增强对单张图像的理解与响应能力。
  - 统一视觉训练阶段one vision：在 约 200 万多模态样本（包括单图、多图和视频）上训练，使模型具备处理复杂场景的能力
- 数据集：MAmmoTH-VL 数据集
阶段三：多模态推理增强 Multimodal Reasoning Enhancement
- 目的：增强模型处理复杂任务的多模态推理能力，加入reasoning data提升数学、跨图像和逻辑推理任务的表现
- 方法
  - 推理训练：使用来自 VisualWebInstruct聚焦推理的多模态数据对 LLaDA-V 进行训练（90 万个问答对，详尽的推理链和最终答案）
  - 平衡训练：参考qwen系列，融合VisualWebInstruct（其中50%添加\think）和MAmmoTH-VL(one vison部分，全部添加\no_think，鼓励直接回答)

Inference

推理时根据已有的对话记录，对当前的prompt进行单轮的response生成

重掩码策略采用low-confidence strategy

Experiment

可扩展性

LLaDA-V 随着训练数据增加性能持续提升
在 多学科与数学推理任务 上，LLaDA-V 扩展性明显优于 LLaMA3-V
但在 图表/文档理解 和 真实场景理解 任务上，LLaMA3-V 表现更优

scalability

Benchmark

对于已有的混合或扩散模型，LLaDA-V是SOTA
对比LLaMA3-V：6 个任务上超越
对比Qwen2-VL：整体仍落后
图表/文档理解和 RealWorldQA 上表现稍差

benchmark

消融实验

对比了Causal Mask和无Mask（多轮对话）
12个benchmark中7个更优

消融实验

Conclusion

图像接入SigLIP的方式比较简单，会丢失分辨率和信息，造成图表问题表现差

LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

2508.01617 LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

没怎么看，大概是把LLaDA-V的工作调整到了垂类领域

一些比较有趣的实验分析：

DLM在一些垂类领域非常合适，可以显式地控制一个大概的生成长度
模型可能出现重复 token（如 “the the the …”）的问题，尤其在采样步数较少或长度设定较大时
直接使用LLaDA-V的参数做微调的性能反而更差，需要从LLaDA-instruct出发，重新走3个步骤

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

intro