大模型评估指南 · 2 自动化基准测试

Automated benchmarks

[TOC]

什么是自动化基准测试

Automated Benchmarks是一种通过标准化数据集和指标来量化评估模型性能的方法

核心组成

  1. 数据集(a dataset, made of samples.)
    • 包含输入样本(如问题、文本),部分附带参考答案(“黄金标准”)。
    • 需覆盖多样场景,例如测试分类任务时需包含边缘案例hard edge cases
  2. 评估指标(a metric)
    • 根据模型输出打分,常见方式:
      • 生成式评估:直接比对模型生成的文本(如翻译、问答)。
      • 概率式评估:通过模型对选项的log概率(如MCQA、困惑度)评分。

关键特点

  • 优点
    • 一致性和可复现性Consistency、reproducibility:相同测试多次运行结果稳定。
    • 低成本可扩展:适合大规模模型评估。
    • 易解释:如准确率、完全匹配等指标直观。
  • 局限性
    • 复杂任务难量化:例如“数学能力”需拆解为子任务(算术/逻辑等)。
    • 数据污染风险:公开数据集可能被模型训练时“见过”,导致分数虚高(过拟合)。

典型场景

  • 测试模型在新数据上的泛化能力(如训练时未接触的医疗垃圾邮件分类)。
  • 避免过拟合:若模型仅死记训练数据(如学生背题),则测试失效。

设计自动化评估方案

数据集

it’s very important to keep in mind that your evaluation result will only be as good as your evaluation dataset.

评估结果的质量完全取决于评估数据集的质量。

已有的数据集

检查创建过程

  • 创建者:专家创建 > 有偿标注者创建 ~ 众包数据 > 公开平台野生数据集
    • 注重data card,标注者的人口统计信息可以帮助了解数据集的语言多样性
  • 是否经过审查(否则容易出现拼写错误、语法错误、荒谬答案)
    • 标注意见一致
    • 作者是否检查过
  • 是否有明确的数据创建指南
    • 确保数据具有一致性

样本抽查:随机取50样本进行人工检查

  • 质量
    • prompts清晰、无歧义
    • 答案正确
    • 是否缺失信息
  • 任务相关
    • 与希望评估的任务类型一致
    • 场景相关

确保总数据的数量符合要求

自行创建数据集

推理方法

  • 生成模型:侧重生成连贯文本,其核心是预测下一个 token 的概率分布。
  • 推理模型:通过引导模型输出中间思考步骤,再得出最终答案 。

对数概率推理log-probabilities

适用于:

  • 封闭式任务:多项选择题(MCQA, multi-choice question answer)、判断题
  • 典型用例:知识问答测试、校准能力评估

原理:

  • 将问题与选项拼接为固定模板(如"问题:… 选项:A.xx B.xx…")
  • 计算模型对每个选项首字母(如A/B/C)的预测概率
  • 选择概率最高的选项作为答案

优势:

  • 快速计算(只需要1个token的输出)
  • 避免生成无关内容

劣势:

  • 选项顺序有一定影响
  • 高估小模型的能力、没有推理过程

生成式推理generative

  • 开放式任务:问答、文本创作、复杂推理
  • 典型用例:聊天机器人、编程助手、论文润色

原理:

  • 输入问题或指令(如"解释相对论")
  • 模型自由生成完整文本回答
  • 通过人工或自动指标(如ROUGE)评估质量

优势:

  • 反映真实应用水平
  • 支持多轮交互
  • 展现逻辑链能力

劣势:

  • 评估指标设计复杂
  • 计算成本高(尤其长文本)
  • 可能生成冗余/错误内容

综上:

维度 对数概率推理优先 生成式推理优先
任务类型 封闭式选择题 开放式创作/推理
评估速度 需快速批量测试时 可接受延迟的精细评估
模型规模 小模型(<10B参数) 大模型(>50B参数)
资源限制 计算资源有限 具备充足GPU显存
核心目标 测试知识准确性 测试综合生成能力

提示词

  • 给模型传达了多少任务信息
  • 信息的表达方式如何

MCQA 或 QA 的提示词通常包括以下部分:

  • 任务说明(可选):介绍任务
  • 上下文(context):提供题目的背景信息
    • 例:摘要任务中提供原始文本,信息抽取任务中提供源内容
  • 问题本身
  • 如果是多项选择题,附带选项
  • 一些连接词,如 QuestionContextChoice

注意事项:

  • 即使语义相同的小改动,也可能导致模型结果波动较大(troubleshooting/troubleshooting-reproducibility
    • 缓解方式
      • 更高成本:用不同提示格式重复评估
      • 更低成本:对等难度样本使用不同提示模板
  • 你可以为模型**提供示例(few-shot)**来帮助它理解格式,连接词也很有帮助

Training on the Test Task Confounds Evaluation and Emergence

现在模型往往过拟合某些提示格式

在 Open LLM Leaderboard 2 中,发现 Llama 3.2 和 Qwen 2.5 在 few-shot 情境下甚至不再遵循提示格式

  • 某些评估指标需要非常受限的输出格式(general-knowledge/model-inference-and-evaluation

评估指标

  • 对数概率评估:准确率
    • 需要对长度做归一化(字符、token、PMI)
    • 也可以用 perplexity(困惑度)、召回率、F1 等补充分析

在计算对数概率时,长文本的累积概率值天然更大

若不归一化,模型可能因生成更长(或更短)的选项而获得不公平的优势。

参考信息:

对于多选题中选项仅为单个字符(A/B/C/D)时仍存在长文本影响的原因及机制解析如下:


一、影响来源

即使选项本身是单个字符,实际输入模型的完整文本包含题干+选项的组合。例如:

1
"问题:量子纠缠现象违背了哪个物理定律?选项:A.能量守恒 B.相对论 C.局域实在性 D.热力学第二定律"

此时模型接收的输入是完整的文本序列,选项字符的预测概率会受到题干复杂度上下文语义关联强度的影响。


二、具体影响机制

1. 注意力稀释效应

  • 长题干导致模型在处理选项时注意力分散,尤其当题干包含复杂术语或长句时,模型可能无法精准捕捉关键信息与选项的关联。
  • 示例
    题干若包含200个token的量子物理描述,模型在预测选项时,可能因前文信息过载而降低对正确选项字符的注意力权重。

2. 概率累积偏差

  • 对数概率计算基于完整输入序列的联合概率如下,长题干会增加模型预测路径的分支数,导致选项字符的边际概率产生累积误差。
$$ > \log P(\text{选项}| \text{题干}) = \sum_{i=1}^N \log P(\text{token}_i | \text{上下文}) > $$

3. 位置编码衰减

  • Transformer模型的位置编码对长序列末端的token(如选项字符)表征能力下降,可能削弱模型对选项的逻辑判断能力。

三、影响表现形式

影响维度 具体表现 示例场景
选项顺序偏差 模型对靠后选项(如D)的预测概率系统性偏低 题干过长时,模型更倾向优先选项A/B
语义干扰 题干中的关键词与错误选项产生意外关联 题干出现"热力学"导致错误选D的倾向
计算稳定性 长输入导致概率值波动增大,评估结果方差升高 同一问题重复评估时准确率差异显著[1]

四、解决方案

  1. 输入标准化

    • 统一题干长度(如截断至固定token数)
    • 将选项提前插入题干中间位置(如"[选项:A/B/C/D] 问题:…")
  2. 概率校准技术

    • 使用温度缩放(Temperature Scaling)调整输出概率分布
    • 对长题干任务单独训练校准层
  3. 评估指标改进

    • 引入长度惩罚因子
    • 采用动态加权注意力(Dynamic Weighted Attention)增强选项区域的关注度
$$ > \text{Score} = \frac{\log P(\text{选项})}{\sqrt{\text{题干token数}}} > $$

五、实验验证案例

在MMLU基准测试中,将题干从50token增至300token后:

  • 模型对正确选项的平均概率下降12.7%
  • 选项D的预测频率比短题干时降低9.3%
    (数据来源:[4])

这表明题干长度选项预测稳定性存在显著负相关。

  • 点间互信息(PMI, Pointwise Mutual Information)

    • 计算方式:PMI = log(P(选项)) - log(P(基线))

      • 基线通常为随机猜测概率(如四选一任务中,基线概率=0.25)
    • 适用场景:多选题(MCQA)中量化选项间的相对置信度差异

    • 示例:

      • 若选项A的预测概率为0.6,PMI = log(0.6) - log(0.25) ≈ 0.47
      • 选项B的预测概率为0.3,PMI = log(0.3) - log(0.25) ≈ 0.04 结果:PMI明确显示A的置信度显著高于B 。
  • 生成式评估
    • 是否要对生成内容做预处理、归一化
      • 若归一化方式设计不当,可能导致不公平评分(详见 Hugging Face 博文
      • 某些任务(如数学题)需要从格式化结果中提取答案
      • 若采用推理链(Chain of Thought)评估,也需移除中间推理部分,仅提取最终答案
    • 与参考答案进行对比
      • 精确匹配、前缀匹配
      • 总结/翻译任务中的 ROUGE、BLEU、字符 N-Gram
      • 参考 Hugging Face 提供的 指标列表

在选择指标时,请牢记你的任务目标。

如果是医疗、客服等高风险场景,你更应该关注模型的最差表现(例如错误回答、产生有害内容等)。

推荐阅读 这个博客,它进一步探讨了这一点。

使用 Hugo 构建
主题 StackJimmy 设计