[TOC]
什么是自动化基准测试
Automated Benchmarks是一种通过标准化数据集和指标来量化评估模型性能的方法
核心组成
- 数据集(a dataset, made of samples.)
- 包含输入样本(如问题、文本),部分附带参考答案(“黄金标准”)。
- 需覆盖多样场景,例如测试分类任务时需包含边缘案例
hard edge cases
。
- 评估指标(a metric)
- 根据模型输出打分,常见方式:
- 生成式评估:直接比对模型生成的文本(如翻译、问答)。
- 概率式评估:通过模型对选项的log概率(如MCQA、困惑度)评分。
- 根据模型输出打分,常见方式:
关键特点
- 优点:
- 一致性和可复现性Consistency、reproducibility:相同测试多次运行结果稳定。
- 低成本可扩展:适合大规模模型评估。
- 易解释:如准确率、完全匹配等指标直观。
- 局限性:
- 复杂任务难量化:例如“数学能力”需拆解为子任务(算术/逻辑等)。
- 数据污染风险:公开数据集可能被模型训练时“见过”,导致分数虚高(过拟合)。
典型场景
- 测试模型在新数据上的泛化能力(如训练时未接触的医疗垃圾邮件分类)。
- 避免过拟合:若模型仅死记训练数据(如学生背题),则测试失效。
设计自动化评估方案
数据集
it’s very important to keep in mind that your evaluation result will only be as good as your evaluation dataset.
评估结果的质量完全取决于评估数据集的质量。
已有的数据集
检查创建过程
- 创建者:专家创建 > 有偿标注者创建 ~ 众包数据 > 公开平台野生数据集
- 注重
data card
,标注者的人口统计信息可以帮助了解数据集的语言多样性
- 注重
- 是否经过审查(否则容易出现拼写错误、语法错误、荒谬答案)
- 标注意见一致
- 作者是否检查过
- 是否有明确的数据创建指南
- 确保数据具有一致性
样本抽查:随机取50样本进行人工检查
- 质量
- prompts清晰、无歧义
- 答案正确
- 是否缺失信息
- 任务相关
- 与希望评估的任务类型一致
- 场景相关
确保总数据的数量符合要求
自行创建数据集
- 聚合:聚合不同来源的现有数据来评估任务相关能力。许多评估数据集(如MATH、LSAT等)就是通过聚合人类评估数据集构建的。
- 人工标注:见
human-evaluation/using-human-annotators
- 合成数据
- LLM:可参考Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models,务必随后人工检查/过滤/验证数据集(遵循上述步骤)
- 基于规则的技术:如任务允许,这是获得近乎无限样本且避免污染的绝佳方式
推理方法
- 生成模型:侧重生成连贯文本,其核心是预测下一个 token 的概率分布。
- 推理模型:通过引导模型输出中间思考步骤,再得出最终答案 。
对数概率推理log-probabilities
适用于:
- 封闭式任务:多项选择题(MCQA, multi-choice question answer)、判断题
- 典型用例:知识问答测试、校准能力评估
原理:
- 将问题与选项拼接为固定模板(如"问题:… 选项:A.xx B.xx…")
- 计算模型对每个选项首字母(如A/B/C)的预测概率
- 选择概率最高的选项作为答案
优势:
- 快速计算(只需要1个token的输出)
- 避免生成无关内容
劣势:
- 选项顺序有一定影响
- 高估小模型的能力、没有推理过程
生成式推理generative
- 开放式任务:问答、文本创作、复杂推理
- 典型用例:聊天机器人、编程助手、论文润色
原理:
- 输入问题或指令(如"解释相对论")
- 模型自由生成完整文本回答
- 通过人工或自动指标(如ROUGE)评估质量
优势:
- 反映真实应用水平
- 支持多轮交互
- 展现逻辑链能力
劣势:
- 评估指标设计复杂
- 计算成本高(尤其长文本)
- 可能生成冗余/错误内容
综上:
维度 | 对数概率推理优先 | 生成式推理优先 |
---|---|---|
任务类型 | 封闭式选择题 | 开放式创作/推理 |
评估速度 | 需快速批量测试时 | 可接受延迟的精细评估 |
模型规模 | 小模型(<10B参数) | 大模型(>50B参数) |
资源限制 | 计算资源有限 | 具备充足GPU显存 |
核心目标 | 测试知识准确性 | 测试综合生成能力 |
提示词
- 给模型传达了多少任务信息
- 信息的表达方式如何
MCQA 或 QA 的提示词通常包括以下部分:
- 任务说明(可选):介绍任务
- 上下文(context):提供题目的背景信息
- 例:摘要任务中提供原始文本,信息抽取任务中提供源内容
- 问题本身
- 如果是多项选择题,附带选项
- 一些连接词,如
Question
、Context
、Choice
等
注意事项:
- 即使语义相同的小改动,也可能导致模型结果波动较大(
troubleshooting/troubleshooting-reproducibility
)- 缓解方式:
- 更高成本:用不同提示格式重复评估
- 更低成本:对等难度样本使用不同提示模板
- 缓解方式:
- 你可以为模型**提供示例(few-shot)**来帮助它理解格式,连接词也很有帮助
Training on the Test Task Confounds Evaluation and Emergence
现在模型往往过拟合某些提示格式
在 Open LLM Leaderboard 2 中,发现 Llama 3.2 和 Qwen 2.5 在 few-shot 情境下甚至不再遵循提示格式
- 某些评估指标需要非常受限的输出格式(
general-knowledge/model-inference-and-evaluation
)
评估指标
- 对数概率评估:准确率
- 需要对长度做归一化(字符、token、PMI)
- 也可以用 perplexity(困惑度)、召回率、F1 等补充分析
在计算对数概率时,长文本的累积概率值天然更大
若不归一化,模型可能因生成更长(或更短)的选项而获得不公平的优势。
参考信息:
对于多选题中选项仅为单个字符(A/B/C/D)时仍存在长文本影响的原因及机制解析如下:
一、影响来源
即使选项本身是单个字符,实际输入模型的完整文本包含题干+选项的组合。例如:
1
"问题:量子纠缠现象违背了哪个物理定律?选项:A.能量守恒 B.相对论 C.局域实在性 D.热力学第二定律"
此时模型接收的输入是完整的文本序列,选项字符的预测概率会受到题干复杂度和上下文语义关联强度的影响。
二、具体影响机制
1. 注意力稀释效应
- 长题干导致模型在处理选项时注意力分散,尤其当题干包含复杂术语或长句时,模型可能无法精准捕捉关键信息与选项的关联。
- 示例:
题干若包含200个token的量子物理描述,模型在预测选项时,可能因前文信息过载而降低对正确选项字符的注意力权重。2. 概率累积偏差
$$ > \log P(\text{选项}| \text{题干}) = \sum_{i=1}^N \log P(\text{token}_i | \text{上下文}) > $$
- 对数概率计算基于完整输入序列的联合概率如下,长题干会增加模型预测路径的分支数,导致选项字符的边际概率产生累积误差。
3. 位置编码衰减
- Transformer模型的位置编码对长序列末端的token(如选项字符)表征能力下降,可能削弱模型对选项的逻辑判断能力。
三、影响表现形式
影响维度 具体表现 示例场景 选项顺序偏差 模型对靠后选项(如D)的预测概率系统性偏低 题干过长时,模型更倾向优先选项A/B 语义干扰 题干中的关键词与错误选项产生意外关联 题干出现"热力学"导致错误选D的倾向 计算稳定性 长输入导致概率值波动增大,评估结果方差升高 同一问题重复评估时准确率差异显著[1]
四、解决方案
$$ > \text{Score} = \frac{\log P(\text{选项})}{\sqrt{\text{题干token数}}} > $$
输入标准化
- 统一题干长度(如截断至固定token数)
- 将选项提前插入题干中间位置(如"[选项:A/B/C/D] 问题:…")
概率校准技术
- 使用温度缩放(Temperature Scaling)调整输出概率分布
- 对长题干任务单独训练校准层
评估指标改进
- 引入长度惩罚因子
- 采用动态加权注意力(Dynamic Weighted Attention)增强选项区域的关注度
五、实验验证案例
在MMLU基准测试中,将题干从50token增至300token后:
- 模型对正确选项的平均概率下降12.7%
- 选项D的预测频率比短题干时降低9.3%
(数据来源:[4])这表明题干长度与选项预测稳定性存在显著负相关。
点间互信息(PMI, Pointwise Mutual Information)
计算方式:PMI = log(P(选项)) - log(P(基线))
- 基线通常为随机猜测概率(如四选一任务中,基线概率=0.25)
适用场景:多选题(MCQA)中量化选项间的相对置信度差异
示例:
- 若选项A的预测概率为0.6,PMI = log(0.6) - log(0.25) ≈ 0.47
- 选项B的预测概率为0.3,PMI = log(0.3) - log(0.25) ≈ 0.04 结果:PMI明确显示A的置信度显著高于B 。
- 生成式评估
- 是否要对生成内容做预处理、归一化
- 若归一化方式设计不当,可能导致不公平评分(详见 Hugging Face 博文)
- 某些任务(如数学题)需要从格式化结果中提取答案
- 若采用推理链(Chain of Thought)评估,也需移除中间推理部分,仅提取最终答案
- 与参考答案进行对比
- 精确匹配、前缀匹配
- 总结/翻译任务中的 ROUGE、BLEU、字符 N-Gram
- 参考 Hugging Face 提供的 指标列表
- 是否要对生成内容做预处理、归一化
在选择指标时,请牢记你的任务目标。
如果是医疗、客服等高风险场景,你更应该关注模型的最差表现(例如错误回答、产生有害内容等)。
推荐阅读 这个博客,它进一步探讨了这一点。