大模型评估指南 · 1 前言

大模型评估

大模型评估指南 · 1 前言

个人笔记 · 一个关于大语言模型（LLM）评估的指南手册

evaluation-guidebook是一个关于大语言模型（LLM）评估的指南手册，为不同水平的用户提供了全面的评估知识和实用技巧，帮助用户确保 LLM 在特定任务上表现良好。

仓库地址：huggingface/evaluation-guidebook: Sharing both practical insights and theoretical knowledge about LLM evaluation that we gathered while managing the Open LLM Leaderboard and designing lighteval!

概述

该指南手册涵盖了多种评估模型的方法，提供了设计自定义评估的指导，以及来自实践经验的技巧和窍门。无论是生产模型的使用者、研究人员还是爱好者，都能从中找到所需的信息。

初学者：建议从各章节的 Basics 部分开始，同时可以在 General knowledge 中找到关于重要 LLM 主题的解释，如模型推理和分词。
高级用户：可以重点关注 Tips and Tricks 和 Troubleshooting 章节，以及 Designing 部分。

目录结构

自动基准测试（Automatic benchmarks）
人工评估（Human evaluation）
使用大语言模型作为评判者（LLM-as-a-judge）
故障排除（Troubleshooting）
- 推理故障排除（Troubleshooting inference）
- 可重复性故障排除（Troubleshooting reproducibility）
通用知识（General knowledge）
- 模型推理和评估（Model inference and evaluation）
- 分词（Tokenization）
示例（Examples）
- 评估期间比较任务表述（Comparing task formulations during evaluation）