evaluation-guidebook
是一个关于大语言模型(LLM)评估的指南手册,为不同水平的用户提供了全面的评估知识和实用技巧,帮助用户确保 LLM 在特定任务上表现良好。
概述
该指南手册涵盖了多种评估模型的方法,提供了设计自定义评估的指导,以及来自实践经验的技巧和窍门。无论是生产模型的使用者、研究人员还是爱好者,都能从中找到所需的信息。
- 初学者:建议从各章节的
Basics
部分开始,同时可以在General knowledge
中找到关于重要 LLM 主题的解释,如模型推理和分词。 - 高级用户:可以重点关注
Tips and Tricks
和Troubleshooting
章节,以及Designing
部分。
目录结构
- 自动基准测试(Automatic benchmarks)
- 人工评估(Human evaluation)
- 使用大语言模型作为评判者(LLM-as-a-judge)
- 故障排除(Troubleshooting)
- 通用知识(General knowledge)
- 示例(Examples)