#LLM #AI #工作
## 引言
随着大语言模型(LLMs)能力的持续演进,当前广泛使用的评测集面临更新滞后的问题,导致数据污染(contamination)现象日益严重。实际应用中,模型性能往往低于公开评测结果的预期。基于此,我们提出了一个私有评测数据集——Gulugulu benchmark,旨在更准确地界定模型能力边界,为特定应用场景提供更精确的模型选择指导。值得注意的是,在特定任务中,计算资源消耗最大的模型并不总是最优选择。
目前主流评测数据集(如MMLU、CMMLU等)存在以下局限性:
1. 更新速度落后于模型能力进化
2. 题目难度普遍偏低
3. 题型多样性不足,如MMLU仅包含四选一题型
4. 数据污染问题;评测数据可能被有意或无意地纳入模型训练集
针对上述问题,我们的私有数据集做出了如下改进:
1. 确保题目多样性,包括不同选项数量的选择题,中英文题目兼备;设置8个评测维度:计算能力、指令遵循、语义理解与抽取、逻辑推理、代码能力、角色扮演、业务应用以及高难度模式;各类别题目数量均衡,以客观评估模型的综合能力。
2. 题目来源多元化,包括模型生成、最新benchmark选题以及人工创作;所有题目经过人工审核,确保复杂度、时效性和准确性。
3. 通过多轮验证,证实了模型性能与计算资源消耗并非线性相关,强调了任务特定模型选择的重要性。
## 方法
### 数据合成方法
我们对当前流行的benchmark进行了系统性调研,发现利用LLMs合成评测数据已成为主流方法。基于此,我们采用了gpt-4o和claude-3-5-Sonnet进行数据合成,并实施了严格的人工验证流程,包括剔除错误题目、调整难度、核验答案以及优化问题表述。
同时,我们也参考了部分最新benchmark题目,通过改写处理(如问答转选择、英译中等)增加了题型多样性。我们还纳入了一些具有代表性的原题,以确保benchmark在题型和难度上的全面性。
关于业务测试集,则源自日常业务积累。
### 评分方法
经调研主流benchmark评分方法后,我们采用了"LLM-as-a-judge"策略,使用gpt-4o作为评分员。每题评分范围为1-5分,各评测维度计算平均分后归一化至100分制。
## 结论与局限性
通过本私有benchmark,我们得出以下结论:
1. 对计算资源消耗不敏感的场景,推荐使用gpt-4o
2. 数据隐私敏感场景,推荐使用qwen2-72B-Instruct
3. 计算资源受限且可接受较慢响应速度的场景,推荐使用deepseek系列模型
4. 长文本生成任务,推荐使用claude
**局限性**
1. 本benchmark使用gpt-4o作为评分模型,可能存在评分偏差(尽管多轮测试表明结论基本稳定)
2. 大部分数据通过合成方式生成,虽然这已成为主流方法,但仍可能存在偏见、安全性等潜在问题影响数据质量
3. 当前数据量有限,需要持续扩展以提高评测的公平性和准确性
未来工作将聚焦于扩大数据规模、优化评分机制,并探索更多样化的评测维度,以期为LLMs的应用和发展提供更可靠的参考依据。