Private LLM Evals Benchmark - Chengsheng's Blog

#LLM #AI #工作 ## 引言随着大语言模型(LLMs)能力的持续演进，当前广泛使用的评测集面临更新滞后的问题，导致数据污染(contamination)现象日益严重。实际应用中，模型性能往往低于公开评测结果的预期。基于此，我们提出了一个私有评测数据集——Gulugulu benchmark，旨在更准确地界定模型能力边界，为特定应用场景提供更精确的模型选择指导。值得注意的是，在特定任务中，计算资源消耗最大的模型并不总是最优选择。目前主流评测数据集(如MMLU、CMMLU等)存在以下局限性： 1. 更新速度落后于模型能力进化 2. 题目难度普遍偏低 3. 题型多样性不足，如MMLU仅包含四选一题型 4. 数据污染问题；评测数据可能被有意或无意地纳入模型训练集针对上述问题，我们的私有数据集做出了如下改进： 1. 确保题目多样性，包括不同选项数量的选择题，中英文题目兼备；设置8个评测维度：计算能力、指令遵循、语义理解与抽取、逻辑推理、代码能力、角色扮演、业务应用以及高难度模式；各类别题目数量均衡，以客观评估模型的综合能力。 2. 题目来源多元化，包括模型生成、最新benchmark选题以及人工创作；所有题目经过人工审核，确保复杂度、时效性和准确性。 3. 通过多轮验证，证实了模型性能与计算资源消耗并非线性相关，强调了任务特定模型选择的重要性。 ## 方法 ### 数据合成方法我们对当前流行的benchmark进行了系统性调研，发现利用LLMs合成评测数据已成为主流方法。基于此，我们采用了gpt-4o和claude-3-5-Sonnet进行数据合成，并实施了严格的人工验证流程，包括剔除错误题目、调整难度、核验答案以及优化问题表述。同时，我们也参考了部分最新benchmark题目，通过改写处理（如问答转选择、英译中等）增加了题型多样性。我们还纳入了一些具有代表性的原题，以确保benchmark在题型和难度上的全面性。关于业务测试集，则源自日常业务积累。 ### 评分方法经调研主流benchmark评分方法后，我们采用了"LLM-as-a-judge"策略，使用gpt-4o作为评分员。每题评分范围为1-5分，各评测维度计算平均分后归一化至100分制。 ## 结论与局限性通过本私有benchmark，我们得出以下结论： 1. 对计算资源消耗不敏感的场景，推荐使用gpt-4o 2. 数据隐私敏感场景，推荐使用qwen2-72B-Instruct 3. 计算资源受限且可接受较慢响应速度的场景，推荐使用deepseek系列模型 4. 长文本生成任务，推荐使用claude **局限性** 1. 本benchmark使用gpt-4o作为评分模型，可能存在评分偏差（尽管多轮测试表明结论基本稳定） 2. 大部分数据通过合成方式生成，虽然这已成为主流方法，但仍可能存在偏见、安全性等潜在问题影响数据质量 3. 当前数据量有限，需要持续扩展以提高评测的公平性和准确性未来工作将聚焦于扩大数据规模、优化评分机制，并探索更多样化的评测维度，以期为LLMs的应用和发展提供更可靠的参考依据。