VerifyBench

github2025-05-26 更新2025-05-27 收录

下载链接：

https://github.com/ZJU-REAL/VerifyBench

下载链接

链接失效反馈

官方服务：

资源简介：

在本文中，我们提出了VerifyBench，这是一个专门设计用于评估基于参考的奖励系统准确性的基准。为了创建VerifyBench，我们从现有的开放数据集中筛选了多样化的指令和参考答案配对。这些指令的响应由多个开源和专有的大型语言模型生成。每个响应的正确性通过自动模型判断和人工评估进行评估。VerifyBench中的每个实例都经过至少两名人类注释者的验证，以确保标签的一致性和可靠性，从而为奖励系统的评估提供了一个高质量的基准。

In this paper, we propose VerifyBench, a benchmark specifically designed to evaluate the accuracy of reference-based reward systems. To construct VerifyBench, we curated diverse instruction and reference answer pairs from existing open datasets. The responses to these instructions were generated by multiple open-source and proprietary large language models (LLMs). The correctness of each response was evaluated via both automated model judgments and human evaluation. Every instance in VerifyBench has been validated by at least two human annotators to ensure label consistency and reliability, thereby providing a high-quality benchmark for reward system evaluation.

创建时间：

2025-05-24

原始信息汇总

VerifyBench 数据集概述

基本信息

数据集名称: VerifyBench
开发团队: 浙江大学、美团集团等机构联合开发
状态: 预印本，正在评审中
发布日期: 2025年5月
相关链接:

数据集描述

核心目标: 评估基于参考的奖励系统在大语言模型中的准确性
数据构成:
- 收集多样化指令与参考回答（源自现有开放数据集）
- 包含多个开源和专有LLM生成的响应
- 每个响应的正确性通过自动模型判断和人工评估双重验证
质量保证: 每个实例至少经过两名人类标注者验证

衍生数据集

VerifyBench-Hard:
- 挑战性更强的变体
- 聚焦于领先模型产生高度冲突判断的争议性案例
- 样本基于高性能模型间的分歧模式精选
- 经过严格人工标注确保标签质量

主要贡献

构建VerifyBench基准测试，客观评估基于参考的奖励系统准确性
开发VerifyBench-Hard基准测试，突出当前模型的改进潜力
提供全面的实证分析，推动奖励系统准确性和RL训练的进步

引用格式

bibtex @misc{yan2025verifybench, title={VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models}, author={Yuchen Yan et al.}, year={2025}, eprint={2505.15801}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.15801}, }

联系方式

联系邮箱: yanyuchen@zju.edu.cn

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，VerifyBench通过系统化的数据构建流程确立了新的基准。研究团队从现有开放数据集中精选了多样化的指令与参考答案对，并汇集了开源与商业语言模型生成的响应。为确保评估质量，每个样本均经过自动化模型判断和至少两名人类标注者的双重验证，有效保障了标签的一致性与可靠性。针对更具挑战性的评估需求，团队进一步构建了VerifyBench-Hard子集，该子集聚焦于高性能模型产生显著分歧的争议案例，通过严格的人类标注流程筛选出难以判定的样本。

使用方法

该数据集适用于语言模型奖励系统的精度评估与比较研究。使用者可通过加载标准版基准开展常规性能测试，而困难版则适用于压力测试与边界案例研究。建议研究流程包含三个环节：首先加载预划分的训练测试集，随后调用内置评估指标量化奖励系统输出与人工标注的一致性，最终可通过分析困难案例中的系统失误模式指导算法改进。数据集提供的元数据包含生成模型来源、标注者置信度等信息，支持多维度的细粒度分析。

背景与挑战

背景概述

VerifyBench是由浙江大学、美团集团等机构的研究团队于2025年推出的基准测试数据集，旨在评估基于参考的奖励系统在大型语言模型中的准确性。该数据集通过整合现有开放数据集中的多样化指令与参考答案，结合开源及专有大型语言模型生成的响应，构建了一个高质量的评估基准。研究团队进一步开发了更具挑战性的VerifyBench-Hard子集，聚焦于模型判断存在显著分歧的争议性案例。该数据集的创建为强化学习在推理任务中的训练提供了客观评估工具，推动了参考奖励系统在复杂场景下的性能优化。

当前挑战

VerifyBench致力于解决参考奖励系统在评估大型语言模型输出准确性时面临的挑战。核心问题在于现有奖励系统难以对复杂推理任务中的模型响应进行可靠验证。数据集构建过程中，研究团队需克服多模型判断不一致性难题，通过双重人工标注确保标签可靠性。VerifyBench-Hard子集进一步凸显了模型在边界案例上的性能缺陷，其样本筛选依赖于高性能模型间的分歧模式识别，这对标注一致性和数据质量提出了更高要求。

常用场景

经典使用场景

在大型语言模型（LLM）的研究领域，VerifyBench作为一个专门设计的基准测试数据集，主要用于评估基于参考的奖励系统的准确性。该数据集通过整合多样化的指令集和参考回答，结合开源和专有LLM生成的响应，为研究者提供了一个标准化的评估平台。特别是在模型验证和奖励机制优化方面，VerifyBench通过自动化模型判断和人工评估的双重验证，确保了数据的高质量和可靠性，成为该领域研究的重要工具。

解决学术问题

VerifyBench解决了大型语言模型在强化学习（RL）场景中奖励系统准确性的评估难题。通过提供多样化的指令和参考回答，该数据集帮助研究者客观评估模型在复杂任务中的表现。此外，VerifyBench-Hard进一步挑战了模型在争议性案例中的判断能力，揭示了当前模型的局限性，并为改进奖励系统的设计提供了科学依据。这一数据集填补了LLM在推理任务中奖励机制评估的空白，推动了相关研究的深入发展。

实际应用

VerifyBench的实际应用场景广泛，尤其在自然语言处理（NLP）和人工智能领域。该数据集可用于优化大型语言模型的奖励机制，提升模型在问答、文本生成等任务中的表现。企业和研究机构可以利用VerifyBench评估和比较不同模型的性能，从而选择最优解决方案。此外，VerifyBench-Hard的高难度样本为模型在边缘案例中的鲁棒性测试提供了宝贵资源，助力实际应用中的性能提升。

数据集最近研究