VerifyBench

Name: VerifyBench
Creator: 浙江大学
Published: 2025-05-22 01:54:43
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.15801v1

下载链接

链接失效反馈

官方服务：

资源简介：

VerifyBench是一个专门设计用于评估基于参考的奖励系统的基准数据集，旨在填补现有奖励基准在评估推理模型训练中使用的验证系统方面的空白。数据集由来自现有开放数据集的指令和参考答案组成，并由多个开源和专有的大型语言模型生成响应。每个实例都经过至少两名人工标注者的验证，以确保标签的一致性和可靠性。VerifyBench-Hard是VerifyBench的一个更具挑战性的变体，专注于模型之间高度分歧的情况，为奖励系统的准确性提供了更严格的测试。

VerifyBench is a benchmark dataset specifically designed for evaluating reference-based reward systems, aiming to fill the gap in existing reward benchmarks regarding validation systems used during the training of reasoning models. The dataset comprises instructions and reference answers sourced from existing open datasets, with responses generated by multiple open-source and proprietary large language models. Each instance has been validated by at least two human annotators to ensure the consistency and reliability of the labels. VerifyBench-Hard is a more challenging variant of VerifyBench, focusing on scenarios with high levels of disagreement between models, which provides a stricter test for the accuracy of reward systems.

提供机构：

浙江大学

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

VerifyBench数据集的构建过程经过精心设计，以确保其高质量和多样性。首先，研究人员从41个不同的开源数据源中筛选出涵盖一般推理、逻辑推理和数学推理三个主要类别的问题。这些问题随后被分类为四种标准答案类型：数值、代数表达式、多项选择和自由形式字符串。接着，利用22种开源和专有的大语言模型生成问题的单次完成，产生总计176,000个完成样本。为确保数据质量，每个问题至少由两名人类标注者进行独立标注，标注内容包括答案类型的确定和完成样本的正确性评估。最终，通过控制下采样确保数据在类别和正确性标签上的平衡，形成包含2,000个平衡的问题-答案-完成-正确性元组的VerifyBench数据集。

特点

VerifyBench数据集具有几个显著特点。首先，它专注于基于参考的奖励系统评估，与传统的偏好比较基准不同，强调对单个完成样本与参考答案之间一致性的绝对正确性判断。其次，数据集在答案类型和领域上具有多样性，涵盖数值、代数表达式、多项选择和自由形式字符串四种答案类型，以及一般推理、逻辑推理和数学推理三个领域。此外，VerifyBench还包含一个更具挑战性的变体VerifyBench-Hard，该变体专注于模型判断存在高度分歧的案例，为评估奖励系统在复杂场景下的准确性提供了更严格的测试。

使用方法

VerifyBench数据集的使用方法主要围绕评估基于参考的奖励系统的准确性展开。研究人员可以将待评估的奖励系统应用于数据集中的问题-答案-完成三元组，通过比较系统输出与人工标注的正确性标签来评估其性能。数据集支持多种评估方式，包括传统的二元分类准确率评估，以及针对不同答案类型和领域的细粒度分析。此外，VerifyBench还可用于研究参考答案在奖励系统中的作用，通过对比包含和不包含参考答案的评估结果，深入理解参考信息对系统性能的影响。对于希望推动奖励系统边界的研究，VerifyBench-Hard提供了更具挑战性的测试平台，帮助识别现有系统的局限性并指导未来改进方向。

背景与挑战

背景概述

VerifyBench是由浙江大学、美团集团等机构的研究团队于2025年提出的一个专门用于评估基于参考的奖励系统的基准数据集。该数据集旨在解决大型推理模型（如OpenAI o1和DeepSeek-R1）在复杂推理任务中，现有奖励基准主要关注响应之间的偏好比较，而缺乏对基于参考的真实性验证评估的问题。VerifyBench通过精心收集和整理数据，并经过严格的人工标注，确保了数据的高质量。该数据集的推出为改进验证准确性提供了标准化框架，从而提升了通过强化学习训练的模型的推理能力。

当前挑战

VerifyBench面临的挑战主要包括两个方面：1) 领域问题的挑战：现有奖励基准主要关注响应之间的偏好比较，而VerifyBench需要评估模型输出与真实参考之间的一致性，这在复杂推理任务中尤为困难；2) 构建过程中的挑战：数据集的构建需要精心收集和整理大量数据，并经过严格的人工标注，以确保数据的高质量和一致性。此外，VerifyBench-Hard子集的构建还需要识别模型之间存在高度分歧的案例，这进一步增加了数据集的复杂性和挑战性。

常用场景

经典使用场景

VerifyBench作为专门评估基于参考的奖励系统的基准，在大型语言模型（LLM）的训练过程中发挥着关键作用。其经典使用场景包括在强化学习（RL）框架中，通过对比模型生成的响应与标准参考答案，验证奖励系统的准确性和可靠性。这一过程不仅优化了模型在复杂推理任务中的表现，还为研究人员提供了一个标准化的评估工具，用于比较不同奖励系统的性能。

实际应用

在实际应用中，VerifyBench被广泛用于优化大型推理模型的训练过程。例如，在DeepSeek-R1和OpenAI的o1等模型中，VerifyBench帮助开发者验证奖励系统的准确性，从而提升模型在数学推理、逻辑推理等任务中的表现。此外，VerifyBench还用于评估小型模型的验证能力，为高效推理模型的开发提供了重要参考。

衍生相关工作

VerifyBench的推出催生了一系列相关研究，包括改进奖励系统的设计、开发更高效的验证方法以及探索多模态推理模型的评估框架。例如，DeepSeek-GRM和ThinkPRM等研究通过结合VerifyBench的评估结果，进一步优化了生成式奖励模型的性能。这些工作不仅扩展了VerifyBench的应用范围，还推动了推理模型领域的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集