VerifyBench

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/yanyc/VerifyBench

下载链接

链接失效反馈

官方服务：

资源简介：

VerifyBench数据集：用于大型语言模型参考基础奖励系统的基准测试，包含VerifyBench和VerifyBenchHard两部分数据，支持英语，数据规模在1K到10K之间。

VerifyBench Dataset: A benchmark for reference-based reward systems in large language models (LLMs). It consists of two subsets, VerifyBench and VerifyBenchHard, supports English, and has a data scale ranging from 1K to 10K.

创建时间：

2025-05-14

原始信息汇总

数据集概述

基本信息

名称: VerifyBench
许可证: MIT
语言: 英语 (en)
规模: 1K<n<10K

数据集配置

默认配置:
- VerifyBench: verify_bench.jsonl
- VerifyBenchHard: verify_bench_hard.jsonl

描述

该数据集用于基准测试基于参考的奖励系统在大型语言模型中的应用，详细说明即将发布。

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，VerifyBench通过整合现有开放数据集中的指令与参考答案构建基础框架，采用多源模型生成响应样本，并融合自动化模型评估与人工标注的双重验证机制。为确保标签可靠性，每个数据实例均经过至少两名标注者独立审核，最终形成包含标准版与困难版的双层次评估体系。困难版本专门筛选各领先模型判断存在显著分歧的争议案例，通过人工精标注进一步提升数据集的挑战性与代表性。

特点

该数据集的核心特征体现在其层次化设计架构：标准版本覆盖常规评估场景，困难版本则聚焦模型间高冲突样本，形成渐进式难度梯度。数据样本涵盖多领域指令与响应，标注结果融合机器与人工双重验证，具备高置信度的标签质量。其样本规模介于千至万级，支持对参考奖励系统的细粒度准确性评估，并为强化学习训练提供具有区分度的性能测试基准。

使用方法

研究人员可通过官方提供的评估脚本快速部署验证流程，使用`evaluate.py`脚本并指定模型路径即可在标准版本或困难版本上进行测试。通过添加`--hard`参数可切换至困难版本评估，而`--wo-ref`参数则支持无参考场景的对照实验。该设计允许用户灵活考察模型在不同复杂度场景下的性能表现，为优化参考奖励机制提供实证依据。

背景与挑战

背景概述

随着大型语言模型在推理任务中的广泛应用，基于参考的奖励系统成为强化学习训练的关键组件。VerifyBench由浙江大学与美团集团等机构的研究团队于2025年联合创建，旨在构建专门评估参考奖励系统准确性的基准数据集。该数据集通过整合现有开放数据集中的指令与参考答案，结合多源大语言模型生成响应，并采用自动化评估与双重人工标注机制确保数据质量，为推理任务的强化学习训练提供了标准化评估框架。

当前挑战

在构建过程中，研究团队面临样本标注一致性的挑战，需要通过至少两名人工标注者交叉验证来保证标签可靠性。针对领域问题，该数据集需解决模型判断冲突的难题——VerifyBench-Hard子集专门选取高性能模型产生严重分歧的争议案例，揭示了当前奖励系统在复杂推理场景中的判断局限性。数据集的构建还涉及多源模型响应质量参差与自动化评估指标信度验证等核心挑战。

常用场景

经典使用场景

在大型语言模型强化学习训练范式中，VerifyBench作为基准测试工具，主要用于评估基于参考的奖励系统的判别精度。该数据集通过整合多样化指令与参考回答，并融合多源模型生成响应，为研究者提供了标准化评估框架。其核心应用场景涵盖奖励模型在文本排序任务中的性能验证，特别是在复杂推理任务中判断模型输出与参考答案的语义对齐程度，从而推动奖励机制在语言模型优化中的科学应用。

衍生相关工作

基于VerifyBench的基准特性，已衍生出多项重要研究工作。在奖励模型架构优化领域，研究者利用该数据集开发了新型对比学习框架；在评估方法论层面，催生了基于多模型共识的验证技术。这些衍生工作不仅深化了对奖励系统判别机制的理论认知，更推动了如安全对齐、多模态奖励建模等交叉方向的发展，形成了以可验证性为核心的技术演进脉络。

数据集最近研究