VerifierBench
收藏arXiv2025-08-06 更新2025-08-07 收录
下载链接:
https://github.com/open-compass/CompassVerifier
下载链接
链接失效反馈官方服务:
资源简介:
VerifierBench是一个用于评估不同模型验证能力的基准数据集,它收集了超过130万个数据样本,涵盖了知识、数学、科学和推理等领域的回答。该数据集通过OpenCompass框架进行大规模评估,并经过多阶段过滤流程,包括多专家投票、多提示投票和人工标注分析。此外,VerifierBench还包含了人类分析的错误模式,为模型性能评估提供了更细致、多维和现实的角度。
VerifierBench is a benchmark dataset dedicated to evaluating the verification capabilities of diverse models. It collects over 1.3 million data samples covering responses from domains including knowledge, mathematics, science, and reasoning. This dataset undergoes large-scale evaluation via the OpenCompass framework, and has passed a multi-stage filtering pipeline comprising multi-expert voting, multi-prompt voting, and manual annotation analysis. Additionally, VerifierBench includes error patterns analyzed by humans, providing a more detailed, multi-dimensional and practical perspective for model performance assessment.
提供机构:
上海人工智能实验室, 澳门大学NLP2CT实验室
创建时间:
2025-08-06
原始信息汇总
CompassVerifier 数据集概述
1. 数据集简介
- 名称: CompassVerifier
- 类型: 验证器模型评估数据集
- 用途: 用于评估大语言模型(LLMs)的输出正确性和质量
- 特点:
- 支持多领域能力评估(数学、知识、推理等)
- 能处理多种答案类型(多子问题、公式、序列答案等)
- 可识别异常/无效/长推理响应
- 对不同的提示风格具有鲁棒性
2. 数据集内容
- VerifierBench基准:
- 包含从多个数据源收集的问题和模型输出
- 约100万条来自不同常用模型和数据集的预测
- 由人类专家标注
3. 数据获取
- Hugging Face地址:
- 数据集: https://huggingface.co/datasets/opencompass/VerifierBench
- 模型:
- CompassVerifier-3B: https://huggingface.co/opencompass/CompassVerifier-3B
- CompassVerifier-7B: https://huggingface.co/opencompass/CompassVerifier-7B
- CompassVerifier-32B: https://huggingface.co/openCompass/compassVerifier-32B
4. 评估方法
- 评估标签:
- A: 正确
- B: 不正确
- C: 问题/响应/答案存在严重质量问题
- 评估模式:
- 直接评估模式(CV_PROMPT)
- 思维链评估模式(CV_COT_PROMPT, 提高复杂问题的判断准确率)
5. 性能表现
- 在VerifierBench基准上的F1分数表现(非COT模式)
- 覆盖领域:
- 通用推理
- 知识
- 数学
- 科学
6. 使用方式
- 支持多种推理框架:
- 原生Transformers
- vLLM
- lmdeploy
- sglang
搜集汇总
数据集介绍

构建方式
VerifierBench数据集的构建采用了多阶段、多模型的验证流程。首先通过OpenCompass框架收集了超过100万条来自50多个模型在15个精选数据集上的响应。随后,这些样本经过多专家投票、多提示投票和人工标注的三重过滤机制,确保数据的高质量和多样性。特别针对数学领域,还引入了MathVerify工具进行公式等价性验证。最终构建的数据集包含2,817个高质量样本,涵盖了知识、数学、科学和一般推理四大领域,并标注了正确、错误和无效三种验证标签。
特点
VerifierBench数据集具有三大核心特点:首先,它覆盖了多种答案类型,包括多选题选项、数学公式、短文本、多子问题项和长序列响应等,全面反映了LLM输出的多样性。其次,数据集特别关注验证过程中的边缘案例和复杂场景,通过人工分析总结了30多种元错误模式,为模型验证能力的提升提供了宝贵洞见。最后,数据集严格区分了无效响应(如截断输出、重复内容等),实现了更细粒度的评估维度。这些特点使其成为当前最全面、最具挑战性的验证基准之一。
使用方法
使用VerifierBench时,研究者可通过标准化的评估协议对模型的验证能力进行系统测试。数据集支持三种验证标签(正确/错误/无效)的判断,特别适用于开发像CompassVerifier这样的专用验证模型。对于数学公式验证,建议结合符号代数引擎进行等价性检查;对于序列答案,需实施逐元素匹配策略。此外,数据集提供的元错误模式可作为诊断工具,帮助识别模型在特定领域的验证弱点。作为奖励模型使用时,其精细的标签体系能为强化学习训练提供更精准的反馈信号。
背景与挑战
背景概述
VerifierBench是由上海人工智能实验室和澳门大学NLP2CT实验室的研究团队于2025年8月提出的专业评测基准,旨在系统评估大语言模型(LLMs)的答案验证能力。该数据集通过OpenCompass框架整合了来自53个模型在16个基准测试中的132万条响应,覆盖数学、常识、科学和通用推理四大领域,包含多选题、公式、序列答案等七种应答类型。作为首个专注于验证器鲁棒性和跨领域泛化能力的基准,其创新性的三级标注体系(正确/错误/无效)为强化学习奖励模型提供了细粒度评估标准,推动了LLM评估方法论的发展。
当前挑战
VerifierBench面临的核心挑战体现在两个维度:领域问题上,现有验证方法难以处理数学等价公式判定(如未简化表达式误判)、多子问题答案完整性校验等复杂场景,序列答案验证的F1分数普遍低于40%;构建过程中,需解决百万级数据的三重过滤难题——基于Qwen2.5-Instruct的多专家投票剔除简单样本,DeepSeek-V3多提示投票筛选中等难度案例,以及人工标注中发现的17.3%无效响应(如截断输出、伦理拒答)的标准化处理。此外,20%的数学类样本存在符号重组等效性验证的标注争议,需依赖MathVerify工具和领域专家双重校验。
常用场景
经典使用场景
VerifierBench数据集在大型语言模型(LLM)评估和优化中扮演着关键角色,特别是在答案验证任务中。该数据集通过整合来自多个数据源的模型输出,并经过多阶段验证和人工标注,为研究者提供了一个系统评估不同模型验证能力的基准。其经典使用场景包括对数学、知识、科学和一般推理任务的答案进行验证,涵盖了多种答案类型,如多项选择、数值、短文本、公式和多子问题等。
解决学术问题
VerifierBench解决了当前答案验证方法中的两个核心问题:缺乏全面评估不同LLM验证能力的基准,以及现有验证方法在处理复杂边缘案例和跨领域泛化能力上的不足。通过提供大规模、多样化的验证样本和详细的错误模式分析,该数据集为开发更鲁棒、高效的验证模型奠定了基础,显著推动了LLM评估和强化学习研究的发展。
衍生相关工作
围绕VerifierBench衍生的经典工作包括CompassVerifier系列轻量级验证模型,其通过复杂公式增强、错误驱动对抗增强和泛化增强三大技术显著提升了验证性能。相关研究还探索了基于该数据集的RL训练框架(如GRPO),验证了验证模型作为奖励信号的有效性。此外,对30余种元错误模式的系统性分析为后续验证模型的鲁棒性优化提供了理论指导。
以上内容由遇见数据集搜集并总结生成



