Scoring-Verifiers
收藏Hugging Face2025-04-02 更新2025-04-02 收录
下载链接:
https://huggingface.co/datasets/nvidia/Scoring-Verifiers
下载链接
链接失效反馈官方服务:
资源简介:
Scoring Verifiers是一个评估合成验证器代码评分和排名能力的基准数据集,包含基于HumanEval和MBPP的四个数据集版本,每个数据集包含问题和多个解决方案及其排名,以及任务ID、提示、标准解决方案和解决方案的详细信息。
提供机构:
NVIDIA
创建时间:
2025-04-01
搜集汇总
数据集介绍

构建方式
Scoring-Verifiers数据集基于HumanEval和MBPP两大经典编程基准测试构建,通过系统化方法将其转化为代码评分与排序版本。研究团队采用GPT-4生成多组解决方案,并依据预定义测试用例执行结果进行排名,每个样本包含任务ID、提示文本、标准解及带有排名、平均测试分数、执行时间的候选方案集合。该构建方法通过开源代码实现标准化转换流程,确保数据集的可复现性和扩展性。
特点
该数据集包含HE-R、HE-R+、MBPP-R、MBPP-R+四个子集,其核心价值在于将传统编程评估扩展为多维度的解决方案质量量化体系。每个样本不仅保留原始基准的代码生成特性,更通过测试分数分布、执行效率等指标建立细粒度评估维度。独特的排序结构为研究大语言模型在代码验证、奖励建模等合成验证能力提供了标准化测试框架,数据可视化呈现的分数分布规律进一步增强了分析深度。
使用方法
研究者可通过调用任务ID获取完整解决方案序列,利用平均测试分数和执行时间指标进行验证模型性能评估。数据集支持两种应用场景:直接使用预生成的GPT-4解决方案作为基准参照,或基于提供的测试案例框架开发新的验证算法。配套开源工具支持将其他编程基准转化为同类结构化数据,便于横向比较不同模型在代码质量评估任务上的表现。
背景与挑战
背景概述
Scoring-Verifiers数据集由NVIDIA的研究团队于2025年推出,旨在评估合成验证器在代码和推理任务中的评分与排序能力。该数据集基于HumanEval和MBPP两大经典编程基准测试,构建了四个衍生版本(HE-R、HE-R+、MBPP-R、MBPP-R+),通过GPT-4生成的解决方案及其测试用例执行分数,为验证器的性能评估提供了标准化框架。其核心研究问题聚焦于如何有效量化验证器对代码质量的判别能力,这对提升大语言模型在自动编程、奖励建模等领域的可靠性具有重要意义。该工作发表于arXiv预印本平台,为程序合成与验证领域提供了首个系统性的评估方法论。
当前挑战
该数据集面临双重挑战。在领域层面,如何准确评估验证器对代码解决方案的排序能力仍存在争议,现有测试用例可能无法全面反映代码的健壮性与可维护性。构建过程中,研究团队需克服多模态数据对齐的复杂性:既要保留原始基准测试的语义完整性,又要为每项任务生成多样化的GPT-4解决方案并建立可靠的评分体系。此外,时间效率与计算成本的平衡也是关键挑战,特别是当测试用例规模扩展时,执行数千个代码解决方案需要优化的分布式计算架构。
常用场景
经典使用场景
在代码生成与验证领域,Scoring-Verifiers数据集通过构建基于HumanEval和MBPP的评分排序版本,为评估合成验证器的性能提供了标准化测试平台。该数据集特别适用于测试模型在代码解决方案排序、测试用例生成以及奖励建模等方面的能力,研究者可利用其丰富的解决方案排名和测试得分数据,系统分析不同验证方法的有效性。
解决学术问题
该数据集有效解决了合成验证领域缺乏标准化评估基准的痛点,通过将传统编程基准转化为评分排序任务,为量化验证器的代码质量判别能力提供了方法论。其提出的测试用例执行分数和多维度排名机制,显著提升了代码生成模型评估的细粒度,推动了程序合成与自动验证研究的可重复性与可比性。
衍生相关工作
基于该数据集提出的基准转换方法论,后续研究衍生出多种代码验证改进方案,包括动态测试用例生成算法优化、基于强化学习的验证器训练框架等。其开创性的评分机制更被拓展至数学推理验证领域,催生了如ProofVerifier等跨模态验证系统的研发。
以上内容由遇见数据集搜集并总结生成



