HE-R, HE-R+, MBPP-R, MBPP-R+

Name: HE-R, HE-R+, MBPP-R, MBPP-R+
Creator: NVIDIA Santa Clara, CA 15213, USA
Published: 2025-02-19 23:32:11
License: 暂无描述

arXiv2025-02-19 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.13820v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了HE-R、HE-R+、MBPP-R和MBPP-R+四个数据集，这些数据集是由HumanEval和Mostly Basic Programming Problems (MBPP)改编而来，用于评估合成验证方法在评估解决方案正确性方面的影响。这些数据集将现有的编码基准测试转化为评分和排名数据集，以评估合成验证方法的有效性。数据集的具体大小、数据量等信息未在摘要中详细说明，但提到了这些数据集能够评估大型语言模型在代码测试用例生成方面的能力，并用于比较不同合成验证方法的性能。

This paper presents four datasets: HE-R, HE-R+, MBPP-R, and MBPP-R+, which are adapted from HumanEval and Mostly Basic Programming Problems (MBPP). These datasets are designed to evaluate the impact of synthetic validation methods on the assessment of solution correctness. These datasets transform existing coding benchmark tests into scoring and ranking datasets for evaluating the effectiveness of synthetic validation methods. The specific details such as the size and volume of the datasets are not elaborated in the abstract. Nevertheless, it is noted that these datasets can evaluate the ability of large language models (LLMs) to generate code test cases, and are utilized to compare the performance of different synthetic validation methods.

提供机构：

NVIDIA Santa Clara, CA 15213, USA

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

HE-R, HE-R+, MBPP-R, MBPP-R+数据集的构建方式是将现有的编码基准转换为评分和排名数据集，以评估合成验证器的有效性。首先，通过迭代每个数据集条目并使用GPT-4o模型生成潜在的解决方案，然后使用预定义的测试用例进行评分。接着，通过去重和排名阶段筛选出具有不同分数的解决方案。这种方法可以确保每个问题至少有五个独特的评分解决方案。

使用方法

使用HE-R, HE-R+, MBPP-R, MBPP-R+数据集的方法包括生成测试用例、生成代码奖励模型和评估推理模型。首先，可以使用这些数据集生成测试用例，以评估LLM模型的测试用例生成能力。其次，可以使用这些数据集生成代码奖励模型，以评估奖励模型在编码基准上的性能。最后，可以使用这些数据集评估推理模型，以评估推理模型在测试用例生成和代码生成方面的能力。

背景与挑战

背景概述

随着大型语言模型（LLM）在代码生成领域的突破性进展，代码验证已成为训练大规模推理模型的关键组成部分。为了应对传统测试用例的局限性，合成技术如自生成测试用例和奖励模型被提出，以提升代码能力。基于这些进展，Ficek等人提出了HE-R、HE-R+、MBPP-R和MBPP-R+等新基准，旨在系统地评估合成验证方法对解决方案正确性的影响。这些数据集将现有编码基准转化为评分和排名数据集，以评估合成验证器的有效性。该研究在评估合成验证方法对大型语言模型的影响方面具有重要意义，为代码生成和验证提供了新的视角。

当前挑战

HE-R、HE-R+、MBPP-R和MBPP-R+数据集在评估合成验证方法方面面临一些挑战。首先，如何有效地区分正确和错误的解决方案是一个关键问题。其次，构建过程中需要解决如何生成多样化的解决方案和测试用例，以及如何对生成的解决方案进行评分和排名。此外，随着测试用例数量的增加，模型的性能提升是否具有上限也是一个值得研究的问题。最后，如何进一步提高奖励模型在代码验证中的性能也是一个挑战。

常用场景

经典使用场景

HE-R, HE-R+, MBPP-R, MBPP-R+数据集主要用于评估合成验证方法在代码和推理模型中的有效性。这些数据集将现有的编码基准转换为评分和排名数据集，以便评估合成验证器的有效性。研究人员可以使用这些数据集来分析合成验证方法在标准、基于推理和基于奖励的LLM中的表现。

解决学术问题

这些数据集解决了代码验证中的瓶颈问题，即预定义测试用例的数量有限。传统的代码验证方法依赖于预定义的测试用例，而HE-R, HE-R+, MBPP-R, MBPP-R+数据集则通过合成技术，如自我生成的测试用例和奖励模型，来提高代码验证的能力。这些数据集为评估合成验证方法的有效性提供了一个标准化框架，有助于推动代码生成和自动化代码测试等领域的发展。

实际应用

这些数据集在实际应用场景中具有重要意义。它们可以帮助开发人员评估和选择最佳的代码解决方案，提高代码质量和覆盖率。此外，这些数据集还可以用于训练和评估代码生成和测试用例生成等任务中的LLM，从而提高LLM在代码理解和推理方面的能力。

数据集最近研究