AceCode-89K

github2025-02-05 更新2025-02-10 收录

下载链接：

https://github.com/TIGER-AI-Lab/AceCoder

下载链接

链接失效反馈

官方服务：

资源简介：

AceCode-89K是一个用于代码生成模型奖励模型训练和强化学习的大规模可靠测试数据集。我们从种子代码数据集开始，提示强大的LLMs为编码问题“想象”适当的测试用例，并过滤掉噪声。

AceCode-89K is a large-scale, reliable test dataset designed for the training of reward models for code generation models and reinforcement learning. Starting from a seed code dataset, we prompt powerful LLMs to 'imagine' appropriate test cases for coding problems and filter out noise.

创建时间：

2025-02-03

搜集汇总

数据集介绍

构建方式

本研究团队精心构建了名为AceCode-89K的数据集，该数据集的构建起始于一个基础代码种子数据集，通过激发大型语言模型GPT-4o-mini的想象力，生成针对编码问题的适当测试用例，并过滤掉其中的噪声数据，最终形成了一个包含平均每个提示16个测试用例的大型编码数据集。

特点

AceCode-89K数据集的特点在于其规模庞大、自动化合成测试用例的创新方法，以及高覆盖率的测试案例。该数据集不仅为编码场景中的奖励模型训练和强化学习提供了可靠的支持，而且通过训练奖励模型和RL模型，证明了其在提升大型语言模型编码能力方面的潜力。

使用方法

使用AceCode-89K数据集，用户首先需要通过pip安装AceCoder包，之后可以参考提供的示例脚本和文档来使用AceCoderRM模型。对于奖励模型和强化模型的训练，用户需遵循相应的训练指南，使用数据集进行模型的训练和评估。

背景与挑战

背景概述

AceCode-89K数据集，由TIGER-Lab团队于2025年提出，核心研究人员包括Huaye Zeng、Dongfu Jiang等。该数据集旨在通过自动化测试用例合成，推动编程场景下的奖励模型训练和强化学习。AceCode-89K是首个大规模编码数据集，平均每个提示包含16个测试用例，由GPT-4o-mini模型合成。该数据集的构建，为编码问题生成可靠的测试用例，对奖励模型训练和强化学习在编码领域的应用具有重要意义，有望解锁编码生成模型的潜力，推动大型语言模型编码能力的边界。

当前挑战

在构建AceCode-89K数据集的过程中，研究团队面临了诸多挑战。首先，自动化合成大规模可靠的测试用例需要解决噪声数据的过滤问题。其次，构建奖励模型时，如何有效利用偏好对训练数据进行排序，以及如何在强化学习过程中合理选择奖励类型，都是关键性的技术挑战。此外，对模型的性能评估也需采用多种标准，如HumanEval(+)、MBPP(+)、BigCodeBench和LiveCodeBench (V4)，以确保模型的泛化能力和实际应用价值。

常用场景

经典使用场景

在编程领域中，自动化测试用例的生成对于模型的训练至关重要。AceCode-89K数据集，作为首个大规模可靠的自动化测试用例合成工作的核心部分，其经典使用场景在于为编程问题合成测试用例，并过滤掉噪声数据，从而辅助强化学习模型在代码生成场景中的训练。

实际应用

在实际应用中，AceCode-89K数据集可用于训练和评估编码相关的强化学习模型，例如自动编程、代码补全和错误检测。该数据集的实践应用能够推动自动化软件开发流程，提高软件开发效率，并有望在未来的软件开发中发挥重要作用。

衍生相关工作

基于AceCode-89K数据集，衍生出了多个相关的工作，包括训练不同规模的奖励模型以及基于这些模型的强化学习模型。这些相关工作进一步扩展了数据集的应用范围，推动了编码任务中自动化测试和强化学习模型的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集