acecode-87k-verl

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/sungyub/acecode-87k-verl

下载链接

链接失效反馈

官方服务：

资源简介：

AceCode-87K是一个转换为VERL格式的代码生成任务强化学习训练数据集。它包含87100个示例，所有示例均为开源问题。数据集遵循VERL训练格式，包括数据源、提示信息、任务类型、评估配置和元数据等字段。提示信息包含问题陈述，任务类型始终为'code'，评估配置包括评估方法和测试用例，元数据包含记录的顺序标识符。

AceCode-87K is a reinforcement learning training dataset for code generation tasks converted to the VERL format. It contains 87,100 examples, all of which are open-source problems. The dataset follows the VERL training format, including fields such as data source, prompt information, task type, evaluation configuration and metadata. The prompt information includes the problem statement, the task type is always "code", the evaluation configuration includes evaluation methods and test cases, and the metadata contains sequential identifiers of the records.

创建时间：

2025-11-03

原始信息汇总

AceCode-87K (VERL格式) 数据集概述

基本信息

数据集名称: AceCode-87K (VERL格式)
原始数据集: TIGER-Lab/AceCode-87K
转换者: sungyub
转换日期: 2025-11-03
许可证: MIT
任务类别: 文本生成、强化学习
语言: 代码
标签: 代码、代码生成、Python、推理、强化学习、RLHF、Sandbox Fusion、VERL
规模分类: 10K<n<100K

数据集统计

总样本数: 87,100
数据分割: train
数据格式: Parquet (VERL兼容)
数据来源分布:
- OSS: 25,857
- APPS: 0
- MBPP: 0

数据结构

字段定义

data_source: 字符串，数据源类别 (oss/apps/mbpp)
prompt: 字典列表，对话消息 (仅用户)
- role: 字符串，说话者角色 (始终为"user")
- content: 字符串，问题描述
ability: 字符串，任务分类 (始终为"code")
reward_model: 字典，评估配置
- style: 字符串，评估方法 (始终为"rule")
- ground_truth: 字符串，包含测试用例的JSON字符串
extra_info: 字典，元数据
- index: int64，顺序记录标识符 (0到87,099)

测试用例格式

ground_truth字段包含pytest风格的断言： json { "assert_case": [ "assert function_name([input1]) == [output1]", "assert function_name([input2]) == [output2]" ] }

兼容性

Sandbox Fusion: 设计用于与Sandbox Fusion配合进行代码评估
VERL训练: 符合VERL训练框架要求

使用方式

python from datasets import load_dataset dataset = load_dataset("sungyub/acecode-87k-verl", split="train")

转换说明

转换过程

数据源映射：从原始source字段直接复制
提示结构：从context_messages保留 (仅用户消息)
测试用例格式：从列表转换为assert_case JSON格式
字典键排序：应用PyArrow模式确保VERL兼容性
索引分配：从0到87,099的顺序索引

与原数据集差异

推理移除: 原始数据集包含每个问题64-80个模型生成的补全，此VERL训练版本不包含
测试格式: 测试用例从普通列表转换为结构化assert_case JSON格式
模式结构: 重构以匹配VERL训练要求

引用

bibtex @article{acecode2024, title={AceCode: Leveraging Inference Scaling to Unlock Code Intelligence}, author={TIGER-Lab}, year={2024} }

搜集汇总

数据集介绍

构建方式

在代码智能研究领域，AceCode-87K数据集通过系统化转换流程构建而成。原始数据源自开源编程问题（OSS类别），经过结构化映射将问题描述封装为对话格式的提示信息，并采用PyArrow模式确保字段顺序符合VERL训练框架要求。测试用例被重新组织为包含pytest风格断言的JSON结构，移除了原始数据中的模型生成结果，专注于构建强化学习所需的奖励信号基础。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，利用标准接口获取包含问题描述与测试用例的完整样本。在实际应用中，可将模型生成的代码与数据集中预置的断言用例送入Sandbox Fusion环境进行自动化评估，通过执行结果计算奖励分数。这种端到端的使用流程既支持离线批量验证，也兼容在线强化学习训练场景，为代码生成模型的迭代优化提供可靠评估基础。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成技术正逐步重塑程序开发的范式。AceCode-87K数据集由TIGER-Lab于2024年构建，旨在通过大规模代码样本推动智能编程助手的发展。该数据集整合了开源项目（OSS）、算法题库（APPS）及基础编程问题（MBPP）三大来源，聚焦于代码生成与推理能力的提升。其采用VERL兼容格式重构后，强化了与强化学习框架的适配性，为探索基于人类反馈的代码优化机制提供了重要基础。

当前挑战

代码生成领域面临的核心挑战在于模型需同时满足功能正确性与编程规范双重标准。AceCode-87K通过沙箱融合技术构建动态测试环境，但如何精准评估生成代码的边界案例覆盖度仍是难题。数据集构建过程中，原始推理数据的剔除导致监督信号减弱，而将多样化测试用例统一为断言格式时，需平衡执行效率与语义完整性。此外，跨数据源的标注差异也增加了质量控制的复杂性。

常用场景

经典使用场景

在代码智能研究领域，AceCode-87K数据集通过其VERL兼容格式，为强化学习驱动的代码生成任务提供了标准化训练框架。该数据集以包含8.7万个编程问题实例的规模，支撑模型在理解自然语言描述后生成可执行代码的能力。其特色在于采用Sandbox Fusion验证机制，通过pytest风格的断言案例对生成代码进行自动化评估，为代码功能正确性提供量化依据。

解决学术问题

该数据集有效应对了代码生成领域长期存在的评估标准缺失问题。传统方法依赖人工评判或简单匹配，难以准确反映代码的功能完备性。通过结构化测试用例与强化学习框架的结合，研究者能够建立更可靠的代码质量评估体系。这种范式不仅提升了模型输出的可靠性，还为代码智能领域的可复现研究奠定了基础，推动了从语法正确性到功能正确性的研究范式转变。

实际应用

在工业实践中，该数据集支撑的代码生成技术已渗透到软件开发全生命周期。集成开发环境通过此类技术实现智能代码补全，显著提升开发效率。在线编程教育平台利用其构建个性化辅导系统，实时分析学员代码并给出改进建议。企业级代码审查工具则基于类似机制，自动检测潜在错误模式，成为保障软件质量的重要防线。

数据集最近研究