AceCode-V1.1-69K
收藏Hugging Face2025-05-12 更新2025-05-13 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/AceCode-V1.1-69K
下载链接
链接失效反馈官方服务:
资源简介:
AceCode-V1.1是一个更新的编程问题数据集,它基于原始的AceCode-87K数据集。数据集中的每个问题和测试用例都由GPT-o1-mini重写,并通过Qwen Coder 2.5 32B Instruct进行了过滤。该数据集用于训练Qwen2.5-Coder-7B-Base模型,并在多个编码基准测试中表现良好。数据集包含了问题的唯一标识符、来源、问题描述和测试用例。
提供机构:
TIGER-Lab
创建时间:
2025-05-12
原始信息汇总
AceCode-V1.1-69K 数据集概述
数据集基本信息
- 数据集名称: AceCode-V1.1-69K
- 发布机构: TIGER-Lab
- 论文链接: https://arxiv.org/abs/2502.01718
- GitHub仓库: https://github.com/TIGER-AI-Lab/AceCoder
数据集内容
- 数据量: 69,033个样本
- 数据大小: 277,256,837字节
- 下载大小: 99,156,106字节
- 数据格式:
id(str): 每个问题的唯一标识符source(str): 数据来源question(str): 问题描述tests(List[str]): 问题的测试用例列表
数据子集统计
| 子集 | 过滤前样本数 | 过滤后样本数 | 过滤前平均测试用例数 | 过滤后平均测试用例数 |
|---|---|---|---|---|
| Evol | 41,548 | 17,047 | 20.51 | 16.84 |
| Oss | 35,933 | 17,928 | 22.04 | 19.46 |
| Stack Python Fns | 69,739 | 34,058 | 20.56 | 17.52 |
| 总计 | 147,220 | 69,033 | 20.90 | 17.85 |
使用方式
python import datasets dataset = datasets.load_dataset("TIGER-Lab/AceCode-V1.1-69K")
引用信息
bibtex @article{AceCoder, title={AceCoder: Acing Coder RL via Automated Test-Case Synthesis}, author={Zeng, Huaye and Jiang, Dongfu and Wang, Haozhe and Nie, Ping and Chen, Xiaotong and Chen, Wenhu}, journal={ArXiv}, year={2025}, volume={abs/2207.01780} }
搜集汇总
数据集介绍

构建方式
在代码智能生成领域,AceCode-V1.1-69K数据集的构建体现了精细化数据策展的先进理念。该数据集基于原始AceCode-87K,通过OpenAI的o1-mini模型对每个编程问题及对应测试用例进行语义重写,随后采用Qwen Coder 2.5 32B Instruct模型实施严格的质量过滤。经过双重优化处理后,数据规模从初始的147,220个样本精炼至69,033个,平均测试用例数量亦从20.90个优化至17.85个,确保了数据的精确性与实用性。
特点
该数据集在代码理解与生成任务中展现出显著特性。其核心特征在于每个样本均包含唯一标识符、问题描述、测试用例序列及数据来源标注,形成了完整的编程问题解决单元。特别值得注意的是,数据集通过强化学习训练的模型在多项基准测试中表现优异,如在LiveCodeBench-v4达到35.7分,HumanEval获得88.4分,印证了其数据质量的可靠性。这种结构化设计为代码生成模型的训练提供了丰富而规范的监督信号。
使用方法
对于研究者而言,该数据集提供了便捷的接入方式。通过HuggingFace数据集库可直接加载完整数据,使用标准Python代码即可实现数据调用。具体操作仅需导入datasets模块并执行加载指令,系统将自动解析包含69,033个训练样本的数据文件。这种标准化接口设计极大简化了实验流程,使研究人员能快速投入模型训练与评估工作,为代码智能领域的研究提供高效支撑。
背景与挑战
背景概述
代码生成领域近年来因深度学习技术的突破而蓬勃发展,TIGER-AI实验室于2025年发布的AceCode-V1.1-69K数据集标志着该领域数据质量优化的新阶段。该数据集作为AceCode-87K的升级版本,通过OpenAI o1-mini模型重构问题与测试用例,并采用Qwen Coder 2.5 32B Instruct进行数据筛选,最终形成包含69,033个样本的标准化语料。其核心价值在于通过自动化测试用例合成技术,为强化学习驱动的代码生成模型提供高质量训练基础,在HumanEval、MBPP等权威基准测试中展现出显著提升模型性能的潜力。
当前挑战
代码生成领域长期面临测试用例覆盖度不足与语义理解偏差的双重挑战,AceCode-V1.1-69K通过自动化测试生成机制应对程序功能完整性的验证难题。在构建过程中,原始数据经过语言模型重写后出现规模缩减现象,从初始147,220样本过滤至69,033样本,需平衡测试用例数量与质量的关系。同时,多源数据整合要求协调不同代码风格与复杂度分布,确保合成测试能有效检验代码在边界条件与异常处理等方面的鲁棒性。
常用场景
经典使用场景
在代码智能生成领域,AceCode-V1.1-69K数据集通过融合编程问题与自动化测试用例,为代码大模型的监督微调与强化学习提供了核心训练素材。其精心重构的六万九千余条样本覆盖算法实现、函数编写等典型编程任务,配合多维度测试验证框架,显著提升了模型对代码语义理解与功能完整性的判断能力。
衍生相关工作
以该数据集为基石衍生的Qwen2.5-Coder系列模型,在LiveCodeBench、HumanEval等国际权威基准测试中取得突破性表现。相关研究进一步催生了面向代码修复的强化学习框架、多模态编程助手等创新工作,形成了从数据构建到模型优化的完整技术生态链。
数据集最近研究
最新研究方向
在代码智能生成领域,AceCode-V1.1-69K数据集正推动基于强化学习的代码生成模型优化研究。该数据集通过OpenAI o1-mini重写问题与测试用例,并采用Qwen Coder 2.5 32B进行质量过滤,显著提升了训练数据的精确度。当前研究聚焦于利用该数据集训练模型在LiveCodeBench、HumanEval+等基准测试中的泛化能力,特别是通过自动化测试用例合成技术增强模型对复杂编程场景的适应性。这类工作正在重塑代码生成任务的评估范式,为构建具备人类级编程智能的AI系统奠定数据基础。
以上内容由遇见数据集搜集并总结生成



