AutoCodeBench, AutoCodeBench-Lite, AutoCodeBench-Complete

github2025-08-15 更新2025-08-19 收录

下载链接：

https://github.com/Tencent-Hunyuan/AutoCodeBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

AutoCodeBench是一个全面、大规模的代码生成基准测试，包含3,920个精心挑选的问题，涵盖20种编程语言，具有高难度、实用性和语言多样性。AutoCodeBench-Lite是从AutoCodeBench中精选的1,586个问题，这些问题已被至少两个不同模型成功解决。AutoCodeBench-Complete是从AutoCodeBench-Lite中选出的1,000个问题，用于评估基础模型的性能。

AutoCodeBench is a comprehensive and large-scale code generation benchmark that contains 3,920 carefully selected problems covering 20 programming languages, featuring high difficulty, practicality and linguistic diversity. AutoCodeBench-Lite is a subset of 1,586 problems selected from AutoCodeBench, which have been successfully solved by at least two distinct models. AutoCodeBench-Complete is a selection of 1,000 problems from AutoCodeBench-Lite, intended for evaluating the performance of base models.

创建时间：

2025-08-15

原始信息汇总

AutoCodeBench 数据集概述

数据集简介

开发团队: 腾讯混元团队
核心创新: 通过LLM-Sandbox交互自动生成代码测试基准，解决人工标注耗时且难以扩展的问题
主要特点:
- 支持20种编程语言的平衡分布
- 包含高难度、实用性强的问题
- 具有语言多样性

数据集组成

数据集名称	问题数量	特点
AutoCodeBench	3,920	完整基准集
AutoCodeBench-Lite	1,586	已被至少两种模型成功解决的问题子集
AutoCodeBench-Complete	1,000	采用3-shot提示的补全式评估框架

数据字段说明

question: 编程问题描述
canonical_solution: 标准代码解决方案
demo_test_func: 包含基础测试用例的公共测试函数
full_test_func: 包含全面测试用例的私有测试函数
language: 使用的编程语言
difficulty: 难度等级(easy/medium/hard)

下载地址

AutoCodeBench: https://huggingface.co/datasets/tencent/AutoCodeBenchmark/blob/main/autocodebench.jsonl
AutoCodeBench-Lite: https://huggingface.co/datasets/tencent/AutoCodeBenchmark/blob/main/autocodebench_lite.jsonl
AutoCodeBench-Complete: https://huggingface.co/datasets/tencent/AutoCodeBenchmark/blob/main/autocodebench_completion_3shot.jsonl

评估方法

准备模型输出文件model_output.jsonl
拉取多语言沙箱镜像
启动沙箱服务
验证服务状态
计算pass@1指标

系统提示模板

"You are an expert programmer. Your task is to provide a code solution within a single Markdown code block for the given programming problem. Do not include any direct execution commands, test cases, or usage examples within the code block."

引用信息

bibtex @misc{chou2025autocodebenchlargelanguagemodels, title={AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators}, author={Jason Chou and Ao Liu and Yuchi Deng and Zhiying Zeng and Tao Zhang and Haotian Zhu and Jianwei Cai and Yue Mao and Chenchen Zhang and Lingyun Tan and Ziyan Xu and Bohui Zhai and Hengyi Liu and Speed Zhu and Wiggin Zhou and Fengzong Lian}, year={2025}, eprint={2508.09101}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.09101}, }

许可证

遵循项目根目录下的LICENSE文件规定

搜集汇总

数据集介绍

构建方式

AutoCodeBench系列数据集的构建采用了创新的LLM-Sandbox交互机制，通过大语言模型动态生成测试输入并借助沙箱环境获取对应输出，实现了代码生成数据的高效自动化生产。该流程首先由LLMs生成编程问题，随后通过多语言沙箱执行验证，最终形成包含问题描述、规范解、测试用例等完整要素的数据结构。针对不同需求，团队进一步通过模型评估筛选出AutoCodeBench-Lite子集，并基于3-shot提示构建了AutoCodeBench-Complete完成式评估框架。

特点

该数据集系列最显著的特征在于其多语言平衡性与高难度特性，覆盖20种编程语言共计3,920个问题，每个问题均配备详尽的测试函数和难度分级。AutoCodeBench-Lite包含1,586个经过模型验证的可解问题，而Complete版本则专注于基础模型的完成能力评估。相较于传统人工标注的代码基准，其采用的语言分布均衡性、问题复杂度层级以及自动化测试体系，为评估模型的多语言代码生成能力提供了更全面的维度。

使用方法

使用该数据集需先配置MultiLanguageSandbox服务环境，通过Docker部署沙箱容器后，用户可加载模型生成的代码解决方案进行自动化评估。评估流程包括准备模型输出文件、调用沙箱服务执行测试、计算pass@1准确率等步骤。系统提供标准化的测试接口和并发处理能力，支持对规范解和模型输出的批量验证。特别设计的系统提示模板确保代码生成格式的统一性，而完整的测试函数体系则保障了评估结果的可靠性。

背景与挑战

背景概述

AutoCodeBench是由腾讯Hunyuan团队于2025年推出的创新型代码生成基准测试数据集，旨在解决传统代码生成基准测试依赖人工标注、难以扩展多语言支持以及问题复杂度不足等核心问题。该数据集通过创新的LLM-Sandbox交互机制，实现了测试用例的自动化生成与验证，构建了包含3,920个高质量编程问题的多语言基准测试体系，覆盖20种编程语言并具备均衡的难度分布。作为当前最具代表性的代码生成评估框架之一，AutoCodeBench为衡量大语言模型在多语言环境下的真实编程能力提供了标准化测试平台，推动了代码生成领域的评估方法学发展。

当前挑战

在领域问题层面，AutoCodeBench需要应对多语言代码生成评估中存在的三大挑战：不同编程语言间的语法特性差异导致评估标准难以统一，复杂算法问题的测试用例覆盖度不足，以及模型输出与沙箱执行环境的安全交互机制设计。数据集构建过程中，研究团队需克服自动化流程中的关键难题：LLM生成的测试用例需通过沙箱环境实现动态验证，多语言执行环境的兼容性保障，以及从原始3,920个问题中筛选出1,586个具有稳定可解性的子集（AutoCodeBench-Lite）所涉及的模型泛化能力评估。这些技术挑战的解决为后续代码生成基准的自动化构建提供了重要范式参考。

常用场景

经典使用场景

在代码生成领域的研究中，AutoCodeBench系列数据集为评估大型语言模型在多语言环境下的代码生成能力提供了标准化测试平台。其精心设计的3920道编程题目覆盖20种语言，通过动态生成的测试用例和沙箱验证机制，研究者能够系统性地衡量模型从算法实现到边界条件处理的综合编码水平。该数据集尤其适合用于对比分析不同模型在Python之外的泛化能力，其难度梯度分布为研究模型在简单、中等及复杂问题上的表现差异提供了丰富样本。

解决学术问题

该数据集有效解决了传统代码基准测试依赖人工标注导致的规模受限问题，通过LLM-Sandbox交互机制实现测试用例的自动化生成与验证。其多语言平衡特性填补了现有基准如Fullstackbench等存在的语言分布偏差缺陷，而高难度题目设置则突破了McEval等基准过于简单的局限。研究者可据此探究模型在跨语言代码生成中的迁移学习能力、复杂逻辑实现的缺陷模式以及测试驱动开发场景下的适应性，为提升代码生成模型的鲁棒性和普适性提供量化依据。

衍生相关工作

基于该数据集的研究已催生多项创新工作，如清华大学提出的跨语言知识蒸馏框架CodeXGLUE利用其多语言数据进行模型预训练。微软研究院开发的TestGen-LLM借鉴了其动态测试生成范式，而斯坦福的CodeT5+模型则通过该基准验证了其在Rust等低频语言上的改进效果。开源社区更衍生出CodeContestsBench等专项评测，这些工作共同推动了代码生成领域从单一Python评估向真实开发场景的多维度测评体系演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集