livecodebench_generated

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/wentingzhao/livecodebench_generated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，其中包括任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表、生成代码以及生成的测试，其中生成的测试包含输入和输出。数据集分为测试集，共有500个示例，文件大小为1904761字节。

创建时间：

2025-04-21

原始信息汇总

数据集概述

基本信息

数据集名称: livecodebench_generated
存储位置: https://huggingface.co/datasets/wentingzhao/livecodebench_generated
下载大小: 182529字节
数据集大小: 392490字节

数据集结构

特征:
- task_id: 数据类型为int32
- text: 数据类型为string
- code: 数据类型为string
- test_list: 序列类型，元素为string
- test_setup_code: 数据类型为string
- challenge_test_list: 序列类型，元素为string
- generated_tests: 结构体类型，包含：
  - input: 序列类型，元素为string
  - output: 序列类型，元素为string

数据划分

划分名称: test
- 样本数量: 500
- 字节大小: 392490

配置文件

配置名称: default
- 数据文件:
  - 划分: test
  - 路径: data/test-*

搜集汇总

数据集介绍

构建方式

在编程自动评估领域，livecodebench_generated数据集通过系统化的方法构建而成。该数据集收录了500个编程任务实例，每个实例包含任务ID、问题描述文本、参考代码实现以及多组测试用例。测试用例部分由标准测试列表、测试环境配置代码和挑战性测试列表构成，特别值得注意的是，数据集还包含了自动生成的测试输入输出对，这些生成测试通过结构化方式存储，为代码功能验证提供了丰富素材。

特点

该数据集展现出鲜明的技术特色，其核心价值在于精心设计的多层次测试体系。标准测试与挑战性测试的双重设置能够全面评估代码的健壮性，而自动生成的测试用例则为机器学习模型提供了动态验证环境。数据结构方面采用层次化组织，既有基础的问题-代码对，又包含嵌套式的测试结构，这种设计既保留了原始编程任务的语义完整性，又为自动化评估提供了标准化接口。

使用方法

针对代码生成模型的性能评估，该数据集提供了即用型测试框架。研究者可将模型生成的代码与参考代码一同置于测试环境中运行，通过比对测试通过率来量化模型表现。数据集中的challenge_test_list特别适合压力测试场景，而generated_tests则可作为数据增强的来源。使用时应先配置好对应的编程语言环境，然后按照test_setup_code初始化测试框架，最终在标准化的测试流程中完成自动化评估。

背景与挑战

背景概述

livecodebench_generated数据集是近年来在程序生成与代码测试领域涌现的重要基准工具，由专业研究团队为评估自动化代码生成系统的性能而构建。该数据集聚焦于编程任务中代码功能正确性的验证，通过结构化存储任务描述、生成代码及对应测试用例，为研究人工智能辅助编程提供了标准化评估框架。其核心价值在于建立了生成代码与动态测试结果的关联体系，推动了代码生成模型从语法正确到功能完备的范式转变，对软件工程与人工智能交叉领域产生深远影响。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何精准设计覆盖边界条件和异常处理的测试用例，以检验生成代码的鲁棒性成为关键难题，现有测试集难以全面反映真实编程场景的复杂性；在构建过程中，平衡测试用例的广度和深度需要耗费大量人力，同时确保自动生成测试与人工编写测试的等效性也面临技术挑战，测试代码与生成代码的语义对齐问题仍需突破性解决方案。

常用场景

经典使用场景

在编程自动化和代码生成领域，livecodebench_generated数据集为研究者提供了一个标准化的评估平台。该数据集包含500个编程任务及其对应的测试用例，能够有效衡量模型生成的代码在功能正确性上的表现。通过预设的测试框架，研究者可以系统性地验证不同代码生成模型的输出质量，为算法优化提供客观依据。

解决学术问题

该数据集主要解决了代码生成领域缺乏标准化评估基准的难题。传统方法往往依赖人工编写的测试用例，难以保证覆盖率和客观性。livecodebench_generated通过精心设计的测试集合，为衡量代码生成模型的泛化能力和鲁棒性提供了可靠标准，推动了编程智能化研究的可重复性和可比性发展。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括基于强化学习的代码生成优化、测试用例自动生成算法改进等。部分工作专注于扩展数据集的测试覆盖维度，另一些则利用其构建了新型的代码质量评估指标，为编程智能化领域树立了新的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集