livecodebench_generated
收藏Hugging Face2025-04-25 更新2025-04-26 收录
下载链接:
https://huggingface.co/datasets/wentingzhao/livecodebench_generated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,其中包括任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表、生成代码以及生成的测试,其中生成的测试包含输入和输出。数据集分为测试集,共有500个示例,文件大小为1904761字节。
创建时间:
2025-04-21
原始信息汇总
数据集概述
基本信息
- 数据集名称: livecodebench_generated
- 存储位置: https://huggingface.co/datasets/wentingzhao/livecodebench_generated
- 下载大小: 182529字节
- 数据集大小: 392490字节
数据集结构
- 特征:
task_id: 数据类型为int32text: 数据类型为stringcode: 数据类型为stringtest_list: 序列类型,元素为stringtest_setup_code: 数据类型为stringchallenge_test_list: 序列类型,元素为stringgenerated_tests: 结构体类型,包含:input: 序列类型,元素为stringoutput: 序列类型,元素为string
数据划分
- 划分名称: test
- 样本数量: 500
- 字节大小: 392490
配置文件
- 配置名称: default
- 数据文件:
- 划分: test
- 路径: data/test-*
- 数据文件:
搜集汇总
数据集介绍

构建方式
在编程自动评估领域,livecodebench_generated数据集通过系统化的方法构建而成。该数据集收录了500个编程任务实例,每个实例包含任务ID、问题描述文本、参考代码实现以及多组测试用例。测试用例部分由标准测试列表、测试环境配置代码和挑战性测试列表构成,特别值得注意的是,数据集还包含了自动生成的测试输入输出对,这些生成测试通过结构化方式存储,为代码功能验证提供了丰富素材。
特点
该数据集展现出鲜明的技术特色,其核心价值在于精心设计的多层次测试体系。标准测试与挑战性测试的双重设置能够全面评估代码的健壮性,而自动生成的测试用例则为机器学习模型提供了动态验证环境。数据结构方面采用层次化组织,既有基础的问题-代码对,又包含嵌套式的测试结构,这种设计既保留了原始编程任务的语义完整性,又为自动化评估提供了标准化接口。
使用方法
针对代码生成模型的性能评估,该数据集提供了即用型测试框架。研究者可将模型生成的代码与参考代码一同置于测试环境中运行,通过比对测试通过率来量化模型表现。数据集中的challenge_test_list特别适合压力测试场景,而generated_tests则可作为数据增强的来源。使用时应先配置好对应的编程语言环境,然后按照test_setup_code初始化测试框架,最终在标准化的测试流程中完成自动化评估。
背景与挑战
背景概述
livecodebench_generated数据集是近年来在程序生成与代码测试领域涌现的重要基准工具,由专业研究团队为评估自动化代码生成系统的性能而构建。该数据集聚焦于编程任务中代码功能正确性的验证,通过结构化存储任务描述、生成代码及对应测试用例,为研究人工智能辅助编程提供了标准化评估框架。其核心价值在于建立了生成代码与动态测试结果的关联体系,推动了代码生成模型从语法正确到功能完备的范式转变,对软件工程与人工智能交叉领域产生深远影响。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,如何精准设计覆盖边界条件和异常处理的测试用例,以检验生成代码的鲁棒性成为关键难题,现有测试集难以全面反映真实编程场景的复杂性;在构建过程中,平衡测试用例的广度和深度需要耗费大量人力,同时确保自动生成测试与人工编写测试的等效性也面临技术挑战,测试代码与生成代码的语义对齐问题仍需突破性解决方案。
常用场景
经典使用场景
在编程自动化和代码生成领域,livecodebench_generated数据集为研究者提供了一个标准化的评估平台。该数据集包含500个编程任务及其对应的测试用例,能够有效衡量模型生成的代码在功能正确性上的表现。通过预设的测试框架,研究者可以系统性地验证不同代码生成模型的输出质量,为算法优化提供客观依据。
解决学术问题
该数据集主要解决了代码生成领域缺乏标准化评估基准的难题。传统方法往往依赖人工编写的测试用例,难以保证覆盖率和客观性。livecodebench_generated通过精心设计的测试集合,为衡量代码生成模型的泛化能力和鲁棒性提供了可靠标准,推动了编程智能化研究的可重复性和可比性发展。
衍生相关工作
围绕该数据集已衍生出多项重要研究,包括基于强化学习的代码生成优化、测试用例自动生成算法改进等。部分工作专注于扩展数据集的测试覆盖维度,另一些则利用其构建了新型的代码质量评估指标,为编程智能化领域树立了新的研究范式。
以上内容由遇见数据集搜集并总结生成



