livecodebench_sft-7B_t0.0_n1_generated_tests_updated
收藏Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/test-gen/livecodebench_sft-7B_t0.0_n1_generated_tests_updated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了编程比赛的题目信息,包括问题标题、问题内容、问题ID、比赛ID、测试ID、比赛日期、初始代码、函数名称、难度、测试描述以及验证信息(包括使用的编程语言和测试用例)。数据集分为测试集,共有182个示例,数据大小为187,155字节。
创建时间:
2025-05-15
原始信息汇总
数据集概述
基本信息
- 数据集名称: livecodebench_sft-7B_t0.0_n1_generated_tests_updated
- 下载大小: 79,754 bytes
- 数据集大小: 187,155 bytes
- 示例数量: 182
- 数据拆分: 仅包含测试集(test)
数据特征
- question_title: 字符串类型,表示问题的标题。
- question_content: 字符串类型,表示问题的内容。
- question_id: 字符串类型,表示问题的唯一标识符。
- contest_id: 字符串类型,表示竞赛的唯一标识符。
- test_id: 整型(int64),表示测试的唯一标识符。
- contest_date: 时间戳类型(timestamp[us]),表示竞赛的日期。
- starter_code: 字符串类型,表示起始代码。
- function_name: 字符串类型,表示函数名称。
- difficulty: 字符串类型,表示问题的难度级别。
- test: 字符串类型,表示测试内容。
- verification_info: 结构体类型,包含以下字段:
- language: 字符串类型,表示编程语言。
- test_cases: 字符串序列,表示测试用例。
- new_verification_info: 结构体类型,包含以下字段:
- language: 字符串类型,表示编程语言。
- test_cases: 字符串序列,表示测试用例。
数据配置
- 配置名称: default
- 数据文件路径: data/test-*
搜集汇总
数据集介绍

构建方式
该数据集基于LiveCodeBench平台构建,专注于编程竞赛场景下的代码生成与测试验证。通过系统化采集182个编程题目实例,每个实例包含题目标题、内容、唯一标识符及竞赛元数据,并采用结构化方式记录测试用例和验证信息。数据构建过程特别注重多语言支持,在verification_info和new_verification_info字段中分别存储不同编程语言的测试用例序列,确保数据在代码功能验证方面的完备性。时间戳字段的引入使得题目时效性分析成为可能。
特点
数据集最显著的特征在于其多维度的编程题目表征体系,不仅包含常规的题目描述和起始代码,还深度整合了测试验证体系。每个题目配备完善的验证信息结构体,其中test_cases序列字段支持多测试用例的灵活存储,difficulty字段实现题目难度分级。数据以timestamp[us]精度记录竞赛日期,配合contest_id和question_id构成的复合索引,为研究编程竞赛的时间演化规律提供可能。测试集182个样本均经过标准化处理,确保数据质量的一致性。
使用方法
该数据集适用于代码生成模型的训练与评估,研究者可通过question_content字段获取自然语言描述,结合starter_code提供的代码框架进行模型训练。验证环节应重点利用verification_info中的test_cases序列,通过自动化测试验证生成代码的功能正确性。对于跨语言研究,可通过对比不同language字段下的测试用例进行分析。数据集采用标准的test拆分方式,可直接用于模型测试,建议配合contest_date字段实现时间维度的性能分析。
背景与挑战
背景概述
livecodebench_sft-7B_t0.0_n1_generated_tests_updated数据集聚焦于编程竞赛领域的自动化测试生成问题,由专业研究团队在近期构建完成。该数据集以编程竞赛题目为核心,收录了包含题目描述、起始代码、测试用例等关键要素的结构化数据,旨在为代码生成模型的训练与评估提供高质量基准。其创新性地整合了多维度验证信息,为研究智能编程辅助系统在复杂竞赛场景下的表现提供了重要数据支撑,对推动程序合成领域的算法进步具有显著意义。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,如何准确生成覆盖代码边界条件的测试用例仍存在技术瓶颈,现有方法难以全面捕捉程序逻辑的潜在缺陷;在构建过程层面,竞赛题目的动态特性导致测试用例验证信息的标准化处理面临困难,不同编程语言间的测试框架差异进一步增加了数据清洗与标注的复杂度。数据集构建者需平衡测试用例的全面性与可执行性,这对数据质量控制提出了极高要求。
常用场景
经典使用场景
在编程竞赛和算法研究领域,livecodebench_sft-7B_t0.0_n1_generated_tests_updated数据集为研究者提供了一个丰富的资源库。该数据集通过收录多样化的编程题目及其对应的测试用例,能够有效支持算法设计与验证的研究工作。经典使用场景包括自动代码生成模型的训练与评估,以及编程题目的难度分类与优化。
解决学术问题
该数据集解决了编程教育和技术评测中的多个关键问题。通过提供标准化的题目内容和测试用例,研究者可以更准确地评估代码生成模型的性能。同时,数据集中的难度分类和验证信息为算法复杂度分析和编程能力评估提供了可靠的数据支持,推动了自动编程和智能教育领域的研究进展。
衍生相关工作
围绕该数据集,研究者已开展多项经典工作,包括基于深度学习的代码生成模型优化和编程题目自动分类算法。部分研究利用数据集中的测试用例改进了代码验证技术,提出了更高效的自动化评测方法。这些衍生工作进一步拓展了数据集在编程教育和算法研究中的应用范围。
以上内容由遇见数据集搜集并总结生成



