livecodebench_qwen-7b-easy-unique_t0.0_n1_generated_tests

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/test-gen/livecodebench_qwen-7b-easy-unique_t0.0_n1_generated_tests

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含编程竞赛的相关信息，如问题标题、内容、ID等，并提供了一个测试集的划分。每个示例包括了问题的初始代码、函数名称、难度等级、测试代码以及针对不同编程语言的测试用例。数据集的总大小为178463字节，测试集大小为178463字节，下载大小为76026字节。

创建时间：

2025-05-13

原始信息汇总

数据集概述

基本信息

数据集名称: test-gen/livecodebench_qwen-7b-easy-unique_t0.0_n1_generated_tests
下载大小: 76026 字节
数据集大小: 178463 字节
示例数量: 182
数据拆分: test

数据集特征

question_title: 字符串类型，表示问题的标题。
question_content: 字符串类型，表示问题的内容。
question_id: 字符串类型，表示问题的唯一标识符。
contest_id: 字符串类型，表示竞赛的唯一标识符。
test_id: 整型，表示测试的唯一标识符。
contest_date: 时间戳类型，表示竞赛的日期。
starter_code: 字符串类型，表示起始代码。
function_name: 字符串类型，表示函数名称。
difficulty: 字符串类型，表示问题的难度。
test: 字符串类型，表示测试内容。
verification_info: 结构体类型，包含以下字段：
- language: 字符串类型，表示编程语言。
- test_cases: 字符串序列，表示测试用例。

数据拆分

test: 包含182个示例，大小为178463字节。

配置文件

默认配置: 数据文件路径为 data/test-*。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于编程竞赛领域，通过系统化采集LiveCodeBench平台上的高质量题目构建而成。其核心数据来源于Qwen-7B模型在温度参数0.0条件下生成的唯一性测试用例，每个题目对应n=1组经过严格验证的测试数据。数据字段涵盖题目标题、详细描述、唯一标识符、竞赛信息等结构化元数据，并特别包含函数签名、初始代码框架等编程要素，所有测试用例均附带多语言验证信息。

特点

数据集最显著的特征在于其专业级的编程题目设计，182道题目均标注难度等级并配备完备的验证体系。每个条目不仅包含人类可读的题目描述，还提供机器可执行的测试用例序列，支持Python等多语言环境验证。时间戳字段完整记录竞赛历史，starter_code字段保留原始编程框架，为研究代码生成模型提供真实的上下文环境。验证信息结构体采用嵌套设计，确保测试数据的完整性和可追溯性。

使用方法

研究者可通过HuggingFace数据集接口直接加载test分割集，178KB的轻量级设计便于快速实验。典型应用场景包括：代码生成模型的性能评测、测试用例自动生成算法的验证、编程题目难度预测等。使用时需注意verification_info字段包含的语言特定测试用例，建议根据目标编程语言进行过滤。数据集的时序特征支持纵向研究竞赛题目演变规律，function_name与starter_code的配合使用能有效构建端到端的代码补全实验环境。

背景与挑战

背景概述

livecodebench_qwen-7b-easy-unique_t0.0_n1_generated_tests数据集聚焦于编程竞赛领域，旨在为算法与代码生成研究提供高质量的测试用例。该数据集由前沿研究团队构建，收录了多场编程竞赛中的题目及其测试用例，涵盖不同难度级别。数据集的核心价值在于其精心设计的验证信息结构，包含语言类型和测试用例序列，为评估代码生成模型的鲁棒性提供了标准化基准。通过整合竞赛日期、题目内容和初始代码等元数据，该数据集为研究算法问题求解的时序演变规律提供了独特视角。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题方面，如何准确评估代码生成模型对多样化编程任务的适应性仍存在挑战，特别是处理边界案例和复杂逻辑结构时；构建过程方面，确保测试用例的全面性与唯一性需要耗费大量精力，同时维持题目难度分类的客观性也面临主观判断干扰。验证信息的结构化标注要求精确的语言特性识别和测试用例设计，这对数据质量控制提出了较高要求。

常用场景

经典使用场景

在编程竞赛和算法研究领域，livecodebench_qwen-7b-easy-unique_t0.0_n1_generated_tests数据集为研究者提供了一个标准化的测试平台。该数据集通过包含多种难度级别的编程题目及其对应的测试用例，能够有效评估和比较不同代码生成模型的性能。经典使用场景包括自动化代码生成、算法优化以及编程教育中的智能辅导系统开发。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括基于强化学习的代码生成模型优化、跨语言编程题目的迁移学习方法，以及结合大语言模型的智能调试系统开发。这些工作不仅扩展了数据集的学术价值，更为编程智能化领域提供了新的技术路线。

数据集最近研究