livecodebench_qwen-7b-easy_t0.0_n1_generated_tests

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/test-gen/livecodebench_qwen-7b-easy_t0.0_n1_generated_tests

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了编程比赛的题目信息，包括问题标题、问题内容、问题ID、比赛ID、测试ID、比赛日期、初始代码、函数名称、难度、测试信息以及验证信息（包括编程语言和测试用例）。数据集被划分为测试集，共有182个示例。

创建时间：

2025-05-13

原始信息汇总

数据集概述

基本信息

数据集名称: test-gen/livecodebench_qwen-7b-easy_t0.0_n1_generated_tests
下载大小: 75089
数据集大小: 177409
示例数量: 182

数据集特征

question_title: 字符串类型，表示问题的标题。
question_content: 字符串类型，表示问题的内容。
question_id: 字符串类型，表示问题的唯一标识符。
contest_id: 字符串类型，表示竞赛的唯一标识符。
test_id: int64类型，表示测试的唯一标识符。
contest_date: timestamp[us]类型，表示竞赛的日期。
starter_code: 字符串类型，表示起始代码。
function_name: 字符串类型，表示函数名称。
difficulty: 字符串类型，表示问题的难度。
test: 字符串类型，表示测试内容。
verification_info: 结构体类型，包含以下字段：
- language: 字符串类型，表示编程语言。
- test_cases: 字符串序列，表示测试用例。

数据集拆分

test:
- 字节数: 177409
- 示例数: 182

配置文件

config_name: default
- 数据文件:
  - split: test
  - path: data/test-*

搜集汇总

数据集介绍

构建方式

该数据集聚焦于编程竞赛领域，通过系统化采集LiveCodeBench平台上的高质量编程题目构建而成。数据构建过程严格遵循标准化流程，从问题标题、内容描述到测试用例均保持完整结构，每个条目包含题目ID、竞赛ID、日期标识等元数据，并特别标注了难度等级和初始代码模板，确保数据源的可靠性和可追溯性。时间戳字段的引入为研究编程题目演变规律提供了时序维度支持。

特点

数据集最显著的特征在于其多维度的结构化表示，不仅包含常规的题目文本和代码模板，还创新性地整合了跨语言验证信息。每个题目配备完善的测试用例集和语言环境标识，支持对算法解决方案进行多语言验证。难度分级机制便于研究者开展分层评估，而函数命名规范和起始代码的保留则真实还原了竞赛场景的编程约束条件。

使用方法

该数据集适用于编程能力评估和代码生成研究，研究者可通过加载标准数据分割快速开展实验。典型使用场景包括：解析question_content字段获取问题描述，结合starter_code构建完整编程任务；利用verification_info中的测试用例验证生成代码的正确性；通过difficulty字段实现不同难度层级的性能对比分析。数据集的时序特征支持研究题目难度和类型的演变趋势。

背景与挑战

背景概述

livecodebench_qwen-7b-easy_t0.0_n1_generated_tests数据集聚焦于编程竞赛领域的自动化测试生成问题，由前沿研究团队构建以探索大语言模型在代码生成任务中的表现。该数据集收录了182个编程题目实例，涵盖题目描述、初始代码、函数签名及验证用例等关键要素，旨在为评估模型生成代码的功能正确性提供标准化测试环境。其核心价值在于通过结构化的竞赛题目和验证框架，推动智能编程辅助工具在算法实现准确性方面的研究进展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，如何精准评估生成代码对多样化算法需求的满足程度，需解决测试用例覆盖率和边界条件完备性的平衡问题；在构建过程中，竞赛题目的难度分级标准化、多语言验证框架的兼容性设计，以及生成测试与人工标注的等效性验证，均构成显著技术壁垒。验证信息的结构化表达与测试用例的自动化生成质量，直接影响着数据集在代码生成研究中的信效度。

常用场景

经典使用场景

在编程竞赛和自动化代码生成领域，livecodebench_qwen-7b-easy_t0.0_n1_generated_tests数据集为研究者提供了一个标准化的测试平台。该数据集通过包含多种难度级别的编程题目及其对应的测试用例，能够有效评估模型在代码生成任务中的表现。特别是在验证生成代码的功能正确性方面，数据集的结构化测试用例为模型性能的量化分析提供了可靠依据。

衍生相关工作

基于该数据集的结构特点，已有研究衍生出多个重要方向。部分工作专注于改进代码生成模型的测试用例通过率，提出了新颖的验证机制；另一些研究则利用数据集的难度分级特性，探索了模型在不同复杂度问题上的表现差异。这些衍生工作不仅丰富了代码生成领域的研究维度，也为后续的模型优化提供了有价值的参考框架。

数据集最近研究