codecontests-edits-trajectories_min-edits-9_pylint_dfs_no-todo

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/kseniasych/codecontests-edits-trajectories_min-edits-9_pylint_dfs_no-todo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了带有id、指令(instruction)、轨迹(trajectory)、长度(length)等信息的数据记录。轨迹和测试字段包括输入和输出字符串。数据集分为训练集、测试集和验证集三个部分，提供了对应的文件路径模式。

This dataset contains data records with information such as id, instruction, trajectory, length, etc. The trajectory and test fields include input and output strings. The dataset is split into three subsets: training set, test set, and validation set, with corresponding file path patterns provided.

创建时间：

2025-11-19

原始信息汇总

数据集概述

基本信息

数据集名称: codecontests-edits-trajectories_min-edits-9_pylint_dfs_no-todo
存储位置: https://huggingface.co/datasets/kseniasych/codecontests-edits-trajectories_min-edits-9_pylint_dfs_no-todo
下载大小: 203,381,742 字节
数据集大小: 2,880,561,874 字节

数据结构

特征字段

id: 字符串类型，样本唯一标识
instruction: 字符串类型，指令说明
trajectory: 字符串列表，轨迹数据
length: int64类型，长度信息
public_tests: 公共测试用例列表
- input: 字符串类型，测试输入
- output: 字符串类型，测试输出
generated_tests: 生成测试用例列表
- input: 字符串类型，测试输入
- output: 字符串类型，测试输出

数据划分

训练集: 189,138 个样本，2,593,227,966 字节
测试集: 20,515 个样本，247,739,617 字节
验证集: 500 个样本，39,594,291 字节

文件配置

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 测试集: data/test-*
- 验证集: data/val-*

搜集汇总

数据集介绍

构建方式

在编程竞赛领域的数据集构建中，该数据集通过系统化地收集和整理代码编辑轨迹，聚焦于最小编辑次数为9的修改序列，并运用pylint工具进行代码质量分析，同时排除了待办事项类任务。数据来源于公开的编程竞赛平台，涵盖了从初始代码到最终解决方案的完整演化路径，确保了轨迹的连贯性和真实性。构建过程中严格划分了训练集、验证集和测试集，分别包含189,138、500和20,515个样本，为模型训练与评估提供了坚实基础。

使用方法

使用该数据集时，研究者可直接通过HuggingFace平台加载预分割的训练、验证和测试集，利用其代码轨迹数据训练代码补全或程序合成模型。每条数据中的指令字段可作为模型输入，轨迹序列则作为监督学习的标签，公开测试和生成测试可用于评估模型泛化能力。建议在预处理阶段结合pylint分析结果优化代码质量，并利用轨迹长度信息进行样本筛选或分层抽样，以提升模型训练效率与效果。

背景与挑战

背景概述

编程竞赛轨迹数据集作为代码智能研究领域的重要资源，由DeepMind等机构于2022年构建，聚焦于程序代码的迭代优化过程。该数据集通过记录参赛者在算法竞赛中代码修改的完整轨迹，为研究程序合成与自动修复提供了关键数据支撑。其核心价值在于捕捉人类编程时的决策逻辑，推动智能编程助手与自动化代码生成技术的发展，显著提升了代码质量评估与程序理解的研究深度。

当前挑战

该数据集需解决编程竞赛场景下代码优化轨迹的建模难题，包括多步骤编辑意图的语义连贯性保持与长期依赖关系的捕捉。构建过程中面临轨迹序列标注的复杂性，需平衡编辑动作的粒度与语义完整性；同时需确保测试用例对代码功能的覆盖度，避免因竞赛题目特殊性导致的泛化能力不足，这对数据清洗与质量验证提出了极高要求。

常用场景

解决学术问题

该数据集有效解决了代码智能领域中对程序修复机制的系统性建模难题。通过提供带有多步编辑轨迹的结构化数据，它支持研究代码语义理解、自动调试及程序合成等关键问题，显著推进了编程教育评估与软件工程自动化工具的发展。

实际应用

在实际软件开发与教育场景中，该数据集可用于构建智能编程助手，实时指导开发者修正代码错误或优化算法。其测试用例与轨迹数据还能集成至在线判题系统，为编程竞赛平台提供个性化反馈，提升学习效率与代码质量评估的精准度。

数据集最近研究