TnT/CodeNet4Repair

Hugging Face2023-07-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TnT/CodeNet4Repair

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了编程任务中的错误提交和正确提交的详细信息，包括用户ID、问题ID、提交状态、CPU时间、内存使用等。数据集分为训练集和测试集，分别包含23767和2641个样本。数据集大小在10K到100K之间，使用英语，遵循Apache-2.0许可证。

This dataset comprises detailed records of both erroneous and correct submissions for programming tasks, encompassing user ID, problem ID, submission status, CPU time, memory usage, and other relevant metrics. The dataset is split into training and test subsets, which contain 23,767 and 2,641 samples respectively. It has a size ranging from 10K to 100K, uses English, and is licensed under the Apache-2.0 license.

提供机构：

TnT

原始信息汇总

数据集概述

基本信息

许可协议：Apache-2.0
语言：英语
标签：代码
大小分类：10K<n<100K

数据集特征

字段名称：wrong_submission_id, problem_id, user_id, time_limit, memory_limit, wrong_status, wrong_cpu_time, wrong_memory, wrong_code_size, problem_description, wrong_code, acc_submission_id, acc_status, acc_cpu_time, acc_memory, acc_code_size, acc_code
数据类型：
- string: wrong_submission_id, problem_id, user_id, wrong_status, problem_description, wrong_code, acc_submission_id, acc_status, acc_code
- float64: time_limit, memory_limit, wrong_cpu_time, wrong_memory, acc_cpu_time, acc_memory
- int64: wrong_code_size, acc_code_size

数据集划分

训练集：
- 数据量：23767个示例
- 存储大小：25443399.69304756字节
测试集：
- 数据量：2641个示例
- 存储大小：2827282.306952439字节

数据集大小

下载大小：9157298字节
数据集总大小：28270682.0字节

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码修复研究依赖于高质量的错误与正确代码对。TnT/CodeNet4Repair数据集基于CodeNet项目构建，通过系统筛选出编程竞赛提交记录中的错误代码及其对应的正确修复版本。构建过程涉及从大量提交中识别状态为错误的代码，并关联同一问题下同一用户后续被接受的正确提交，从而形成精确的错误-正确配对。数据经过清洗与去重，确保每对样本在问题描述、资源限制等方面保持一致，为自动化程序修复任务提供了结构化的监督学习数据。

使用方法

使用该数据集时，研究人员可将其应用于代码自动修复、程序合成或缺陷检测等任务。典型流程包括加载数据分割，利用'wrong_code'作为模型输入，'acc_code'作为目标输出，并结合问题描述等上下文信息进行多模态学习。数据集已划分为训练集与测试集，便于直接用于模型训练与性能评估。在预处理阶段，可对代码进行标记化或抽象语法树转换，以捕捉深层语义特征，从而提升模型在理解和生成正确代码方面的能力。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码自动修复技术旨在通过智能系统识别并修正程序中的错误，从而提升软件开发效率与代码质量。TnT/CodeNet4Repair数据集由研究团队于近年构建，聚焦于编程竞赛场景中的代码修复问题。该数据集基于CodeNet项目，精选了包含错误提交与对应正确提交的配对数据，核心研究问题在于如何利用大规模代码样本训练模型以实现自动程序修复。其出现推动了代码智能领域的发展，为基于深度学习的代码生成与修复模型提供了关键训练资源，对软件维护、教育辅助等应用产生了显著影响。

当前挑战

该数据集致力于解决程序自动修复领域的核心挑战，即如何准确理解代码语义并生成正确修正，这涉及复杂的语法与逻辑推理。具体而言，挑战包括错误类型的多样性，如逻辑错误、运行时异常或性能问题，以及修复方案需保持代码功能与效率的平衡。在构建过程中，研究人员面临数据清洗与对齐的困难，需从海量竞赛提交中筛选出高质量的错误-正确配对，并确保问题描述、代码及其元数据的一致性。此外，数据规模与多样性之间的权衡，以及跨编程语言的泛化能力，亦是构建时需克服的关键难题。

常用场景

经典使用场景

在软件工程与程序修复领域，TnT/CodeNet4Repair数据集为自动化代码纠错研究提供了关键资源。该数据集通过收集编程竞赛中错误与正确代码的配对样本，构建了大规模、多样化的训练与测试环境。研究者利用这些数据训练机器学习模型，特别是基于深度学习的序列到序列架构，以学习从缺陷代码到修复后代码的映射关系，从而推动智能程序修复技术的发展。

解决学术问题

该数据集有效应对了程序修复研究中数据稀缺与质量不均的挑战。它提供了结构化的问题描述、错误代码及其对应的正确版本，使得模型能够学习复杂的语义和语法修正模式。这促进了基于学习的修复方法在检测逻辑错误、语法错误及性能缺陷等方面的进步，为软件质量保障与自动化调试开辟了新途径，显著提升了修复任务的准确性与泛化能力。

实际应用

在实际软件开发与教育场景中，TnT/CodeNet4Repair支持构建智能编程辅助工具。例如，集成到集成开发环境中，实时提示代码错误并提供修正建议，加速开发调试流程。在教育平台，它可用于自动化评分与个性化反馈，帮助学习者理解常见编程误区。这些应用不仅提升了开发效率，还降低了人工审查成本，推动了编程教育的智能化转型。

数据集最近研究