UTGenDebug

Hugging Face2025-02-10 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/archiki/UTGenDebug

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于调试的代码数据集，包含了HumanEval+Fix、MBPP+Fix和MBPP+Fix Hard三个难度递增的数据集划分。HumanEval+Fix是基于HumanEvalFix的Python代码划分，但使用了HumanEvalPlus的扩展测试用例。MBPP+Fix包含了在MBPPPlus上随机采样的模型生成错误及其对应的修复，而MBPP+Fix Hard是基于MBPPPlus中通过50-95%单元测试的部分正确代码。数据集以Python语言为主。

This is a debugging-oriented code dataset that encompasses three progressively more difficult dataset splits: HumanEval+Fix, MBPP+Fix, and MBPP+Fix Hard. HumanEval+Fix is a Python code split derived from HumanEvalFix, but employs the extended test cases from HumanEvalPlus. MBPP+Fix contains model-generated bugs and their corresponding fixes randomly sampled from MBPPPlus. MBPP+Fix Hard is based on the partially correct code in MBPPPlus that passes 50-95% of its unit tests. The dataset is primarily written in Python.

创建时间：

2025-02-05

原始信息汇总

UTGenDebug 数据集概述

数据集信息

数据集名称： UTGenDebug
许可证： Apache-2.0
任务类别： 文本生成
数据集特征：
- task_id：字符串类型，表示编码问题的唯一标识符
- prompt：字符串类型，用于依赖代码生成的模型的提示
- canonical_solution：字符串类型，通过所有单元测试的正确解决方案
- code：字符串类型，导致至少一个单元测试失败的错误解决方案（人为编写或模型生成）
- entry_point：字符串类型，函数的名称
- test：字符串类型，包含问题的单元测试的评估代码
- signature：字符串类型，函数的签名

数据集结构

数据分割：
- he_plus_fix：10998760 字节，158 个示例
- mbpp_plus_fix：4440562 字节，325 个示例
- mbpp_plus_fix_hard：1756672 字节，170 个示例
下载大小： 4403104 字节
数据集大小： 17195994 字节

使用方式

python from datasets import load_dataset

载入数据集

ds = load_dataset("archiki/UTGenDebug")["mbpp_plus_fix_hard"]

获取第一个示例

ds[0]

引用信息

bibtex @article{prasad2025unit, title = {Learning to Generate Unit Tests for Automated Debugging}, author = {Prasad, Archiki and Stengel-Eskin, Elias and Chen, Justin Chih-Yao and Khan, Zaid and Bansal, Mohit}, year = {2025}, journal={arXiv preprint 2502.01619} }

搜集汇总

数据集介绍

构建方式

UTGenDebug数据集的构建是基于HumanEvalFix和HumanEvalPlus的扩展测试用例，以及MBPPPlus数据集上随机生成的模型错误及其对应的修复版本。该数据集通过集成不同难度级别的调试任务，旨在为自动化调试中的单元测试生成任务提供训练和评估资源。

特点

该数据集的主要特点在于其包含了不同难度级别的调试任务，涵盖了从简单到复杂的问题，以适应不同水平的模型训练需求。数据集的结构化字段提供了任务标识、模型生成提示、标准解决方案、代码片段、函数入口点、单元测试和函数签名等信息，这些信息为研究自动化调试和代码生成提供了丰富的语义基础。

使用方法

使用UTGenDebug数据集时，用户可以根据数据集的划分，选择不同难度的子集进行模型训练和评估。通过HuggingFace的datasets库，用户可以轻松加载整个数据集，并按照数据字段进行相应的处理和分析。数据集的每个实例都包含了充足的信息，使得研究人员能够有效地进行模型开发和性能评估。

背景与挑战

背景概述

UTGenDebug数据集是一项专注于自动化调试领域的研究成果，其创建旨在推进编程语言处理与软件调试技术的发展。该数据集由Archiki Prasad等研究人员于2025年提出，并在其研究论文《Learning to Generate Unit Tests for Automated Debugging》中详细阐述。数据集的核心研究问题是如何通过生成单元测试来辅助自动化调试过程，其研究成果对提升程序代码质量与错误诊断效率具有显著影响力。

当前挑战

UTGenDebug数据集在构建过程中面临的挑战主要包括：一是如何设计能够准确反映实际编程错误情况的测试用例；二是如何平衡数据集中问题的难度，以适应不同层次的调试算法；三是确保数据集的多样性，使其能够覆盖广泛的编程错误类型。此外，数据集还面临如何有效标注正确解决方案与错误代码的挑战，以确保数据集的质量与可用性。

常用场景

经典使用场景

UTGenDebug数据集，作为编码问题调试领域的珍贵资源，其经典使用场景在于辅助机器学习模型生成单元测试，并用于自动化调试。该数据集提供了编码问题的描述、错误的代码、正确的解决方案以及单元测试，使得研究者和开发者可以训练和评估模型在生成单元测试以及定位代码错误方面的能力。

衍生相关工作

基于UTGenDebug数据集，研究者们已经开展了一系列相关工作，如改进单元测试生成算法、开发新型调试工具以及探索代码质量评估的新方法。这些工作推动了自动化调试领域的进步，并促进了软件工程研究的深入发展。

数据集最近研究