mehuldamani/bug-fixing-latent-demos-trial-v2

Name: mehuldamani/bug-fixing-latent-demos-trial-v2
Creator: mehuldamani
Published: 2026-04-30 23:05:06
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/mehuldamani/bug-fixing-latent-demos-trial-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于代码缺陷修复任务的数据集，包含编程问题、缺陷代码、修复后代码、测试用例及相关元数据。它支持多种编程语言，旨在训练和评估自动代码修复模型，通过比较缺陷代码和修复代码的测试通过率来验证修复效果。数据集分为训练集和测试集，每个部分包含10个示例，适用于机器学习和自然语言处理研究。

This dataset is designed for code defect repair tasks, containing programming problems, buggy code, fixed code, test cases, and related metadata. It supports multiple programming languages and aims to train and evaluate automatic code repair models by comparing test pass rates between buggy and fixed code to verify repair effectiveness. The dataset is split into training and test sets, each with 10 examples, suitable for machine learning and natural language processing research.

提供机构：

mehuldamani

搜集汇总

数据集介绍

构建方式

该数据集专为程序修复场景下的少样本学习任务而设计，其构建过程聚焦于从公开编程竞赛平台收集真实世界的编程问题与对应的代码缺陷。每一条样本均包含一个唯一的problem_id与bug_id，并配以问题描述（problem）、存在缺陷的代码（buggy_code）及修正后的正确代码（fixed_code）。数据集进一步引入了自动化测试用例筛选机制，通过计算buggy_code_pass_rate和fixed_code_pass_rate，从原始测试用例集合中筛选出能够有效区分错误与正确代码的chosen_test_cases，从而保证正负样本间的判别性。此外，为增强模型对修复策略的认知，每个样本还精心构造了prompt、demonstration和latent_demonstration字段，以隐式示范的方式引导模型理解修复模式。

特点

本数据集的一个显著特色在于其多层级的结构设计，涵盖了从原始编程问题到最终修复代码的完整信息链路，为代码修复研究提供了丰富的上下文。对比于传统的仅包含正反例对的数据集，该数据集创新性地引入了测试用例通过率指标，能够量化代码的行为差异，从而为模型提供更细粒度的监督信号。各样本包含的demonstration与latent_demonstration字段，通过显式与隐式两种示范形式，为少样本学习注入先验知识，有助于模型在推理时更高效地泛化到未见过的缺陷场景。同时，数据集支持多种编程语言（由language字段标识），使其具备跨语言适应潜力，适用于多语言程序修复任务。

使用方法

该数据集适用于少样本或零样本条件下的程序缺陷修复任务，用户可直接加载训练与测试分割，利用其中的prompt与demonstration字段构建输入序列，驱动语言模型生成修复后的代码。推荐将buggy_code与prompt拼接作为模型输入，并以fixed_code作为目标输出进行监督学习，同时可结合chosen_test_cases作为后置验证信号来评估修复效果。数据集已提供latent_demonstration字段，便于研究者探索隐式示范引导的生成策略，例如在推理时动态选取相似样本作为上下文范例。此外，通过遍历不同的bug_id，可对一个编程问题设置多个修复子任务，以评估模型对同一缺陷的不同修复路径的建模能力。

背景与挑战

背景概述

软件缺陷修复是软件工程领域一项至关重要的任务，直接影响软件质量与开发效率。传统的自动化缺陷修复方法多依赖手工规则或模板，在处理复杂、多样化的真实世界缺陷时表现欠佳。近年来，大语言模型展现出强大的代码理解与生成能力，为智能缺陷修复开辟了新路径。在此背景下，bug-fixing-latent-demos-trial-v2数据集应运而生，其创建旨在为利用大语言模型进行少样本学习修复代码缺陷提供高质量的示例数据。该数据集由相关研究机构构建，由20个样本构成，涵盖训练与测试分割，每个样本包含问题描述、缺陷代码、修复代码、测试用例及精心设计的提示与隐式示例（latent demonstration），聚焦于如何通过精炼的动态示例选择提升模型修复性能。尽管规模有限，该数据集为研究潜在表示驱动的少样本代码修复提供了独特的测试基准，对推动大语言模型在软件自动化修复领域的实际应用具有重要的探索性价值。

当前挑战

该数据集所应对的核心领域挑战在于，已有的自动程序修复方法往往无法有效捕捉复杂缺陷的上下文语义，导致修复质量低下且泛化能力弱。大语言模型虽潜力巨大，但如何构造有效的少样本示例以引导模型精准修复，仍然是开放难题。具体挑战包括：一、从有限的缺陷样本中提取具有高区分度的潜在表示，以动态选择最相关的修复示例。二、确保提示和隐式示例的设计能够充分揭示修复模式，避免模型被引入错误方向。三、数据集规模极小（仅20例），对模型从少量示例中学习到的修复规律提出严苛要求，易导致过拟合或欠拟合。四、测试用例的通过率统计与筛选需精确无误，以确保评估指标真实反映修复性能。这些挑战使得本数据集成为检验少样本学习策略鲁棒性与有效性的关键试金石。

常用场景

经典使用场景

在软件工程与自然语言处理交叉领域，bug-fixing-latent-demos-trial-v2数据集主要用于训练和评估基于潜变量演示（latent demonstration）的自动程序修复模型。该数据集包含从在线判题系统（OJ）中收集的简单编程问题，每个样本均提供有缺陷代码、修复后代码以及对应的测试用例通过率。研究者可借助这些精心标注的多语言样例，探索如何从有限的演示中学习修复策略，从而提升模型在未见错误上的泛化能力。其典型用途是作为少样本学习场景下的基准测试，尤其关注利用隐式推理链引导大型语言模型进行代码纠错。

解决学术问题

该数据集直击自动化程序修复领域长期存在的核心难题：如何在没有海量修复案例的情况下，让模型高效理解错误语义并生成准确补丁。通过提供带有通过率指标的配对代码，它帮助学术界系统性地研究修复模型在低资源情景下的表现，尤其是潜变量演示如何弥合抽象错误模式与具体修复操作之间的鸿沟。相关研究借此验证了上下文学习与思维链引导在代码级任务中的有效性，推动了少样本乃至零样本修复方法的发展。其意义在于为构建更鲁棒、更少依赖人工标注的自动修复系统奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出若干值得关注的探索性工作。一方面，研究者将其与CodeBERT、GraphCodeBERT等预训练模型结合，验证了代码表示学习在修复任务中的迁移潜力；另一方面，基于此数据集的少样本学习范式启发了如LatentCoder等利用隐变量桥接错误代码与正确代码的创新架构。此外，对比分析该数据集与HumanEval、Defects4J等经典基准的互补特性，还催生了关于错误类型分布对修复模型泛化影响的系统性研究，进一步推动了多任务修复框架的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集