mehuldamani/bug-fixing-latent-demos-trial-v3
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mehuldamani/bug-fixing-latent-demos-trial-v3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含编程问题及其对应的错误代码和修复后的代码,涉及多种编程语言。数据集特征包括问题ID、错误ID、问题描述、错误代码、修复后的代码、编程语言、测试用例、错误代码通过率、修复代码通过率、选定的测试用例、提示、演示和潜在演示。数据集分为训练集和测试集,分别包含10个示例。
This dataset contains programming problems along with their corresponding buggy and fixed code, covering multiple programming languages. The features include problem ID, bug ID, problem description, buggy code, fixed code, programming language, test cases, buggy code pass rate, fixed code pass rate, chosen test cases, prompt, demonstration, and latent demonstration. The dataset is split into training and test sets, each containing 10 examples.
提供机构:
mehuldamani
搜集汇总
数据集介绍

构建方式
该数据集聚焦于代码漏洞修复场景,旨在研究基于潜变量演示的修复策略。构建过程首先从编程问题集合中筛选出包含缺陷的代码片段(buggy_code)及其对应的修复版本(fixed_code),并关联唯一的problem_id与bug_id以确保可追溯性。进一步引入测试用例(test_cases)及其通过率指标(buggy_code_pass_rate与fixed_code_pass_rate),以量化代码正确性。为支撑演示学习,从测试用例中遴选通过率变化显著的部分作为chosen_test_cases,并手工构建自然语言提示(prompt)与显式演示(demonstration)。核心创新在于利用变分推断方法生成隐式的潜变量演示(latent_demonstration),将传统显式修复逻辑压缩为低维隐空间表征,从而增强模型对复杂漏洞模式的泛化能力。数据集划分为训练集与测试集各10个样本,平衡了规模与实验可行性。
特点
该数据集的核心特点体现在其多维度的修复信息融合与隐式表征设计。首先,每条样本同时包含缺陷代码、修复代码及多层级测试结果,形成从代码语义到执行反馈的闭环,便于评估修复前后行为差异。其次,通过显式演示与潜变量演示的双轨结构,模型既能依托自然语言提示理解修复意图,又可从隐空间捕获难以言传的漏洞模式,例如跨函数副作用或并发错误。此外,测试用例的通过率指标(如buggy_code_pass_rate从0.0跃升至fixed_code_pass_rate的1.0)为修复效果提供了定量标尺。数据规模虽小(共20条),但覆盖了多语言场景,且潜变量演示的维度可通过后续扩展调整,适合作为小样本学习或元学习的基准测试集。
使用方法
该数据集主要面向代码生成与自动修复领域的研究,典型使用方式为基于潜变量演示的少样本学习。用户可加载训练集构造提示模板,将prompt、demonstration与latent_demonstration作为多模态输入馈入序列到序列模型(如CodeT5或GPT类架构),并利用交叉熵损失优化生成fixed_code。具体实现时,可参考README中提供的data_files路径通过HuggingFace Datasets库加载,例如使用load_dataset('bug-fixing-latent-demos-trial-v3', split='train')。实验设计建议对比有无潜变量演示的修复准确率,以验证隐式表征的增益。测试集可评估模型在未见问题上的泛化性,结合test_cases字段执行单元测试,通过fixed_code_pass_rate指标量化修复效果。此外,因样本数较少,适合作为原型验证,实际应用时可基于此范式扩充数据规模。
背景与挑战
背景概述
该数据集名为bug-fixing-latent-demos-trial-v3,创建于近年来软件工程与人工智能交叉领域蓬勃发展的背景下,由致力于代码修复与自动化编程的研究团队构建。核心研究问题聚焦于利用潜在演示(latent demonstration)技术提升程序自动修复的效能,探索如何通过隐式知识引导模型从错误代码中生成正确修复。数据集包含多个编程语言(如Python等)的真实错误代码片段及其对应修复,并辅以测试用例通过率等量化指标,为评估修复模型性能提供了标准化基准。其影响力体现在推动了大语言模型在代码缺陷修复任务中的可解释性与鲁棒性研究,尤其在少样本学习和上下文学习场景下为后续工作奠定了数据基础。
当前挑战
该数据集所解决的领域核心挑战在于程序自动修复任务中错误模式的多样性与修复策略的通用性之间的张力。具体而言,现有方法常因无法捕获代码语义中的隐式依赖关系而陷入局部最优,该数据集通过设计潜在演示机制试图缓解这一问题。构建过程中面临两大挑战:一是高质量错误-修复对的规模化采集困难,需从开源仓库中筛选具有明确测试用例验证的配对数据;二是潜在演示模板的泛化能力不足,导致在小规模样本上训练的模型易受偏差影响,限制了其在不同编程语言与错误类型间的迁移性能。
常用场景
经典使用场景
该数据集聚焦于自动化程序修复领域,专为研究基于潜在演示(latent demonstration)的代码补全与缺陷修复而设计。其经典使用场景涵盖从给定的有缺陷代码片段中,通过提示(prompt)与潜在上下文中的修复演示,引导模型生成正确的修复版本。数据集中包含problem_id、buggy_code、fixed_code、prompt及latent_demonstration等特征,为探索如何利用少量示例或隐式修复模式提升大语言模型在代码修复任务上的泛化能力提供了标准化测试基准。
实际应用
在实际应用中,该数据集可服务于智能编程助手的缺陷定位与自动修复模块。例如,集成到持续集成流程中,当提交的代码未通过测试时,系统可依据数据集中的提示与潜在演示模式,自动生成修正建议或补丁,减少人工调试成本。此外,教育场景中可用于编程作业自动批改与纠错,通过比对buggy_code与fixed_code的变化模式,为学生提供个性化的修复策略指导。
衍生相关工作
该数据集衍生了多项探索潜在演示对代码修复影响的研究工作。其中,典型方向包括基于检索增强的潜在演示选择方法,以及利用对比学习改进latent_demonstration表示的模型框架。后续工作进一步将其扩展到多语言、多类型缺陷的修复场景,并尝试将数据集中的prompt结构迁移到更复杂的人机协作修复流程中,催生了诸如CodeRepair-LM等针对性改进的基准模型与评估体系。
以上内容由遇见数据集搜集并总结生成



