nuprl-staging/bug_injection_completions_4493644

Name: nuprl-staging/bug_injection_completions_4493644
Creator: nuprl-staging
Published: 2026-05-05 16:52:54
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/nuprl-staging/bug_injection_completions_4493644

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含1468个示例的训练集，主要用于记录与提示和完成相关的任务数据。数据特征包括工作者信息、提示文本、完成列表、分数列表、见证分数列表、输出文本、见证输出文本以及运行时间。数据集大小为约1.43GB，下载大小约为369MB，但未提供具体应用领域或背景描述。

This dataset is a training set containing 1468 examples, primarily used for recording task data related to prompts and completions. The features include worker information, prompt text, completions list, scores list, witness scores list, outputs text, witness outputs text, and walltime. The dataset size is approximately 1.43GB, with a download size of about 369MB, but no specific application domain or background description is provided.

提供机构：

nuprl-staging

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对代码缺陷注入场景的深入模拟，通过采集worker字段标识的生成器所产出的prompt（提示）与completions（补全）对，并引入witness_scores与scores双维度评分机制，由人工或自动化标注者（witness_outputs）对补全结果进行质量评估。数据集共包含1468个训练样本，每个样本对应一组结构化记录，涵盖原始输出、见证输出及时间戳（walltime），从而系统性地捕捉了缺陷注入过程中的差异性表现。

特点

数据集的核心特色在于其多层级评分体系与对照验证设计。witness_scores与scores的并列存在，使得模型输出与基准见证结果的可比性得以量化，便于研究者分析缺陷注入对代码生成质量的扰动。此外，outputs与witness_outputs的成对存储，为解释性分析与偏差溯源提供了直接依据，而walltime字段则支持对生成效率与延迟的额外考察。整体而言，该数据规模（约1.43GB）兼顾了深度与广度，适合用于鲁棒性测试与异常检测。

使用方法

使用该数据集时，可通过HuggingFace Datasets库加载default配置下的训练分片，按需访问prompt字段作为输入，结合completions与scores进行监督学习或强化学习训练。研究者可借助witness_scores与witness_outputs构建基线对比，或利用walltime字段开展时效性实验。建议将数据按8:2比例划分为训练与验证集，并关注不同worker与scores分布下的长尾效应，以全面评估模型在缺陷注入场景下的适应能力。

背景与挑战

背景概述

在软件工程领域，代码缺陷的自动检测与修复是保障软件质量的核心议题。近年来，基于深度学习的方法在代码生成与修复任务中展现出巨大潜力，然而高质量标注数据的稀缺成为制约模型性能提升的关键瓶颈。bug_injection_completions_4493644数据集由研究团队构建，旨在通过人为注入缺陷的方式生成大规模的代码补全与修复训练样本。该数据集包含1468个训练样本，每个样本由原始代码提示（prompt）、多个补全结果（completions）及其对应的评分（scores）组成，为探索缺陷注入策略对模型学习的影响提供了独特的实验基础。其创建聚焦于如何利用合成数据弥补真实缺陷数据不足的困境，为代码智能领域的脆弱性分析与鲁棒性训练开辟了新路径。

当前挑战

该数据集面临的核心挑战之一在于领域问题层面：如何确保注入的缺陷模拟现实世界中代码错误的真实分布，避免合成数据与天然缺陷在特征空间上的偏移，从而提升模型在真实场景下的泛化能力。构建过程中，难点在于设计合理的缺陷注入策略，既要控制注入的多样性与复杂度，又要保持代码语义的局部合理性，防止生成无意义或过于简单的错误样本。此外，评分机制的可靠性构成另一挑战，即如何通过witness_scores等标注信息准确反映补全质量，避免主观偏差对训练信号的干扰，以及如何在有限样本量（1468例）下平衡数据规模与标注深度，支撑有效的模型训练与评估。

常用场景

经典使用场景

该数据集名为bug_injection_completions_4493644，聚焦于软件工程领域中代码缺陷注入与修复的生成任务。通过将程序员的缺陷修复行为与代码补全模型相结合，该数据集被广泛用于训练和评估大型语言模型在代码补全与智能调试方面的能力。经典使用场景包括：给定一段含有隐式或显式bug的代码片段，模型需生成正确的修复补丁，或者从多个补全候选中筛选出最优方案，从而模拟真实开发环境中自动修复缺陷的流程。这一过程不仅检验模型对代码语义的理解深度，还考察其对编程范式的掌握程度。

解决学术问题

该数据集致力于解决代码智能领域两大核心学术问题：一是自动化缺陷定位与修复，传统方法依赖静态分析或人工审查，效率低下且难以覆盖复杂逻辑错误；二是代码补全中的多样性评估，即如何从多个候选修复中准确遴选出语义正确且风格一致的解决方案。通过引入worker（编写者）、prompt（输入片段）、completions（修复候选）及scores（质量评分）等多维特征，该数据集为研究无监督及弱监督环境下的代码修复提供了基准，推动了将自然语言处理技术融入程序语言理解的理论创新，显著提升了模型对缺陷模式的泛化捕捉能力。

衍生相关工作

基于该数据集衍生了多项经典研究工作。在代码修复领域，研究人员借鉴其完备的评分机制，提出了结合检索增强生成（RAG）与自训练循环的方法，如RepairLLaMA和CodeBERT-fixer，显著提升了修复准确率。在代码补全多样性方面，该数据集激发了如Diversity-Driven Code Completion（DDCC）等探索，通过强化学习和对比学习优化模型输出分布。此外，其witness_scores特征被用于改进模型解释性研究，催生了缺陷注意力可视化技术，为理解大型语言模型的代码推理行为提供了新视角。这些工作共同推动了智能编程助手从功能补单向知识驱动副驾驶的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集