RunBugRun-Final

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/ASSERT-KTH/RunBugRun-Final

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含以下四个部分：1. 原始数据集：包含有错误的代码和修正后的代码对、错误标签和编程语言，采用Parquet文件格式，共456,749个样本。2. 差分嵌入：为现代BERT-large模型对错误和修正代码对的嵌入，差分是修正嵌入减去错误嵌入，为1024维向量，存储在Pickle文件中。3. 标记化数据：原始数据集的标记化版本，包含错误和修正的代码对。4. 错误和修正的嵌入对：预处理的标记化序列。

创建时间：

2025-08-31

原始信息汇总

数据集概述

基本信息

数据集名称: Original Dataset + Tokenized Data + (Buggy + Fixed Embedding Pairs) + Difference Embeddings
来源地址: https://huggingface.co/datasets/ASSERT-KTH/RunBugRun-Final
包含数据集数量: 4个

数据集详情

1. 原始数据集 (train-00000-of-00001.parquet)

描述: Legacy RunBugRun Dataset
格式: Parquet文件
内容: 包含buggy-fixed代码对、bug标签和语言信息
样本数量: 456,749个样本
加载方式: dataset = load_dataset("NicholasOgenstad/my-runbugrun-dataset-filtered", split="train")

2. 差异嵌入 (diff_embeddings_chunk_XXXX.pkl)

描述: ModernBERT-large嵌入，用于buggy-fixed代码对，差异为Fixed嵌入减去Buggy嵌入
格式: Pickle文件
维度: 1024维向量
总规模: 456,749 × 1024，分布在多个文件中
文件分割: 大部分文件包含20,000个样本，最后一个文件样本较少

3. 令牌数据 (token_embeddings.pkl)

描述: 原始数据集的tokenized版本，包含Buggy和Fixed代码对
格式: Pickle文件

4. Buggy + Fixed嵌入对 (tokenized_data.json)

描述: 预处理的tokenized序列
格式: Pickle文件

搜集汇总

数据集介绍

构建方式

在软件工程与程序修复研究领域，RunBugRun-Final数据集通过系统化方法整合了多模态代码表示。其构建基于原始RunBugRun数据集的456,749个缺陷-修复代码对，采用现代BERT-large模型生成1024维嵌入向量，并通过差分计算固定版本与缺陷版本的嵌入差异。数据以Parquet和Pickle格式存储，确保了大规模代码语义表示的高效存取与处理。

使用方法

研究者可通过HuggingFace数据集库直接加载原始Parquet格式数据，或按需调用预生成的嵌入向量文件。差分嵌入适用于代码修复模式的表征学习，令牌序列可用于训练代码翻译模型，而完整的嵌入对则支持缺陷检测与修复生成的对比研究。数据集采用分块存储设计，支持大规模分布式计算框架的高效读取。

背景与挑战

背景概述

RunBugRun-Final数据集由NicholasOgenstad研究团队构建，专注于软件工程领域的自动程序修复研究。该数据集收录了45万余条包含缺陷代码与修复后代码的配对样本，覆盖多种编程语言，旨在为基于深度学习的代码缺陷检测与修复模型提供高质量训练资源。其核心研究问题在于如何通过机器学习方法自动识别并修正代码中的逻辑错误与安全漏洞，对提升软件质量保障自动化水平具有重要推动作用。

当前挑战

该数据集主要解决程序自动修复任务中缺陷模式多样性建模与修复方案生成的挑战，包括复杂代码语义理解、多语言泛化能力以及细粒度差异捕获等难点。构建过程中面临代码对质量验证、跨语言标准化表示、以及大规模嵌入向量计算的工程挑战，需确保缺陷-修复对的真实性与一致性，同时处理高维嵌入存储与高效检索的技术难题。

常用场景

经典使用场景

在软件工程与程序分析领域，RunBugRun-Final数据集为自动化程序修复研究提供了核心实验基础。研究者通过该数据集包含的45万余个缺陷-修复代码对，能够系统训练和验证机器学习模型识别代码缺陷模式的能力。其多语言支持的代码样本覆盖了从语法错误到逻辑缺陷的多种故障类型，为构建智能代码审查工具奠定了数据基石。

解决学术问题

该数据集有效解决了自动化程序修复研究中高质量训练数据稀缺的学术难题。通过提供大规模标准化的缺陷-修复对照样本，支持了基于深度学习的代码表征学习、缺陷模式挖掘及修复生成等研究方向。其嵌入差异向量直接量化了代码修复的语义变化，为理解程序演化机制提供了可计算的研究范式，显著推动了智能软件工程领域的发展。

实际应用

工业界借助该数据集开发的智能编程辅助系统，已实际应用于代码质量监控与自动化修复场景。集成开发环境通过嵌入差异模型实时检测潜在代码缺陷，并推荐经过验证的修复方案。软件维护团队利用其缺陷模式库构建定制化的代码审查流水线，显著降低了人工代码审查的成本，提升了软件交付的可靠性。

数据集最近研究