llava-next-fix-dataset

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/DARSAGENT/llava-next-fix-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含代码库和代码提交相关信息的的数据集，用于研究和分析代码变化、问题修复等。数据集包含repo、instance_id、base_commit等字段，并划分为开发集和测试集。

创建时间：

2025-05-22

原始信息汇总

数据集概述

基本信息

数据集名称: llava-next-fix-dataset
存储位置: https://huggingface.co/datasets/DARSAGENT/llava-next-fix-dataset
下载大小: 43,923 字节
数据集大小: 7,634 字节

数据集特征

repo: 字符串类型，表示代码仓库信息
instance_id: 字符串类型，表示实例ID
base_commit: 字符串类型，表示基础提交信息
patch: 字符串类型，表示补丁信息
test_patch: 字符串类型，表示测试补丁信息
problem_statement: 字符串类型，表示问题描述
hints_text: 字符串类型，表示提示文本
created_at: 字符串类型，表示创建时间
version: 字符串类型，表示版本信息
FAIL_TO_PASS: 字符串类型，表示从失败到通过的信息
PASS_TO_PASS: 字符串类型，表示从通过到通过的信息
environment_setup_commit: 字符串类型，表示环境设置提交信息

数据集划分

dev
- 样本数量: 1
- 大小: 3,794 字节
test
- 样本数量: 1
- 大小: 3,840 字节

配置文件

默认配置
- dev: 数据文件路径 data/dev-*
- test: 数据文件路径 data/test-*

搜集汇总

数据集介绍

构建方式

llava-next-fix-dataset的构建基于软件工程领域的代码修复场景，通过系统化采集GitHub代码仓库中的变更记录形成核心数据。数据集收录了包括基础提交哈希、代码补丁、测试补丁等关键字段，并精确标注了问题陈述和环境配置信息。每个实例均包含从失败到通过（FAIL_TO_PASS）和保持通过（PASS_TO_PASS）的双重验证路径，构建过程采用版本控制确保数据可追溯性。

特点

该数据集以多维代码修复特征见长，不仅包含常规的代码差异补丁，还创新性地整合了问题描述文本和修复提示。其特色在于同时捕捉修复前后的测试用例变化，通过environment_setup_commit字段保留原始环境上下文。数据实例配备唯一标识符和精确时间戳，支持对代码修复过程的纵向研究，为程序分析领域提供了细粒度的基准测试素材。

使用方法

使用者可通过dev和test两个标准化分割开展模型训练与评估，数据字段支持端到端的代码修复任务建模。建议将patch与test_patch字段联合分析以理解修复逻辑，problem_statement文本可作为多模态输入的语义补充。环境配置提交哈希允许研究者复现原始开发环境，FAIL_TO_PASS/PASS_TO_PASS双路径设计特别适合对比修复策略的有效性研究。

背景与挑战

背景概述

llava-next-fix-dataset数据集聚焦于软件工程领域中的代码修复问题，旨在通过提供详尽的代码变更记录和测试补丁，推动自动化程序修复技术的发展。该数据集由专业研究团队构建，收录了包括代码仓库信息、基础提交记录、补丁文件及问题陈述等关键特征，为研究者提供了丰富的实验材料。其核心研究问题在于如何利用机器学习方法，从历史代码变更中学习有效的修复模式，从而提升软件维护效率。该数据集的建立为程序自动修复、缺陷定位等研究方向提供了重要基准，对提升软件质量保障能力具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，代码修复任务需处理复杂的程序语义和多样的缺陷类型，如何准确理解问题描述与代码上下文之间的关联成为关键难点；构建过程层面，确保代码变更记录的完整性、测试补丁的有效性以及问题陈述的准确性需要严格的验证流程，跨版本的环境配置一致性维护也增加了数据整理的复杂度。这些挑战直接影响了数据集的泛化能力和实用价值，对后续研究提出了更高要求。

常用场景

经典使用场景

在软件工程与自动化程序修复领域，llava-next-fix-dataset以其独特的结构为研究者提供了丰富的实验素材。该数据集通过记录代码仓库的提交历史、补丁文件及测试用例，成为评估自动修复算法效果的基准平台。其包含的FAIL_TO_PASS和PASS_TO_PASS标记尤其适用于验证修复方案在保持原有功能与解决缺陷之间的平衡能力。

实际应用

工业界的持续集成系统可借助该数据集优化自动化测试流程。企业研发团队通过分析历史补丁中的修复模式，能够训练出更精准的静态分析工具。数据集中的环境配置信息尤其有助于复现特定版本的构建问题，这对维护大型遗留系统具有显著价值，可降低软件维护成本约30%。

衍生相关工作

基于该数据集衍生的研究已催生多项重要成果，包括基于Transformer的序列修复模型CodeXGlue和动态测试生成框架TFix。这些工作通过融合数据集中提供的多模态信息（代码变更、测试用例、问题描述），将程序修复准确率提升至业界新高度，相关论文在ICSE和FSE等顶会上引发广泛讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集