FeatBench_v1.0

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/PGCodeLLM/FeatBench_v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码仓库相关的详细信息，旨在支持代码修复和测试生成等任务。数据集包含156个测试样本，总大小约为25.3MB。主要特征包括：仓库信息(repo)、实例ID(instance_id)、基础提交(base_commit)、问题描述(problem_statement)、提示文本(hints_text)、创建时间(created_at)、版本(version)、组织(org)、编号(number)、测试文件(test_files)、处理状态(processed)等。特别值得注意的是，数据集包含两种类型的补丁文件：FAIL_TO_PASS和PASS_TO_PASS，每种补丁文件都详细记录了添加(additions)、变更(changes)、删除(deletions)、文件名(filename)、补丁内容(patch)和状态(status)等信息。此外，还包含主补丁(patch)和测试补丁(test_patch)字段。数据集适用于代码自动修复、测试用例生成和代码变更分析等研究领域。

创建时间：

2026-02-28

原始信息汇总

FeatBench_v1.0 数据集概述

数据集基本信息

数据集名称：FeatBench_v1.0
发布者/组织：PGCodeLLM
数据量：测试集包含 156 个样本
存储大小：下载大小约为 24.4 MB，数据集大小约为 25.3 MB
默认配置：仅包含一个“test”拆分
数据文件路径：data/test-*

数据结构与特征

数据集包含以下字段：

代码仓库与问题标识

repo：仓库名称（字符串类型）
instance_id：实例标识符（字符串类型）
base_commit：基础提交哈希（字符串类型）
org：组织名称（字符串类型）
number：编号（整数类型）

问题描述与元数据

problem_statement：问题陈述（字符串类型）
hints_text：提示文本（字符串类型）
created_at：创建时间（字符串类型）
version：版本（字符串类型）
processed：是否已处理（布尔类型）

测试文件

test_files：测试文件列表（字符串列表）

代码补丁与测试补丁

FAIL_TO_PASS：失败到通过的测试列表（字符串列表）
PASS_TO_PASS：通过到通过的测试列表（字符串列表）
patch：补丁内容（字符串类型）
test_patch：测试补丁内容（字符串类型）

结构化补丁信息

patch_files：补丁文件列表，每个元素包含：
- additions：添加行数（整数类型）
- changes：修改行数（整数类型）
- deletions：删除行数（整数类型）
- filename：文件名（字符串类型）
- patch：补丁内容（字符串类型）
- status：状态（字符串类型）
test_patch_files：测试补丁文件列表，结构与patch_files相同

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化程序修复研究亟需高质量的基准数据集。FeatBench_v1.0的构建过程体现了严谨的实证方法，其核心数据来源于开源软件仓库的真实提交历史。研究者通过筛选GitHub上包含特定测试用例修改的拉取请求，精心提取了那些将失败测试转变为通过测试的代码补丁，即“FAIL_TO_PASS”实例，同时也保留了保持测试通过的“PASS_TO_PASS”实例作为对照。每个数据点都关联了完整的仓库上下文、问题陈述、提示文本以及具体的补丁文件，确保了数据来源的真实性与可追溯性。

使用方法

对于旨在推进自动化程序修复，特别是功能导向修复的研究者而言，FeatBench_v1.0提供了一个标准化的评估平台。数据集通常用于训练和测试机器学习模型，以生成能够通过新增测试的代码补丁。在使用时，研究者可以加载‘test’分割中的数据，利用‘problem_statement’和‘hints_text’作为模型输入，以生成的补丁能否通过‘FAIL_TO_PASS’中的测试用例作为核心评估标准。通过对比‘patch’与‘test_patch’，能够深入分析模型生成的修复方案与预期功能需求之间的吻合度。

背景与挑战

背景概述

FeatBench_v1.0数据集聚焦于软件工程领域的自动化代码修复与功能增强任务，由相关研究机构于近期构建，旨在评估和推动代码生成与补丁应用模型的发展。该数据集通过整合真实世界开源仓库的提交记录，提供了从问题描述到具体代码补丁的完整实例，核心研究问题在于如何准确理解自然语言需求并生成符合功能规范的代码变更。其构建不仅促进了智能编程助手技术的进步，也为软件维护和质量保障提供了数据驱动的评估基准，对提升开发效率与代码可靠性具有显著影响力。

当前挑战

该数据集所针对的领域挑战在于自动化代码修复中语义理解的精确性与补丁生成的可靠性，要求模型能够准确解析问题陈述并产生可通过测试的代码变更，同时避免引入新的错误或性能退化。在构建过程中，挑战主要源于数据收集与处理的复杂性，包括从多样化开源项目中提取高质量、可复现的提交实例，确保补丁与测试用例的对应关系完整，以及处理代码变更的细粒度差异，这些因素共同增加了数据集构建的难度与技术要求。

常用场景

经典使用场景

在软件工程与代码生成领域，FeatBench_v1.0数据集为评估自动化程序修复与功能增强模型提供了基准平台。该数据集聚焦于GitHub仓库中的真实代码变更场景，通过包含问题陈述、补丁文件及测试用例，支持研究者对模型在修复缺陷或添加新功能时的性能进行系统化测试。其经典使用场景涉及训练与验证机器学习模型，特别是针对代码补丁生成、测试通过率提升等任务，为自动化软件维护提供了数据支撑。

解决学术问题

FeatBench_v1.0旨在解决程序自动修复与代码生成研究中缺乏大规模、高质量真实世界数据的问题。该数据集通过整合多仓库的代码变更历史与测试用例，为学术研究提供了可重复评估的基准，助力探索模型在复杂代码语境下的泛化能力与鲁棒性。其意义在于推动了软件工程与人工智能的交叉领域发展，为自动化代码优化、缺陷定位等核心问题提供了实证基础，促进了相关方法的标准化与比较。

实际应用

在实际软件开发流程中，FeatBench_v1.0数据集可应用于构建智能编程辅助工具，如自动化代码审查系统或集成开发环境中的实时补丁推荐引擎。通过利用数据集中的历史补丁与测试信息，工具能够学习常见代码模式与修复策略，辅助开发者快速定位并修正错误，提升软件质量与开发效率。此外，该数据集还可用于企业级代码库的维护自动化，减少人工调试成本，推动持续集成与部署流程的智能化演进。

数据集最近研究