five

FeatBench_v1.0-Verified2

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/PGCodeLLM/FeatBench_v1.0-Verified2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与代码仓库和补丁相关的信息,旨在支持代码修复和测试生成等任务。数据集结构包括仓库信息(如repo、org)、问题描述(problem_statement)、提示文本(hints_text)、提交基础(base_commit)以及补丁文件(patch_files)和测试补丁文件(test_patch_files)的详细记录。补丁文件包含添加、更改、删除的行数、文件名、补丁内容和状态等信息。数据集提供了一个测试集,包含131个样本,总大小为22048779字节。适用于代码自动修复、测试用例生成和代码变更分析等应用场景。
创建时间:
2026-03-24
原始信息汇总

FeatBench_v1.0-Verified2 数据集概述

数据集基本信息

  • 数据集名称: FeatBench_v1.0-Verified2
  • 发布者/组织: PGCodeLLM
  • 数据集地址: https://huggingface.co/datasets/PGCodeLLM/FeatBench_v1.0-Verified2
  • 版本: 1.0-Verified2
  • 默认配置: default

数据集内容与结构

  • 数据量: 包含 131 个样本。
  • 数据划分: 仅包含一个“test”划分。
  • 数据大小:
    • 下载大小: 21,253,553 字节
    • 数据集大小: 22,048,779 字节

数据特征(字段说明)

数据集包含以下主要字段:

  1. 仓库与标识信息

    • repo: 仓库名称(字符串类型)
    • instance_id: 实例标识符(字符串类型)
    • base_commit: 基础提交哈希(字符串类型)
    • org: 组织名称(字符串类型)
    • number: 编号(整数类型)
  2. 问题与描述信息

    • problem_statement: 问题描述(字符串类型)
    • hints_text: 提示文本(字符串类型)
  3. 元数据信息

    • created_at: 创建时间(字符串类型)
    • version: 版本信息(字符串类型)
    • processed: 处理状态(布尔类型)
  4. 测试与补丁文件信息

    • test_files: 测试文件列表(字符串列表)
    • FAIL_TO_PASS: 从失败到通过的测试列表(字符串列表)
    • PASS_TO_PASS: 保持通过的测试列表(字符串列表)
    • patch: 补丁内容(字符串类型)
    • test_patch: 测试补丁内容(字符串类型)
  5. 结构化补丁信息

    • patch_files: 补丁文件列表,每个元素包含以下字段:
      • additions: 添加行数(整数类型)
      • changes: 修改行数(整数类型)
      • deletions: 删除行数(整数类型)
      • filename: 文件名(字符串类型)
      • patch: 补丁内容(字符串类型)
      • status: 状态(字符串类型)
    • test_patch_files: 测试补丁文件列表,结构与 patch_files 相同。

数据获取

  • 数据文件路径: 在默认配置下,可通过 data/test-* 路径模式访问“test”划分的数据文件。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作