swe_bench_lite_PI

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/eaalghamdi/swe_bench_lite_PI

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码补丁相关的多个字段信息，如补丁的描述、基础提交哈希、测试补丁内容等，适用于研究代码补丁生成和评估。测试集包含300个示例。

创建时间：

2025-07-08

原始信息汇总

数据集概述

基本信息

数据集名称: swe_bench_lite_PI
存储位置: https://huggingface.co/datasets/eaalghamdi/swe_bench_lite_PI
下载大小: 1124438字节
数据集大小: 3654709字节

数据集结构

特征:
- repo: 字符串类型，表示代码仓库
- instance_id: 字符串类型，表示实例ID
- base_commit: 字符串类型，表示基础提交
- patch: 字符串类型，表示补丁
- test_patch: 字符串类型，表示测试补丁
- problem_statement: 字符串类型，表示问题描述
- hints_text: 字符串类型，表示提示文本
- created_at: 字符串类型，表示创建时间
- version: 字符串类型，表示版本
- FAIL_TO_PASS: 字符串类型，表示从失败到通过的测试
- PASS_TO_PASS: 字符串类型，表示从通过到通过的测试
- environment_setup_commit: 字符串类型，表示环境设置提交

数据划分

测试集:
- 样本数量: 300
- 字节大小: 3654709字节
- 数据文件路径: data/test-*

配置信息

默认配置:
- 数据文件:
  - 划分: 测试集
  - 路径: data/test-*

搜集汇总

数据集介绍

构建方式

在软件工程领域，swe_bench_lite_PI数据集通过系统化采集GitHub仓库的代码变更记录构建而成。该数据集精选300个具有代表性的软件问题实例，每个实例均包含基础提交哈希、问题描述、补丁文件及测试用例等关键元素。构建过程中严格记录环境配置提交版本，确保问题重现的准确性，并通过FAIL_TO_PASS和PASS_TO_PASS字段标记测试状态转换，为软件缺陷修复研究提供结构化数据支持。

特点

该数据集最显著的特点是包含完整的软件问题解决生命周期数据，从问题陈述到修复补丁一应俱全。其多维度特征设计涵盖仓库信息、问题描述文本、版本控制提交记录以及测试用例补丁，特别设置的hints_text字段为研究者提供辅助解题线索。所有实例均经过严格筛选，保证数据质量的同时维持了适中的规模，便于进行高效的实验分析。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，默认配置包含300个测试实例。使用时应重点关注problem_statement与patch字段的对应关系，结合test_patch验证修复效果。环境设置需参照environment_setup_commit还原原始上下文，FAIL_TO_PASS字段特别适用于评估自动程序修复系统的有效性，而hints_text可作为辅助信息提升模型性能。

背景与挑战

背景概述

swe_bench_lite_PI数据集聚焦于软件工程领域中的自动化程序修复问题，由专业研究团队构建，旨在为开发者提供高效的代码错误修复解决方案。该数据集收录了多个代码仓库的实例，包含基础提交、补丁、测试补丁及问题描述等关键信息，为研究程序自动修复算法提供了丰富的实验材料。其核心研究问题在于如何通过机器学习模型准确识别代码缺陷并生成有效修复方案，对提升软件开发效率和质量具有重要价值。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是程序修复问题的复杂性，涉及多语言支持、上下文理解及逻辑推理，要求模型具备高度的语义理解和代码生成能力；二是数据构建过程中的技术难题，如确保补丁的准确性、测试用例的覆盖率以及版本控制的稳定性，这些因素直接影响数据集的可靠性和实用性。

常用场景

经典使用场景

在软件工程领域，swe_bench_lite_PI数据集为研究代码修复和自动化测试提供了重要支持。该数据集通过记录代码库中的提交记录、补丁文件和问题描述，为研究者构建了一个真实的代码修复场景。经典使用场景包括自动化代码修复算法的评估、测试用例生成技术的验证，以及代码变更影响分析的实验平台。数据集中的FAIL_TO_PASS和PASS_TO_PASS字段特别有助于研究代码修复的有效性和稳定性。

衍生相关工作

基于swe_bench_lite_PI数据集，研究者已经开展了多项重要工作。其中包括基于深度学习的代码修复模型、测试用例优先级排序算法，以及代码变更影响预测系统。该数据集也被用于评估大语言模型在代码生成和修复任务中的表现，推动了智能编程助手技术的发展。部分研究还利用该数据集构建了代码缺陷的模式库，为软件质量分析提供了新的视角。

数据集最近研究