princeton-nlp/SWE-bench_Lite

Name: princeton-nlp/SWE-bench_Lite
Creator: princeton-nlp
Published: 2024-06-27 19:20:44
License: 暂无描述

Hugging Face2024-06-27 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/princeton-nlp/SWE-bench_Lite

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-bench Lite是SWE-bench的一个子集，用于测试系统自动解决GitHub问题的能力。该数据集收集了来自11个流行Python项目的300个测试问题-拉取请求对。评估是通过单元测试验证进行的，使用拉取请求后的行为作为参考解决方案。数据集包含问题陈述、基础提交等信息，支持的任务是提供完整仓库和GitHub问题的问题解决。数据集的主要语言是英语。

SWE-bench Lite is a subset of SWE-bench, a dataset that tests systems’ ability to solve GitHub issues automatically. The dataset collects 300 test Issue-Pull Request pairs from 11 popular Python projects. Evaluation is performed by unit test verification using post-PR behavior as the reference solution. The dataset includes problem statements, base commits, and other information, supporting the task of issue resolution provided a full repository and GitHub issue. The primary language of the dataset is English.

提供机构：

princeton-nlp

原始信息汇总

数据集概述

数据集名称

SWE-bench Lite

数据集来源

SWE-bench Lite 是 SWE-bench 数据集的一个子集。

数据集目的

测试系统自动解决 GitHub 问题的能力。

数据集内容

收集了来自 11 个流行 Python 项目的 300 对 Issue-Pull Request 测试数据。

评估方法

使用单元测试验证，以 PR 后的行为作为参考解决方案进行评估。

搜集汇总

数据集介绍

构建方式

SWE-bench Lite数据集的构建，旨在评估系统自动解决GitHub问题的能力。该数据集从11个流行的Python项目中搜集了300个测试用例，即Issue-Pull Request对，通过单元测试验证，以PR之后的代码行为作为参考解决方案。

使用方法

使用SWE-bench Lite数据集时，用户可利用其中的问题陈述和基础提交信息来运行推理。若需使用论文中提到的“Oracle”或BM25检索设置进行推理，则需要考虑使用附加的数据集。该数据集支持的任务和排行榜可在www.swebench.com查询，方便用户跟踪模型性能。

背景与挑战

背景概述

SWE-bench_Lite数据集，作为SWE-bench的子集，由普林斯顿大学的自然语言处理团队开发，旨在评估系统自动解决GitHub问题的能力。该数据集汇聚了11个流行的Python项目的300个测试问题与拉取请求对，通过单元测试验证，以提交后的拉取请求行为作为参考解决方案。该数据集的发布伴随着研究论文'SWE-bench: Can Language Models Resolve Real-World GitHub Issues?'，为自然语言处理领域在代码理解与生成方面的研究提供了重要的实验基础。

当前挑战

SWE-bench_Lite数据集面临的挑战主要涉及两个方面：一是如何精确地评估模型在解决真实世界GitHub问题上的性能，这要求数据集提供的问题描述和基础代码状态具有足够的复杂性和多样性；二是数据集构建过程中的挑战，包括从GitHub收集和清洗大量的Issue-Pull Request对，确保数据的质量和一致性，同时还要考虑如何合理地设计评估指标和测试环境，以公正地反映模型的解决能力。

常用场景

经典使用场景

在计算机科学领域，尤其是软件开发与维护过程中，SWE-bench_Lite数据集被广泛用于评估系统自动解决GitHub问题的能力。其经典使用场景在于，通过提供问题陈述和基础提交信息，研究人员和开发者可以训练模型以生成解决实际编程问题的补丁。

解决学术问题

该数据集解决了自动化代码修复和GitHub问题自动解析的学术难题，为评估语言模型在解决真实世界编程问题方面的性能提供了一个标准框架，有助于推动软件工程和人工智能领域的融合研究。

实际应用

实际应用中，SWE-bench_Lite数据集可用于指导开发自动化的代码审查工具，优化代码修复流程，减少开发者的工作负担，提高软件开发效率。

数据集最近研究