five

princeton-nlp/SWE-bench_Lite

收藏
Hugging Face2024-06-27 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/SWE-bench_Lite
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-bench Lite是SWE-bench的一个子集,用于测试系统自动解决GitHub问题的能力。该数据集收集了来自11个流行Python项目的300个测试问题-拉取请求对。评估是通过单元测试验证进行的,使用拉取请求后的行为作为参考解决方案。数据集包含问题陈述、基础提交等信息,支持的任务是提供完整仓库和GitHub问题的问题解决。数据集的主要语言是英语。

SWE-bench Lite is a subset of SWE-bench, a dataset that tests systems’ ability to solve GitHub issues automatically. The dataset collects 300 test Issue-Pull Request pairs from 11 popular Python projects. Evaluation is performed by unit test verification using post-PR behavior as the reference solution. The dataset includes problem statements, base commits, and other information, supporting the task of issue resolution provided a full repository and GitHub issue. The primary language of the dataset is English.
提供机构:
princeton-nlp
原始信息汇总

数据集概述

数据集名称

SWE-bench Lite

数据集来源

SWE-bench Lite 是 SWE-bench 数据集的一个子集。

数据集目的

测试系统自动解决 GitHub 问题的能力。

数据集内容

收集了来自 11 个流行 Python 项目的 300 对 Issue-Pull Request 测试数据。

评估方法

使用单元测试验证,以 PR 后的行为作为参考解决方案进行评估。

搜集汇总
数据集介绍
main_image_url
构建方式
SWE-bench Lite数据集的构建,旨在评估系统自动解决GitHub问题的能力。该数据集从11个流行的Python项目中搜集了300个测试用例,即Issue-Pull Request对,通过单元测试验证,以PR之后的代码行为作为参考解决方案。
使用方法
使用SWE-bench Lite数据集时,用户可利用其中的问题陈述和基础提交信息来运行推理。若需使用论文中提到的“Oracle”或BM25检索设置进行推理,则需要考虑使用附加的数据集。该数据集支持的任务和排行榜可在www.swebench.com查询,方便用户跟踪模型性能。
背景与挑战
背景概述
SWE-bench_Lite数据集,作为SWE-bench的子集,由普林斯顿大学的自然语言处理团队开发,旨在评估系统自动解决GitHub问题的能力。该数据集汇聚了11个流行的Python项目的300个测试问题与拉取请求对,通过单元测试验证,以提交后的拉取请求行为作为参考解决方案。该数据集的发布伴随着研究论文'SWE-bench: Can Language Models Resolve Real-World GitHub Issues?',为自然语言处理领域在代码理解与生成方面的研究提供了重要的实验基础。
当前挑战
SWE-bench_Lite数据集面临的挑战主要涉及两个方面:一是如何精确地评估模型在解决真实世界GitHub问题上的性能,这要求数据集提供的问题描述和基础代码状态具有足够的复杂性和多样性;二是数据集构建过程中的挑战,包括从GitHub收集和清洗大量的Issue-Pull Request对,确保数据的质量和一致性,同时还要考虑如何合理地设计评估指标和测试环境,以公正地反映模型的解决能力。
常用场景
经典使用场景
在计算机科学领域,尤其是软件开发与维护过程中,SWE-bench_Lite数据集被广泛用于评估系统自动解决GitHub问题的能力。其经典使用场景在于,通过提供问题陈述和基础提交信息,研究人员和开发者可以训练模型以生成解决实际编程问题的补丁。
解决学术问题
该数据集解决了自动化代码修复和GitHub问题自动解析的学术难题,为评估语言模型在解决真实世界编程问题方面的性能提供了一个标准框架,有助于推动软件工程和人工智能领域的融合研究。
实际应用
实际应用中,SWE-bench_Lite数据集可用于指导开发自动化的代码审查工具,优化代码修复流程,减少开发者的工作负担,提高软件开发效率。
数据集最近研究
最新研究方向
在软件工程领域,princeton-nlp/SWE-bench_Lite数据集的近期研究聚焦于评估系统自动解决GitHub问题的能力。该数据集作为SWE-bench的子集,精选了11个流行Python项目的300个测试性问题与拉取请求对。研究通过单元测试验证,以拉取请求后的行为作为参考解决方案,探索了语言模型在解决实际GitHub问题上的应用。其研究成果揭示了模型在代码理解和问题解决方面的潜力,为软件维护和自动化提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作