five

jiayuanz3/SWEContextBench

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/jiayuanz3/SWEContextBench
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-ContextBench是一个用于评估编程代理(如AI编码系统)在解决新任务时如何有效重用过去经验的基准数据集。它基于多个现有数据集构建,包含1,100个基础任务和376个相关任务,这些任务来自GitHub问题和拉取请求的真实依赖和引用关系。数据集覆盖51个真实GitHub仓库和9种编程语言,旨在研究代理在相似情境下如何有效转移知识。数据集结构包括多个parquet文件,分别存储基础任务、相关任务及其关系。评估方法包括预构建的Docker镜像和公开的评估代码,以支持快速和标准化的评估。数据实例部分详细描述了每个文件的字段和格式。

SWE-ContextBench is a benchmark created to evaluate how well programming agents, such as AI coding systems, can reuse past experience when solving new tasks. It is built on top of existing datasets including SWE-Bench Lite, SWE-Bench Multilingual, and SWE-Bench Verified. The dataset contains 1,100 base tasks along with 376 related tasks that are derived from real dependency and reference relationships among GitHub issues and pull requests. These tasks are organized in a way that groups together problems with shared context, enabling the study of how effectively an agent can transfer knowledge across similar situations. The dataset spans 51 real-world GitHub repositories and covers 9 different programming languages. The dataset structure includes multiple parquet files for base tasks, related tasks, and their relationships. Evaluation methods include pre-built Docker images and publicly available evaluation code to support quick and standardized assessment. The data instances section details the fields and formats of each file.
提供机构:
jiayuanz3
搜集汇总
数据集介绍
main_image_url
构建方式
SWEContextBench的构建根植于现有高质量基准测试,如SWE-Bench Lite、SWE-Bench Multilingual及SWE-Bench Verified。研究团队从这些数据集中遴选出1,100项基础任务,并基于真实GitHub问题与拉取请求间的依赖及引用关系,衍生出376项关联任务。所有任务被精心组织,将共享上下文的问题归并为簇,以此构建一个能够评估编程代理跨情境知识迁移效能的实验框架。
特点
该数据集跨越51个真实世界GitHub仓库,覆盖9种编程语言,展现了卓越的多样性与生态代表性。其核心特色在于内置的层级任务结构:基础任务构成经验池,而关联任务则要求代理从该池中检索并复用先验知识。这种设计不仅模拟了实际开发中的连续学习场景,还通过预定义的关系文件(SWEContextBench_Relationship.parquet)明确链接了任务间的依赖脉络,为度量上下文学习能力提供了量化基准。
使用方法
使用者可通过加载SWEContextBench_Experience.parquet与SWEContextBench_Related.parquet开展实验,并遵循SWE-Bench系列的标准数据格式。为加速研究迭代,项目提供了精简版数据集(Lite版本)及预构建的Docker镜像,以简化环境配置与结果复现。评估代码已开源在GitHub上,研究人员能够直接利用这些工具,基于关系文件构建经验检索策略,系统性地测试不同编程代理在上下文学习场景下的表现。
背景与挑战
背景概述
随着大型语言模型驱动的编程智能体在代码生成与缺陷修复中展现出卓越能力,如何使这些智能体有效复用过往经验以应对新问题,成为软件工程自动化领域的前沿挑战。SWEContextBench由研究团队于2024年提出,构建于SWE-Bench等经典基准之上,旨在系统评估编程智能体的上下文学习能力。该数据集包含1,100个基础任务与376个关联任务,覆盖51个真实世界GitHub仓库及9种编程语言,通过深度挖掘GitHub议题与拉取请求间的依赖与引用关系,构建了具有共享上下文的情境任务组。该基准的提出,为度量智能体在相似情境中迁移知识的能力提供了标准化评测平台,对推动编程智能体的持续学习与自适应优化具有重要学术影响力。
当前挑战
SWEContextBench所应对的核心领域挑战在于,现有编程智能体在面对新任务时,往往仅依赖预训练知识的泛化能力,而缺乏对过往解决经验的主动挖掘与结构化复用,导致在复杂仓库环境中解决相似问题的效率低下与成本高昂。在构建过程中,研究团队面临多源异构数据整合的难题:需从海量GitHub议题与拉取请求中精准识别真实存在的依赖与引用关系,并排除噪声干扰;同时,为保证评估的公平性与可复现性,所有任务必须经过严格验证,确保基础任务与关联任务间存在可操作的上下文联系,这一过程涉及大量的人工核查与自动化脚本联调,具有显著的工程挑战。
常用场景
经典使用场景
SWE-ContextBench最经典的使用场景在于评估与推动编程智能体在代码生成与修复任务中的经验复用能力。基于SWE-Bench等现有基准,该数据集通过构建1,100个基础任务与376个衍生关联任务,精准刻画了真实GitHub仓库中问题与拉取请求间的依赖关系。研究者可借此系统性地检验AI编码系统在面对相似编程问题时,是否能够高效借鉴过往经验以提升解决方案的准确性与效率,从而为上下文学习在编码领域的研究提供标准化评估平台。
实际应用
在实际应用中,SWE-ContextBench可辅助开发团队优化代码助手的设计,使其在修复漏洞或添加功能时主动调用先前的成功修复模式,从而减少重复劳动。例如,在大型软件仓库的持续集成流程中,智能体可借助该基准构建的经验池迅速定位相关历史方案,显著缩短故障修复周期。此外,该数据集支持多语言环境,能适应不同技术栈的工业场景,为提升自动化编程工具的实用性与鲁棒性铺平道路。
衍生相关工作
围绕SWE-ContextBench衍生出了一系列经典工作,包括对经验检索策略的改进研究,如基于语义相似度的历史任务匹配算法,以及针对上下文组织方式的优化,如动态摘要生成与记忆压缩技术。这些工作进一步催生了面向持续学习的编程智能体架构,将任务解决与知识累积紧密耦合。同时,该基准推动了SWE-Bench系列的发展,为后续构建更复杂、更贴近真实开发流程的评估体系奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作