BeyondSWE
收藏github2026-02-24 更新2026-02-26 收录
下载链接:
https://github.com/AweAI-Team/BeyondSWE
下载链接
链接失效反馈官方服务:
资源简介:
BeyondSWE是一个综合基准测试,评估代码代理在两个关键维度上的表现:解决范围(局部→全局)和知识范围(仓库内→跨仓库/领域/网络)。它包含500个真实世界的实例,跨越246个GitHub仓库,覆盖四种不同的任务设置。
BeyondSWE is a comprehensive benchmark that evaluates the performance of code agents across two core dimensions: problem-solving scope (local → global) and knowledge scope (within-repository → cross-repository/domain/network). It comprises 500 real-world instances spanning 246 GitHub repositories, covering four distinct task settings.
创建时间:
2026-02-19
原始信息汇总
BeyondSWE 数据集概述
数据集简介
BeyondSWE 是一个用于评估代码智能体在真实世界软件工程挑战中性能的基准测试数据集。它旨在超越单仓库错误修复任务,从解决范围和知识范围两个维度对代码智能体进行全面评估。
核心亮点
- 规模与复杂性:包含 500 个真实世界实例,覆盖 246 个 GitHub 仓库。平均每个实例涉及 5.6 个文件和 209.9 行代码,其复杂性是 SWE-bench Verified 基准的 18 倍。
- 二维评估框架:同时扩展解决范围(从局部到全局)和知识范围(从仓库内到跨仓库/领域/网络)。
- 关键发现:前沿模型在 BeyondSWE 上的表现普遍低于 45%,尽管它们在 SWE-bench Verified 上能达到 80% 以上。
- 配套框架:引入了 SearchSWE 框架,该框架为评估编码中的深度研究能力提供了首个标准化基准,并包含严格的反作弊机制。
任务设置
数据集涵盖四种任务设置,代表了全谱系的软件工程挑战:
| 任务名称 | 解决范围 | 知识范围 | 仓库数 | 实例数 | 描述 |
|---|---|---|---|---|---|
| CrossRepo | 局部函数 | 跨仓库 | 67 | 200 | 修复需要参考外部仓库、Stack Overflow 和上游库的问题 |
| DomainFix | 局部函数 | 领域特定 | 12 | 72 | 解决需要专家知识的特定科学领域(量子物理、生物信息学等)中的错误 |
| DepMigrate | 全局仓库 | 官方文档 | 120 | 178 | 执行由破坏性依赖升级(如 NumPy 1.x → 2.0)触发的全代码库迁移 |
| Doc2Repo | 全局仓库 | 人类规范 | 50 | 50 | 根据自然语言规范构建一个完整的功能性仓库 |
主要结果与发现
- 45% 的性能天花板:前沿模型(如 Gemini 3 Pro, GPT-5.2, DeepSeek-V3.2 等)在 BeyondSWE 上的总体表现未能超过 45%。
- 无单一优胜者:不同模型在不同任务上领先,表明四种任务测试了根本不同的能力。
- 搜索有帮助,但整合仍是挑战:9 个模型中有 6 个在使用 SearchSWE 后性能提升,但提升并不一致。
- 质量优于数量:搜索次数与性能提升并非正相关。
数据获取与使用
-
数据地址:https://huggingface.co/datasets/AweAI-Team/BeyondSWE
-
加载方式: python from datasets import load_dataset dataset = load_dataset("AweAI-Team/BeyondSWE")
-
评估框架:完整的评估流程(包括 SearchSWE 设置和运行说明)请参考 AweAgent 项目(https://github.com/AweAI-Team/AweAgent)。
许可信息
本项目采用 CC BY 4.0 许可协议。
搜集汇总
数据集介绍
构建方式
在软件工程领域,评估代码智能体的实际能力需要超越单一代码库的局限。BeyondSWE数据集通过精心设计,从GitHub平台选取了246个真实仓库,构建了涵盖500个实例的多样化任务集合。其构建过程严格遵循现实软件开发场景,依据分辨率范围和知识范围两个维度,将任务划分为跨仓库修复、领域特定修复、依赖迁移和文档到仓库构建四类。每个实例平均涉及5.6个文件和209.9行代码,确保了任务复杂度的真实性与挑战性,为全面评估代码智能体在多维度环境下的表现提供了坚实基础。
特点
该数据集的核心特点在于其多维度的评估框架与高度的现实复杂性。它不仅将任务范围从局部函数扩展至全局仓库,还将知识需求从仓库内部延伸至跨仓库、领域专业知识和官方文档。数据集平均每个实例包含的文件数量和代码行数远超传统基准,复杂度达到SWE-bench Verified的18倍,有效模拟了真实软件开发中常见的跨系统协作与知识整合挑战。此外,数据集还引入了严格的防作弊机制,确保评估过程的公正性与可靠性,为代码智能体研究设立了新的高标准。
使用方法
研究人员可通过Hugging Face平台直接加载BeyondSWE数据集,快速接入现有工作流程。数据集支持与SearchSWE框架集成,该框架为代码智能体提供了深度研究能力,包括网络搜索和网页内容分析工具。使用过程中,需遵循框架的防作弊规范,避免直接访问目标仓库的相关资源。评估流程可参考AweAgent项目提供的完整实现,通过模拟真实开发环境中的搜索与编码交替过程,全面测试智能体在复杂软件工程任务中的实际解决能力。
背景与挑战
背景概述
在软件工程领域,代码智能体的能力评估长期局限于单一代码库内的缺陷修复任务,难以反映真实开发场景中复杂的多维度挑战。BeyondSWE数据集由AweAI团队于2026年创建,旨在突破传统基准的局限,通过引入分辨率范围与知识范围的双维度评估框架,系统性地考察代码智能体在跨仓库协作、领域专业知识迁移、全局依赖升级及全功能仓库构建等综合场景下的实际性能。该数据集涵盖246个GitHub仓库中的500个真实任务实例,平均每个实例涉及5.6个文件与209.9行代码,其复杂度达到现有SWE-bench Verified基准的18倍,为代码智能体研究提供了更贴近工业实践的评估标准。
当前挑战
BeyondSWE所针对的核心挑战在于如何让代码智能体适应超越单一代码库边界的复杂软件工程问题。具体而言,数据集构建需解决跨仓库知识融合的难题,即智能体需同时理解目标代码库与外部参考源(如Stack Overflow、上游库文档)的关联;在领域特定任务中,还需克服专业领域知识(如量子物理、生物信息学)的语义鸿沟。此外,数据采集面临真实场景任务稀缺性与多样性的平衡问题,需确保实例既覆盖依赖迁移、文档转代码等全局性操作,又保持任务定义的可复现性与评估一致性。数据集的防作弊机制设计亦构成关键挑战,需通过正则表达式黑名单与容器环境净化等技术,严格阻断测试过程中对目标仓库的直接访问,保障评估结果的公正性。
常用场景
经典使用场景
在软件工程领域,BeyondSWE数据集为评估代码智能体在复杂现实场景中的能力提供了基准。其经典使用场景聚焦于测试智能体在跨仓库、领域特定、依赖迁移及文档到仓库构建等任务中的表现,这些任务模拟了开发者日常面临的多样化挑战,如整合外部代码库、解决专业领域bug或执行大规模代码库升级。通过涵盖246个GitHub仓库的500个实例,数据集推动了智能体从单一仓库bug修复向全局软件工程问题的扩展。
实际应用
在实际应用中,BeyondSWE数据集为开发更鲁棒的自动化软件工程工具提供了验证平台。例如,在依赖升级场景中,智能体可协助团队迁移代码库以适应NumPy等库的重大版本变更;在跨仓库任务中,智能体能整合Stack Overflow或上游库信息以修复bug;而在专业领域如量子物理或生物信息学中,它支持构建具备领域知识的辅助编码系统。这些应用直接提升了软件维护的效率和可靠性,减少了人工干预的需求。
衍生相关工作
BeyondSWE数据集衍生了一系列经典研究工作,其中最突出的是SearchSWE框架,该框架首次为代码智能体的深度研究能力提供了标准化评估基准,并集成了网络搜索与代码推理能力。此外,基于该数据集的研究揭示了不同模型在特定任务上的优势分化,如Seed-Coder在跨仓库任务中领先,而DeepSeek-V3.2在文档到仓库构建中表现最佳,这促进了针对多维度能力的模型优化。相关成果还推动了AweAgent等开源工具的发展,为社区提供了可复现的实验基础。
以上内容由遇见数据集搜集并总结生成



