BeyondSWE
收藏Hugging Face2026-03-04 更新2026-03-05 收录
下载链接:
https://huggingface.co/datasets/AweAI-Team/BeyondSWE
下载链接
链接失效反馈官方服务:
资源简介:
BeyondSWE 是一个全面的基准测试数据集,旨在评估代码代理在解决软件工程问题时的能力,特别是在超越单仓库错误修复的真实世界复杂场景中。数据集包含 500 个真实世界实例,覆盖 246 个 GitHub 仓库,涵盖四种不同的任务设置:跨仓库问题修复(CrossRepo)、特定领域错误修复(DomainFix)、依赖迁移(DepMigrate)和从自然语言规范构建完整仓库(Doc2Repo)。每个实例以 JSON 格式存储,包含实例 ID、任务类别、仓库信息、编程语言、工作目录、Docker 镜像 URL、提交哈希、问题描述、修复补丁等详细字段。数据集平均每个实例涉及 5.6 个文件和 209.9 行代码,比 SWE-bench Verified 复杂 18 倍。BeyondSWE 适用于评估代码代理在复杂软件工程任务中的表现,特别是在需要跨仓库、跨领域或深度研究能力的场景中。
BeyondSWE is a comprehensive benchmark dataset designed to evaluate the capabilities of code agents when solving software engineering problems, particularly in real-world complex scenarios that go beyond single-repository bug fixing. The dataset contains 500 real-world instances spanning 246 GitHub repositories, covering four distinct task settings: CrossRepo (cross-repository bug fixing), DomainFix (domain-specific bug fixing), DepMigrate (dependency migration), and Doc2Repo (building a complete repository from natural language specifications). Each instance is stored in JSON format, with detailed fields including instance ID, task category, repository information, programming language, working directory, Docker image URL, commit hash, problem description, fix patch and other relevant details. On average, each instance involves 5.6 files and 209.9 lines of code, which is 18 times more complex than SWE-bench Verified. BeyondSWE is suitable for evaluating the performance of code agents on complex software engineering tasks, especially in scenarios requiring cross-repository, cross-domain or in-depth research capabilities.
创建时间:
2026-02-27
原始信息汇总
BeyondSWE 数据集概述
数据集基本信息
- 数据集名称: BeyondSWE
- 发布者: AweAI-Team
- 许可协议: CC BY 4.0
- 语言: 英语
- 数据规模: 小于1K条实例
- 主页: https://github.com/AweAI-Team/BeyondSWE
- Hugging Face地址: https://huggingface.co/datasets/AweAI-Team/BeyondSWE
- 项目网站: https://aweai-team.github.io/BeyondSWE/
数据集简介
BeyondSWE是一个全面的基准测试,旨在从解决范围和知识范围两个关键维度评估代码智能体,其目标是将评估场景从单一代码库的错误修复扩展到现实世界中更复杂的软件工程任务。
核心亮点
- 包含500个真实世界实例,覆盖246个GitHub仓库,涵盖四种不同的任务设置。
- 采用二维评估框架:同时扩展解决范围(从局部到全局)和知识范围(从仓库内到跨仓库/领域/网络)。
- 平均每个实例涉及5.6个文件和209.9行代码,复杂度是SWE-bench Verified的18倍。
- 引入SearchSWE框架:首个用于评估深度编码研究的标准化基准,并包含严格的防作弊机制。
- 关键发现:前沿模型在BeyondSWE上的性能上限低于45%,而在SWE-bench Verified上可达80%以上。
任务设置概览
数据集涵盖四种任务设置,覆盖现实世界软件工程挑战的全谱系:
| 任务 | 解决范围 | 知识范围 | 仓库数 | 实例数 | 描述 |
|---|---|---|---|---|---|
| CrossRepo | 局部函数 | 跨仓库 | 67 | 200 | 修复需要参考外部仓库、Stack Overflow和上游库的问题 |
| DomainFix | 局部函数 | 领域特定 | 12 | 72 | 解决需要专业知识的特定科学领域(量子物理、生物信息学等)的错误 |
| DepMigrate | 全局仓库 | 官方文档 | 120 | 178 | 执行由破坏性依赖升级(如NumPy 1.x → 2.0)触发的全代码库迁移 |
| Doc2Repo | 全局仓库 | 人类规范 | 50 | 50 | 根据自然语言规范构建完整的功能性仓库 |
数据格式
每个实例是一个JSON对象,包含以下字段:
| 字段 | 描述 |
|---|---|
instance_id |
唯一标识符,格式为{user}_{repo}_pr{id} |
dataset_id |
数据集分割标识符(如BeyondSWE) |
task |
任务类别(如CrossRepo),指示所需的推理范围 |
user |
GitHub仓库的所有者(组织或个人) |
repo |
包含错误的GitHub仓库名称 |
language |
仓库的主要编程语言(当前为Python) |
workdir |
Docker容器内开始执行的工作目录 |
image_url |
用于复现仓库环境的Docker镜像标签 |
parent_commit |
表示错误基础状态的提交哈希 |
commit_id |
真实修复(对应拉取请求)的提交哈希 |
patch |
解决问题的真实修复补丁(Golden Patch) |
problem_statement |
提供给智能体的问题描述,描述错误或所需的行为变更 |
f2p_patch |
开发人员在修复前编写的引入失败测试的测试补丁(如果可用) |
f2p_script |
由评估管道生成的用于触发失败的复现脚本 |
FAIL_TO_PASS |
在错误版本上失败、应用修复后通过的单元测试列表 |
PASS_TO_PASS |
在修复前后都通过的回归测试列表 |
github |
原始GitHub仓库的URL |
pre_commands |
容器启动时执行的Shell命令,用于将仓库恢复到正确的错误状态 |
关键研究发现
- 45%的性能上限:即使是最前沿的模型(Gemini 3 Pro, GPT-5.2, DeepSeek-V3.2等)在BeyondSWE上的总体性能也无法超过45%,而在SWE-bench Verified上可达80%以上。
- 没有单一优胜者:不同模型在不同任务上领先——Seed-Coder在CrossRepo上领先(44.72%),DeepSeek-V3.2在Doc2Repo上领先(54.99%),Gemini 3 Pro在DepMigrate上领先(41.81%)——这表明四种任务测试的是根本不同的能力。
- 搜索有帮助,但整合仍是开放问题:9个模型中有6个在使用SearchSWE后性能提升,其中Gemini 3 Pro在DomainFix上提升了+7.5%。然而,提升并不一致——搜索和编码已独立成熟,但它们的有效融合仍是一个未解决的挑战。
- 质量优于数量:Gemini 3 Pro每个实例仅搜索0.8–1.1次,却实现了最佳的整体增益(+2.0%),而DeepSeek-V3.2搜索4.2–5.4次,却显示出轻微下降(-0.2%)。
数据获取与使用
- 数据下载:可通过Hugging Face Hub下载。
- 评估框架:使用SearchSWE(BeyondSWE的官方评估框架),完整评估流程请参考AweAgent。
引用
如果研究中使用BeyondSWE,请引用相关论文。
搜集汇总
数据集介绍
构建方式
在软件工程智能化评估领域,BeyondSWE数据集的构建体现了对现实世界复杂场景的深刻洞察。该数据集从GitHub平台精心筛选了246个真实代码仓库,构建了涵盖500个实例的基准测试集合。其构建过程严格遵循双维度扩展原则,既拓展了问题解决范围,从局部函数修复延伸至全局仓库迁移,又拓宽了知识边界,实现了从仓库内知识到跨仓库、跨领域乃至网络知识的跨越。每个实例均包含完整的上下文信息,如问题描述、原始提交、修复补丁及测试脚本,并通过Docker镜像确保环境可复现性,为代码智能体的综合能力评估提供了坚实的数据基础。
特点
BeyondSWE数据集的核心特征在于其多维度的复杂性与真实性。相较于传统的单仓库缺陷修复基准,该数据集在任务复杂度上实现了显著提升,平均每个实例涉及5.6个文件和209.9行代码,复杂度达到同类基准的18倍。数据集创新性地设计了四种任务场景:跨仓库问题修复、专业领域缺陷解决、依赖迁移和文档到仓库构建,全面覆盖了软件工程的实际挑战。其独特的SearchSWE评估框架引入了严谨的反作弊机制,确保评估结果的可靠性。前沿模型在该数据集上的表现普遍低于45%,揭示了当前代码智能体在应对复杂软件工程任务时的能力瓶颈。
使用方法
对于研究者而言,BeyondSWE数据集为评估代码智能体的综合能力提供了标准化平台。使用者可通过Hugging Face平台直接下载数据集,其JSONL格式便于使用Pandas或Polars等工具进行解析与分析。每个实例的完整元数据,包括工作目录、Docker镜像、测试脚本等,支持在隔离环境中精确复现任务场景。官方推荐的评估流程需结合AweAgent框架中的SearchSWE组件,该框架提供了完整的代码执行与结果验证管道。研究者在进行模型评估时,应重点关注智能体在跨知识源检索、复杂代码理解与大规模代码修改等方面的表现,以深入探究智能体在真实软件开发环境中的实际效用。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码智能体(Code Agent)的评估长期局限于单一代码库内的缺陷修复任务,难以反映真实世界软件开发的复杂性。BeyondSWE数据集由AweAI团队于2026年创建,旨在突破这一局限,通过构建一个涵盖跨仓库、领域特定、依赖迁移及文档到仓库生成等多维度任务的综合性基准。该数据集包含来自246个GitHub仓库的500个真实实例,平均每个实例涉及5.6个文件和209.9行代码,其规模与复杂性远超传统基准如SWE-bench Verified。核心研究问题聚焦于探索当前代码智能体在解决超越单一仓库范围的软件工程挑战时的能力边界,为推进代码智能体向更广泛、更深层的实际应用场景演进提供了关键数据支撑。
当前挑战
BeyondSWE数据集所针对的领域挑战在于评估代码智能体在真实软件工程环境中的综合问题解决能力,这要求模型不仅需理解局部代码逻辑,还需具备跨仓库知识检索、领域专家级理解、全局依赖迁移以及从自然语言规范构建完整仓库的高级能力。构建过程中的挑战则体现在数据采集与标注的复杂性上:需要从大量开源项目中筛选具有代表性的跨仓库关联、领域专业知识依赖及重大依赖变更的实例,并确保每个实例包含可复现的测试环境、精确的补丁标注以及严谨的反作弊机制。此外,数据集的多样性设计,如涵盖量子物理、生物信息学等专业领域,对标注者的专业知识提出了极高要求,同时保持任务设置与真实开发流程的一致性也是一项艰巨任务。
常用场景
实际应用
在实际应用层面,BeyondSWE数据集可直接服务于自动化软件维护工具的研发,例如辅助开发者进行大规模依赖升级、跨项目代码迁移或基于自然语言规格生成完整功能仓库。其构建的SearchSWE评估框架为工业界提供了标准化测试流程,有助于优化代码助手在复杂任务中的搜索与推理策略,提升开发效率并降低维护成本,推动智能编程工具向更广泛、更专业的软件工程场景渗透。
衍生相关工作
围绕BeyondSWE数据集,已衍生出多项经典研究工作,例如基于SearchSWE框架的代码代理评估体系AweAgent,该系统集成了反作弊机制与标准化测试流程。同时,该数据集激发了针对跨仓库知识检索、领域自适应代码生成以及依赖迁移自动化等方向的模型改进探索,相关成果进一步丰富了代码智能体在复杂软件工程任务中的方法论与性能基准。
以上内容由遇见数据集搜集并总结生成



