SWE-EVO

Hugging Face2025-12-23 更新2025-12-24 收录

下载链接：

https://huggingface.co/datasets/Fsoft-AIC/SWE-EVO

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-EVO是一个基准测试，旨在评估AI编码代理在自主软件进化任务中的表现。它模拟了现实场景，要求代理根据高级软件需求规范（SRS）迭代进化复杂代码库。该基准测试利用真实Python开源项目（如Django和NumPy）的版本历史，挑战代理解释高级SRS、规划和实施多步变更、导航包含数千个文件的大型仓库以及跨多个版本生成正确变更的能力。SWE-EVO的关键特点包括真实任务、多步评估、模块化支架支持、公共数据集和基准测试重点。

创建时间：

2025-12-22

原始信息汇总

SWE-EVO 数据集概述

数据集简介

SWE-EVO 是一个用于评估人工智能编码代理在自主软件演化任务中表现的基准测试。它模拟了现实场景，要求代理根据高级软件需求规格说明（SRS）迭代地演化复杂的代码库。

核心特点

真实任务：源自真实Python开源项目（如Django和NumPy）的版本历史，强调随时间的变化。
多步骤评估：代理必须跨版本规划、更新和验证更改。
模块化框架支持：目前支持通过 OpenHands 和 SWE-agent 两种框架进行评估。
公共数据集：包含精选的实例和用于可重复评估的工具。
基准测试重点：针对人工智能系统的长程推理和迭代演化挑战。

关键信息

研究问题：给定现有代码库和不断变化的需求，人工智能代理能否在长期交互中自主执行持续的规划、适应和演化？
论文：SWE-EVO: A Frontier Benchmark for Coding Agents in Autonomous Software Evolution
基础工作：本数据集基于原始的 SWE-bench 基准测试构建。

技术信息

编程语言：Python (>=3.10)
许可证：MIT License

搜集汇总

数据集介绍

构建方式

在软件工程领域，评估编码智能体在真实场景中的持续演化能力至关重要。SWE-EVO基准测试的构建基于现实世界Python开源项目的版本历史，例如Django和NumPy，通过提取这些项目演化过程中的实际变更序列，形成了涵盖多版本迭代的任务实例。每个实例均包含初始代码库及对应的高层软件需求规格说明，模拟了从需求理解到代码修改的完整演化链条，确保了任务场景的真实性与复杂性。

特点

该数据集的核心特点在于其高度仿真的任务设计，强调随时间推移的持续演化过程。不同于孤立编码问题，SWE-EVO要求智能体在包含数千文件的大规模代码库中进行多步骤规划与修改，并跨越多个版本验证变更的正确性。其模块化评估框架支持OpenHands与SWE-agent等多种脚手架，提供了可复现的评估工具，专注于考察智能体在长视野推理与迭代演化中的综合能力。

使用方法

研究人员可利用SWE-EVO评估编码智能体在自主软件演化任务中的表现。使用前需配置相应的评估脚手架，加载数据集提供的任务实例，每个实例包含基础代码库与需求规格。智能体需解析需求，在代码库中定位相关文件，规划并执行多步修改，最终提交变更以供自动验证。基准测试支持对演化过程的每个阶段进行量化分析，从而系统评估智能体的规划、适应与持续演化效能。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自主软件演化已成为前沿研究方向。SWE-EVO基准测试由FSoft-AI4Code团队于近期创建，旨在评估AI编码代理在真实软件演化任务中的能力。该数据集基于Django、NumPy等知名开源Python项目的版本历史构建，核心研究问题聚焦于AI代理能否根据高层需求规格说明书，在大型代码库中执行持续规划、适应与迭代演化。这一工作推动了智能编程助手向长期推理与自主进化方向发展，为软件维护自动化提供了关键评估工具。

当前挑战

SWE-EVO所针对的自主软件演化问题，面临多重挑战：在领域层面，AI代理需理解模糊的高层需求，并在数千文件的复杂代码库中进行多步骤变更规划与正确实施，同时维持版本间的一致性；在构建过程中，数据集需从真实项目历史中提取具有代表性的演化实例，确保任务既覆盖典型软件变更模式，又保留足够的复杂性以检验长期推理能力，这对数据清洗、任务设计与评估框架的构建提出了较高要求。

常用场景

经典使用场景

在软件工程领域，自主软件演化已成为人工智能研究的前沿方向。SWE-EVO数据集通过模拟真实项目演化历史，为编码智能体提供了经典评估场景。该数据集要求智能体基于高层软件需求规格，在大型代码库中执行多步骤迭代变更，从而测试其在长期交互中的规划与适应能力。这一场景不仅复现了开源项目的版本演进过程，还强调了智能体在复杂环境下的持续推理与执行效能。

解决学术问题

SWE-EVO数据集旨在解决自主软件演化中的核心学术问题，即智能体如何依据动态需求对现有代码库进行持续规划与适配。传统基准多关注孤立编码任务，而该数据集通过引入多版本、大规模代码库的演化挑战，填补了长期推理与迭代变更评估的空白。其意义在于推动了AI编码智能体从单一问题解决向系统级软件维护的范式转变，为软件工程自动化研究提供了关键实验基础。

衍生相关工作

SWE-EVO数据集衍生了多项经典研究工作，尤其在编码智能体架构与评估方法领域产生广泛影响。其构建基于SWE-bench基准的扩展，促进了如OpenHands、SWE-agent等模块化评估框架的发展。相关研究聚焦于长期规划算法、代码库导航机制以及多版本变更验证技术，这些工作共同推动了自主软件演化智能体在学术与工业界的演进与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集