five

SWE-CI

收藏
github2026-02-27 更新2026-03-09 收录
下载链接:
https://github.com/SKYLENAGE-AI/SWE-CI
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-CI 是首个专门评估 AI智能体维护仓库的能力的测评基准。它从Github中筛选了100对高质量代码提交版本,每一对都包含一份基准代码和一份参考代码,选取自同一个代码库的不同时期。SWE-CI要求AI智能体从基准代码开始维护,并以完全通过参考代码中的测试作为目标。通过量化代码演化序列持续保持功能正确性的程度,SWE-CI可以有效的衡量AI智能体维护代码的能力。

SWE-CI is the first benchmark specifically designed to evaluate the code maintenance capabilities of AI Agents. It curates 100 pairs of high-quality code commit versions from GitHub, where each pair comprises a baseline code and a reference code sourced from different periods of the same code repository. SWE-CI requires AI Agents to commence maintenance from the baseline code, with the objective of fully passing all tests included in the reference code. By quantifying the extent to which the code evolution sequence consistently maintains functional correctness, SWE-CI can effectively measure the code maintenance capabilities of AI Agents.
创建时间:
2026-02-09
原始信息汇总

SWE-CI 数据集概述

数据集基本信息

  • 数据集名称:SWE-CI
  • 数据集定位:首个专门评估AI智能体维护仓库能力的测评基准。
  • 核心目标:评估AI智能体在维护代码库时,不仅确保当前代码功能正确,更要降低代码在未来持续保持功能正确的开发难度。
  • 数据来源:从GitHub中筛选。
  • 数据规模:包含100对高质量代码提交版本。
  • 数据构成:每一对代码提交版本包含一份基准代码和一份参考代码,均选取自同一个代码库的不同时期。

核心评估方法

  • 评估任务:要求AI智能体从基准代码开始维护,以完全通过参考代码中的测试为目标。
  • 评估核心:通过量化代码演化序列持续保持功能正确性的程度,衡量AI智能体维护代码的能力。
  • 工作流模拟:引入双智能体协作工作流,模拟真实软件团队的持续集成循环(CI-loop):
    • 架构师智能体:分析自动化测试系统提供的测试信息,进行失败归因、代码定位和需求设计,产出高层次自然语言需求文档。
    • 程序员智能体:将需求文档翻译为明确代码行为规范,规划并实施代码维护。
  • 迭代流程:反复执行「运行测试 → 定义需求 → 修改代码」的闭环流程,模拟真实软件开发迭代周期。

评估指标

  • 主要指标:平均正则改变(Average Normalized Change, ANC)。
  • 指标定义
    • 符号定义:
      • $p_i^{(j)}$:第 $j$ 个任务在第 $i$ 次迭代时代码通过的单元测试数量。
      • $p_0^{(j)}$:第 $j$ 个任务迭代开始前初始代码所通过的单元测试数量。
      • $p_{ast}^{(j)}$:第 $j$ 个任务中需要通过的单元测试总数(即参考代码通过的测试数)。
      • $N$:最大迭代轮次。
      • $M$:数据集中的任务总数。
    • 正则改变(Normalized Change, NC)定义: $$ a_i^{(j)}=egin{cases} dfrac{p_i^{(j)}-p_0^{(j)}}{p_ast^{(j)}-p_0^{(j)}}, & ext{if} p_i^{(j)} geq p_0^{(j)}
      dfrac{p_i^{(j)}-p_0^{(j)}}{p_0^{(j)}}, & ext{if} p_i^{(j)} < p_0^{(j)} end{cases} $$
    • 平均正则改变(ANC)定义: $$ { m ANC} =frac{1}{MN}sum_{j=1}^Msum_{i=1}^N a_i^{(j)} $$
  • 指标意义:综合考虑智能体在代码维护全部周期的功能正确性变化,作为智能体维护代码能力的可靠度量。

数据集创新点

  1. 从「快照修复」到「演化追踪」:不再聚焦于单个Bug的修复,而是关注两个提交版本之间的演化轨迹,还原代码库动态演进过程。
  2. 从「静态需求描述」到「动态需求生成」:不依赖人工事先编写的Issue描述,以当前代码与参考代码的「测试差异(Test Gap)」作为生成需求文档的核心驱动力。
  3. 从「评估写正确的代码」到「评估写可维护的代码」:不仅关注单轮需求实现的正确性,更关心正确性在未来是否得到保持,通过持续追踪量化“维护能力”。

使用与获取

  • 访问地址
    • GitHub仓库:https://github.com/SKYLENAGE-AI/SWE-CI
    • HuggingFace数据集:https://huggingface.co/datasets/skylenage/SWE-CI
  • 论文链接:即将发布。
  • 系统要求:目前仅支持Linux操作系统和iFlow CLI。未来计划支持Windows操作系统、ClaudeCode CLI和OpenCode CLI。
  • 参考开销
    • 硬件配置:32核CPU,64 GB RAM,约1 GB/s磁盘读写速度。
    • 并发设置:16并发。
    • API Key:至少支持16个并发请求的LLM API Key。
    • 全量数据集运行时间:约48小时。
  • 数据下载:全量数据集(full.csv)约需52.8 GB存储空间。
  • 运行流程:主要包括环境安装、数据集下载、实验运行及结果查看步骤。
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,代码库的长期维护能力是衡量智能体综合性能的关键维度。SWE-CI数据集通过从GitHub平台精心筛选100对高质量代码提交版本构建而成,每对包含同一代码库在不同时期的基准代码与参考代码。该数据集要求智能体从基准代码出发,以完全通过参考代码中的测试为目标,模拟真实开发环境中的持续集成循环。其构建过程引入了双智能体协作工作流,涵盖架构师智能体分析测试信息并生成需求文档,以及程序员智能体实施编码修改,通过反复执行测试、需求定义与代码修改的闭环流程,精准还原了软件演化轨迹的动态特性。
特点
SWE-CI数据集在智能体评估领域展现出三大核心创新特点。其一,它实现了从传统单点修复范式向演化追踪的转变,聚焦于代码提交版本之间的完整演化轨迹,而非孤立的问题解决。其二,数据集摒弃静态人工需求描述,转而以测试差异作为动态需求生成的基础,通过自动化测试流程实时感知代码功能缺陷,更贴近实际软件开发中需求随代码状态变化的复杂性。其三,评估重点从单一代码正确性转向可维护性,通过量化代码变更序列中功能正确性的持续保持程度,为智能体长期维护能力提供了客观且可衡量的新标准。
使用方法
使用SWE-CI数据集需遵循系统化的操作流程。用户首先需在Linux环境下基于Docker配置实验平台,并通过GitHub克隆项目仓库,利用Conda创建Python虚拟环境并安装依赖项。数据集可从HuggingFace平台下载,全量版本约需52.8GB存储空间。实验运行分为任务初始化与代码演进两个阶段,通过命令行参数或配置文件指定API密钥、模型名称等关键设置,并支持自定义并发数与资源限制。评估过程中,智能体将遵循双智能体工作流迭代执行测试与代码修改,最终可通过专用命令汇总实验结果,以平均正则改变指标量化维护能力。
背景与挑战
背景概述
在软件工程领域,代码库的长期可维护性是衡量软件质量的核心维度之一。SWE-CI数据集由研究团队于近期创建,旨在系统评估人工智能体在模拟真实持续集成环境中维护代码库的综合性能力。该数据集从GitHub中精心筛选了100对高质量的代码提交版本,每对包含同一代码库在不同时期的基准代码与参考代码,构建了一个动态演化的评测场景。其核心研究问题聚焦于如何超越传统的单点缺陷修复范式,转而量化智能体在代码演化序列中持续保持功能正确性的能力。SWE-CI通过引入双智能体协作工作流,模拟了架构师与程序员在持续集成循环中的专业分工,为探索智能体在长期软件维护任务中的表现提供了创新性基准,对推动自动化软件工程与智能体系统研究具有重要影响力。
当前挑战
SWE-CI数据集所针对的领域挑战在于如何准确评估智能体在动态、长期的代码维护过程中的综合能力,而非仅仅测试其在静态快照下的单次修复准确性。这要求评测基准能够模拟软件代码库随时间的自然生长与重构,捕捉代码功能正确性在多次迭代中的持续变化。在数据集构建过程中,研究团队面临的主要挑战包括:从海量开源代码库中筛选出高质量、具有明确演化轨迹的代码提交对,确保基准代码与参考代码之间的测试差异能够有效驱动需求生成;设计合理的双智能体协作流程,以真实反映专业开发团队在持续集成环境中的交互模式;以及定义一种能够量化代码维护过程中功能正确性演变的评估指标,如平均正则改变(ANC),从而将模糊的“可维护性”概念转化为可测量的科学标准。
常用场景
经典使用场景
在软件工程领域,代码维护是保障软件长期健康演化的核心环节。SWE-CI数据集通过模拟真实软件开发中的持续集成循环,为评估AI智能体在代码库维护任务中的综合能力提供了标准化测试平台。其经典使用场景在于,智能体需从基准代码出发,通过多轮迭代逐步修改代码,直至完全通过目标版本中的测试用例,从而模拟代码库随时间演进的自然过程。这一场景不仅测试智能体修复缺陷的能力,更强调其在动态演化中保持代码功能正确性的长期维护潜力。
衍生相关工作
SWE-CI的推出激发了软件工程与人工智能交叉领域的一系列创新研究。基于其演化追踪理念,后续工作开始探索智能体在代码重构、技术债务管理及跨版本兼容性维护等场景中的表现。同时,双智能体协作框架启发了多智能体系统在软件任务中的分工优化研究,例如需求分解与代码生成的协同机制。这些衍生工作进一步扩展了AI在软件生命周期中的应用边界,为构建更稳健、自适应的智能开发环境奠定了理论基础。
数据集最近研究
最新研究方向
在软件工程智能体研究领域,SWE-CI数据集标志着评估范式的重要演进,其核心在于从静态的缺陷修复转向动态的代码演化维护。该数据集通过模拟真实软件开发中的持续集成循环,引入双智能体协作工作流,架构师与程序员智能体分别负责需求生成与代码实施,从而系统评估智能体在长期代码库维护中的综合能力。前沿研究聚焦于利用测试差异驱动需求生成,量化代码变更序列的功能正确性保持程度,这不仅为衡量智能体的可维护性编码能力提供了客观基准,也推动了AI在复杂软件生命周期管理中应用边界的拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作