five

SWE-INTERACT

收藏
arXiv2026-06-30 更新2026-07-01 收录
下载链接:
https://github.com/scaleapi/SWE-Interact
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-INTERACT是由Scale AI研究团队构建的新型软件工程评估测试平台,旨在模拟真实开发工作流程中的多轮交互式编码任务。该数据集包含75个精心设计的任务,源自SWE-bench Pro、SWE Atlas和DeepSWE三大前沿基准,通过用户模拟器逐步揭示需求并引入动态反馈机制。数据创建过程基于大规模真实编码会话分析,采用专家级用户角色建模,并整合了容器化沙箱环境与工具调用框架。该数据集主要应用于评估编码智能体在模糊初始指令下的目标发现能力、迭代优化性能以及人机协作效率,旨在解决现有单轮基准与真实开发场景之间的能力评估鸿沟。

SWE-INTERACT is a novel software engineering evaluation testbed developed by the Scale AI research team, designed to simulate multi-turn interactive coding tasks in real-world software development workflows. This dataset includes 75 meticulously crafted tasks sourced from three cutting-edge benchmarks: SWE-bench Pro, SWE Atlas, and DeepSWE. It leverages user simulators to progressively unveil requirements and integrate dynamic feedback mechanisms. The dataset's construction process is grounded in the analysis of large-scale real-world coding sessions, adopts expert-level user role modeling, and incorporates containerized sandbox environments and tool invocation frameworks. This dataset is primarily used to evaluate coding AI agents' capabilities in objective discovery under ambiguous initial instructions, their iterative optimization performance, and human-agent collaboration efficiency, aiming to bridge the capability evaluation gap between existing single-turn benchmarks and real-world software development scenarios.
提供机构:
Scale AI
创建时间:
2026-06-30
原始信息汇总

数据集概述:SWE-Interact

SWE-Interact 是一个专注于评估编程代理在多轮软件工程任务中表现的基准测试,旨在模拟真实用户驱动的开发场景。

  • 任务规模:包含 75 个任务
  • 核心定位:强调多轮交互(multi-turn)的复杂编程工作流,区别于传统的单轮任务。

数据与配置结构

该仓库的组织结构如下,便于用户快速上手:

  • data/multiturn/:存放多轮任务的核心数据。
  • run_configs/multiturn/:提供用于运行多轮任务的示例配置文件。

运行环境与依赖

要运行该基准测试,需要安装 Harbor 框架并配置沙箱环境(使用 Modal)。

  1. 安装 Harbor: bash git clone https://github.com/laude-institute/harbor.git cd harbor uv tool install .

  2. 设置 Modal: bash uv pip install modal modal setup

环境变量配置

所有运行配置需从 harbor/.env 文件加载凭证。请先在仓库根目录创建此文件:

bash mkdir -p harbor $EDITOR harbor/.env

通用设置(适用于所有配置): 模拟用户模型为 openai/gpt-5.5,默认评分模型为 anthropic/claude-opus-4-5-20251101。需要设置兼容的 API 网关。

bash OPENAI_API_KEY=<your-gateway-api-key> OPENAI_API_BASE=<openai-compatible-gateway-url>/v1

各模型额外设置

配置 需要添加的变量
gpt-5p5-high_codex.sh 无需额外设置
opus-4p8-high_claude-code.sh ANTHROPIC_API_KEY=<your-anthropic-api-key>
sonnet-4p6-high_claude-code.sh ANTHROPIC_API_KEY=<your-anthropic-api-key>
gemini-3p5-flash-high_opencode.sh GEMINI_API_KEY=<your-gemini-api-key>
kimi-k2p6_kimi-cli.sh OPENAI_API_KEYOPENAI_API_BASEOPENAI_BASE_URL

运行方法

从仓库根目录执行命令。

  • 多轮任务示例: bash bash run_configs/multiturn/gpt-5p5-high_codex.sh

  • 单轮基线任务示例: bash bash run_configs/singleturn/gpt-5p5-high_codex.sh

脚本运行后,结果将输出至 results/ 目录。用户可通过复制并修改现有脚本来创建自定义配置。

引用信息

如研究中使用了 SWE-Interact,请引用以下论文:

bibtex @misc{raghavendra2026sweinteractreimaginingswebenchmarks, title={SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions}, author={Mohit Raghavendra and Anisha Gunjal and Aakash Sabharwal and Yunzhong He}, year={2026}, eprint={2606.30573}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2606.30573}, }

搜集汇总
数据集介绍
main_image_url
构建方式
SWE-INTERACT是面向多轮交互、用户驱动的软件工程任务评测基准。该基准从SWE-bench Pro、SWE Atlas和DeepSWE三个前沿基准中精选了75项复杂任务,每项任务原本包含完整的任务描述、Docker化代码库环境及基于单元测试和评分标准的验证套件。研究团队将每项任务转化为多轮交互式任务,其核心在于构建了一个基于真实用户对话数据(SWE-chat数据集)的“用户模拟器”。该模拟器被赋予详细的用户角色设定,并配备了能够通过shell命令(如git、grep、sed等)检查智能体工作区的工具调用框架,使其能够以迭代、渐进的方式向智能体揭示需求。
特点
SWE-INTERACT的核心特点在于其将基准测试的难度从任务复杂度转向了交互能力。与一次性提供完整需求的传统基准不同,该基准模拟了真实开发流程:模拟用户首先给出模糊或不完整的指令,逐步揭示需求,检查智能体工作区,并基于智能体的实现提供精准反馈、修订要求直至所有目标完成。其用户模拟器基于对大规模真实编码交互会话的研究,模拟了最常见的“专家挑剔型”用户角色,他们信息简短直接、具有迭代性,并且会仔细审查智能体的工作。实验表明,在单轮任务上表现优异的模型在此多轮交互场景下解决率大幅下降(从约50%降至约25%),这揭示了“交互式目标发现与迭代细化”作为一项正交且至关重要的能力维度。
使用方法
SWE-INTERACT在Harbor框架中执行,通过容器化沙箱为智能体提供代码环境和MCP接口的ask_user工具。任务开始时,用户模拟器向智能体发出一个简短的高层描述。智能体需与该模拟器迭代交互,模拟器会检查其实现,并逐个引入额外需求,直至所有指令被传达完毕。智能体需提交初始计划及每次基于用户反馈的修订补丁,最终提交一个终版补丁。验证器使用原始任务的评分方案对智能体终版方案进行评分。该基准支持使用不同的前沿模型作为用户模拟器(如GPT-5.5和Opus 4.7),并允许研究者分析智能体的目标发现生命周期、失败模式(如技术实现错误、需求遗忘)以及代码演变效率(如修改周转开销)。
背景与挑战
背景概述
在软件工程领域,现有的编码智能体基准测试(如SWE-bench)通常将任务设定为单轮、完全指定的自主实现场景,要求智能体基于完整的需求描述独立完成编码。然而,真实世界的开发者工作流程远非如此——用户往往以模糊、零散的指令开局,并在迭代过程中逐步暴露需求、审阅代码、提出修正。这一鸿沟促使Scale AI的研究团队于2026年提出了SWE-INTERACT基准,旨在重构软件工程任务的评估范式。该数据集从SWE-bench Pro、SWE Atlas和DeepSWE中精选75个任务,通过精心设计的用户模拟器模拟现实中的专家挑剔型开发者行为,系统性地评估智能体在多轮交互中理解模糊意图、适应动态需求、整合反馈并维持代码正确性的能力。SWE-INTERACT揭示了当前前沿模型在单轮任务中的优异表现(约50%解决率)在多轮场景下急剧退化至约25%,为研究人机协同编程这一正交能力维度提供了关键测试平台。
当前挑战
SWE-INTERACT面临的核心挑战在于弥合单轮自主编码与多轮交互式开发之间的能力鸿沟。其一,领域问题层面,现有编码智能体普遍缺乏目标发现能力——在初始指令模糊庞杂时,模型难以主动探索仓库、推断用户意图,导致规划阶段对潜在需求的覆盖率不足。其二,构建过程中,用户模拟器的真实性设计极其困难:既要基于真实交互数据建模专家挑剔型用户简洁、挑剔、迭代式的反馈风格,又需赋予模拟器工作区感知能力(如git/grep命令调用),避免其沦为静态API调用。此外,实验揭示了多种典型失败模式:技术实现漏洞(约占34%)、遗忘已暴露需求(34%)、误解用户意图(14%),以及回归问题——新反馈可能破坏先前正确的实现。模型在迭代中往往产生大量代码变动(churn),增加用户审阅负担,而较少改动量通常对应更优的最终性能。
常用场景
经典使用场景
在软件工程智能体评估领域,SWE-INTERACT为前沿代码智能体的交互式协作能力提供了全新的测试基准。这一数据集颠覆了传统一次性提交全部任务需求的评估范式,通过构建基于真实用户会话数据驱动的用户模拟器,模拟出从模糊初始指令出发、逐步揭示需求、审查工作空间并提供针对性反馈的迭代式开发流程。研究者和开发者可利用SWE-INTERACT衡量智能体在多轮对话中理解用户意图、适应需求变化以及在既有代码基础上持续精进的能力,从而深入剖析高级模型在现实开发者工作流中的表现。
解决学术问题
该数据集精准回应了当前软件工程智能体评估领域的核心困境:现有基准如SWE-bench等将任务难度等同于单轮自主实现的复杂度,完全忽视了真实开发环境中需求模糊、迭代修正的交互本质。SWE-INTERACT通过系统性地将单轮任务转化为多轮交互任务,并引入基于真实用户数据设计的专家吹毛求疵型人格模拟器,揭示了前沿模型在单轮任务中的优异成绩无法可靠迁移至多轮互动场景,顶尖模型完成率从约50%骤降至约25%。这一发现为学界提供了量化交互能力这一正交维度的关键工具,推动了智能体评估从纯实现能力向协作发现能力的方向演进。
衍生相关工作
SWE-INTERACT的提出催生了一系列富有启发性的相关研究方向。在工作流建模方面,SlopCodeBench、SWE-EVO和CodeClash等基准探索了智能体在预定义多轮代码库变更中保持先前行为的挑战,但这些工作采用的固定轮次模式与SWE-INTERACT的动态交互形成互补。在用户模拟器设计层面,tau-bench系列启发了本文使用潜在目标、用户-智能体交互和最终状态验证的设计理念,同时LLM用户模拟器的过度合作性问题促使本研究强调人格条件约束和工作空间感知。此外,从目标发现的生命周期分析到失败模式的细粒度分类,再到代码演化质量的量化评估,这些衍生工作共同构建了交互式软件工程智能体的系统化评估框架。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务