JetBrains-Research/agent-trajectories-swe-bench-test-minus-verified
收藏Hugging Face2026-03-29 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/agent-trajectories-swe-bench-test-minus-verified
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
language:
- en
tags:
- swe-bench
- code
- agent-trajectories
- mixed-teachers
pretty_name: Agent Trajectories on SWE-bench Test \ Verified (Mixed Teachers)
size_categories:
- 1K<n<10K
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: instance_id
dtype: string
- name: n_turns
dtype: int64
- name: n_messages
dtype: int64
- name: selected_models
sequence: string
- name: resolved
dtype: 'null'
- name: exit_status
dtype: string
splits:
- name: train
num_bytes: 102279077
num_examples: 1785
download_size: 40000657
dataset_size: 102279077
---
# Agent Trajectories: SWE-bench Test \ Verified — Mixed Teachers (gpt-5.2 / gpt-5-mini)
## Summary
Full multi-turn agent trajectories collected from the **SWE-bench Test minus Verified** split
(i.e., SWE-bench Test instances that are **not** part of SWE-bench Verified).
Intended for SFT of agent models on coding tasks.
## Data Collection
Each trajectory was produced by a **GT-aware lookahead agent** that, at every turn:
1. Sampled a candidate response from **both** `gpt-5.2` and `gpt-5-mini`.
2. Had a **gemini-3-pro-preview** router evaluate both candidates and select the better one.
3. Executed the selected step in the environment and appended the observation.
This "best-of-two" selection is oracle-informed (access to the ground-truth patch during routing),
producing near-optimal mixed-teacher trajectories.
## Format
Each row contains a single complete trajectory in **OpenAI messages format**:
```json
{
"messages": [
{"role": "system", "content": "You are a helpful assistant..."},
{"role": "user", "content": "<pr_description>...</pr_description>"},
{"role": "assistant", "content": "THOUGHT: ...\nACTION: ..."},
{"role": "user", "content": "<returncode>0</returncode>..."},
"...",
{"role": "assistant", "content": "...submit..."}
],
"instance_id": "sympy__sympy-24152",
"n_turns": 8,
"n_messages": 17,
"selected_models": ["litellm_proxy/openai/gpt-5.2", "litellm_proxy/openai/gpt-5-mini", "..."],
"resolved": true,
"exit_status": "Submitted"
}
```
## Statistics
| Split | Instances |
|------------|-----------|
| train | 1607 |
| validation | 178 |
| **total** | **1785** |
## Source
- **SWE-bench subset**: SWE-bench Test \ Verified (instances in Test that are not in Verified)
- **Candidate models**: `gpt-5.2`, `gpt-5-mini`
- **Router (step selector)**: `gemini-3-pro-preview` (GT-aware lookahead routing)
- **Langfuse session**: `data-collection-run_id-2eb77197e7c72634d36b53890e775004-gt_aware_llm-2026-03-13_11-14-52`
提供机构:
JetBrains-Research
搜集汇总
数据集介绍

构建方式
在软件工程领域,自动化代码修复任务对智能体轨迹数据的需求日益增长。本数据集基于SWE-bench测试集剔除已验证实例后的子集,通过一种基于地面真值感知的前瞻性智能体构建而成。该智能体在每一轮交互中,同时从gpt-5.2和gpt-5-mini两个模型中采样候选响应,随后由gemini-3-pro-preview路由器依据地面真值补丁进行评估,选择更优的响应执行环境操作并记录观察结果。这种混合教师机制确保了轨迹在每一步都接近最优决策,为监督微调提供了高质量的多轮对话序列。
特点
该数据集的核心特征在于其轨迹的优化性与结构性。每条轨迹均以OpenAI消息格式完整呈现,包含系统提示、用户查询、助手思考与行动以及环境反馈等多轮交互,真实模拟了代码修复任务的动态过程。数据集还标注了实例标识、对话轮次、消息数量及每一步选择的模型序列,并记录了解决状态与退出状态,为分析智能体行为提供了丰富元数据。其规模涵盖1785个实例,平衡了训练与验证需求,适用于对编码任务进行细粒度的模型训练与评估。
使用方法
在代码生成与智能体研究领域,本数据集主要用于监督微调以提升模型在软件工程任务中的表现。研究人员可直接加载数据中的消息序列,将其作为训练样本输入模型,学习智能体在复杂环境中的多步决策模式。由于轨迹已按实例组织并包含完整的交互历史,用户可进一步分析不同模型的选择模式、对话结构对任务解决的影响,或将其作为基准测试智能体在未见代码问题上的泛化能力。数据集的标准格式确保了与现有训练框架的兼容性,便于集成到各类机器学习流程中。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,自动化代码修复任务长期面临复杂环境交互与决策序列生成的挑战。agent-trajectories-swe-bench-test-minus-verified数据集于2026年由研究团队构建,旨在为基于大语言模型的智能体提供高质量的监督微调数据。该数据集源自SWE-bench基准测试的未验证部分,通过混合教师模型策略采集多轮对话轨迹,核心研究问题聚焦于提升智能体在真实代码仓库中解决GitHub问题的能力。其创新性地融合了前沿模型如gpt-5.2与gpt-5-mini的推理路径,并借助具备真值感知的路由机制进行优化选择,为代码生成与程序修复领域的模型训练提供了关键数据支撑,推动了自动化软件维护技术的发展。
当前挑战
该数据集致力于应对智能体在代码修复任务中面临的序列决策与长期规划挑战,具体体现为模型需在复杂代码上下文中准确理解问题描述、生成可执行操作序列并适应动态环境反馈。构建过程中的挑战主要包括:其一,轨迹采集需设计高效的混合教师选择机制,平衡不同模型生成响应的质量与多样性;其二,真值感知路由器的引入虽提升了轨迹最优性,但依赖真实补丁信息可能限制数据扩展的泛化能力;其三,多轮交互数据的结构化存储与标注需确保对话状态、执行结果及模型选择信息的完整对齐,以支持后续监督微调的有效性。
常用场景
经典使用场景
在软件工程与代码生成领域,agent-trajectories-swe-bench-test-minus-verified数据集为智能体模型的监督微调提供了关键资源。该数据集通过收集多轮对话轨迹,模拟了真实编程任务中智能体与环境的交互过程,涵盖了从问题理解、代码修改到最终提交的完整工作流。其经典应用场景在于训练和评估代码生成智能体,特别是在处理开源软件仓库中的实际缺陷修复任务时,能够帮助模型学习到复杂的决策序列和代码编辑策略。
解决学术问题
该数据集有效解决了智能体在代码生成任务中轨迹优化与策略学习的核心学术问题。通过提供由混合教师模型生成的近最优轨迹,它缓解了传统强化学习中奖励稀疏与探索困难的挑战,为研究智能体在编程环境中的多步推理、错误恢复和长期规划提供了高质量数据。其意义在于推动了代码智能体从单一响应生成向端到端任务完成的范式转变,促进了软件自动化与智能编程助手的发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在智能体架构优化与轨迹蒸馏领域。例如,研究者利用这些轨迹进行行为克隆或逆强化学习,以训练更高效的代码生成模型;同时,也有工作专注于分析混合教师策略的有效性,探索不同模型组合对智能体性能的影响。这些研究不仅深化了对编程智能体决策机制的理解,也为后续构建更鲁棒、可扩展的软件工程自动化系统提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



