JetBrains-Research/agent-trajectories-swesmith-random-subset

Name: JetBrains-Research/agent-trajectories-swesmith-random-subset
Creator: JetBrains-Research
Published: 2026-03-28 14:48:34
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/agent-trajectories-swesmith-random-subset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-generation language: - en tags: - swe-bench - swe-smith - code - agent-trajectories pretty_name: Agent Trajectories on SWE-Smith (Random Subset, Single Model) size_categories: - 1K<n<10K --- # Agent Trajectories: SWE-Smith Random Subset — Single Model ## Summary Full multi-turn agent trajectories collected from a **random subset of SWE-Smith issues**, generated with a single model per trajectory (no branching or lookahead). Contains a `resolved` column from SWE-bench evaluation. Intended for SFT of agent models on diverse, synthetically generated coding tasks. ## Data Collection Each trajectory was produced by a mini-swe-agent run with an **LLM router** selecting between `gpt-5.2` and `gpt-5-mini` at each step. The selected model executed the step directly (no GT-aware lookahead — one branch only). ## Format Each row contains a single complete trajectory in **OpenAI messages format**: ```json { "messages": [ {"role": "system", "content": "You are a helpful assistant..."}, {"role": "user", "content": "<pr_description>...</pr_description>"}, {"role": "assistant", "content": "THOUGHT: ...\nACTION: ..."}, {"role": "user", "content": "<returncode>0</returncode>..."}, "...", {"role": "assistant", "content": "...submit..."} ], "instance_id": "weaveworks__grafanalib.5c3b17ed.func_basic__y65m92y7", "n_turns": 9, "n_messages": 19, "selected_models": ["litellm_proxy/openai/gpt-5-mini", "litellm_proxy/openai/gpt-5.2", "..."], "resolved": true, "exit_status": "Submitted" } ``` ## Statistics | Split | Instances | |--------|-----------| | train | 1465 | (No train/validation split — evaluation-only use case.) ## Source - **Issue source**: SWE-Smith (synthetic GitHub issues) - **Candidate models**: `gpt-5.2`, `gpt-5-mini` (router-selected per step) - **Router**: `LLMRouter` (no GT-aware oracle) - **Langfuse session**: `swesmith-datacollection-run_id-71ca4b115b711e29da274c9c1654448c-llm-2026-03-25_18-10-04`

license: MIT协议 task_categories: - 文本生成 language: - 英语 tags: - SWE-bench - SWE-Smith - 代码 - 智能体轨迹（agent-trajectories） pretty_name: SWE-Smith随机子集上的智能体轨迹（单模型版本） size_categories: - 1000 < 样本量 < 10000 # 智能体轨迹：SWE-Smith随机子集——单模型版本 ## 数据概述本数据集包含从**SWE-Smith问题随机子集**中采集的完整多轮智能体轨迹，每条轨迹仅使用单个模型生成（无分支或前瞻推理）。数据集包含来自SWE-bench评估的`resolved`（任务完成状态）字段，适用于针对多样化合成编码任务的智能体模型监督微调（Supervised Fine-Tuning，SFT）。 ## 数据采集每条轨迹均由mini-swe-agent运行生成，每一步均通过**大语言模型路由器（LLM router）**在`gpt-5.2`与`gpt-5-mini`之间进行选择。被选中的模型将直接执行该步骤（无基于真实标签（Ground Truth，GT）的前瞻推理，仅支持单分支）。 ## 数据格式每条数据行包含一条采用**OpenAI消息格式（OpenAI messages format）**的完整独立轨迹，示例如下： json { "messages": [ {"role": "system", "content": "You are a helpful assistant..."}, {"role": "user", "content": "<pr_description>...</pr_description>"}, {"role": "assistant", "content": "THOUGHT: ... ACTION: ..."}, {"role": "user", "content": "<returncode>0</returncode>..."}, "...", {"role": "assistant", "content": "...submit..."} ], "instance_id": "weaveworks__grafanalib.5c3b17ed.func_basic__y65m92y7", "n_turns": 9, "n_messages": 19, "selected_models": ["litellm_proxy/openai/gpt-5-mini", "litellm_proxy/openai/gpt-5.2", "..."], "resolved": true, "exit_status": "Submitted" } ## 统计信息 | 数据集划分 | 样本数量 | |------------|----------| | 训练集 | 1465 | （注：本数据集无训练/验证集划分，仅适用于评估场景） ## 数据来源 - **问题来源**：SWE-Smith（合成GitHub问题） - **候选模型**：`gpt-5.2`、`gpt-5-mini`（每一步由路由器选择） - **路由器**：`LLMRouter`（无基于真实标签的神谕式推理） - **Langfuse会话标识**：`swesmith-datacollection-run_id-71ca4b115b711e29da274c9c1654448c-llm-2026-03-25_18-10-04`

提供机构：

JetBrains-Research

搜集汇总

数据集介绍

构建方式

在软件工程智能体研究领域，agent-trajectories-swesmith-random-subset 数据集的构建体现了对合成编码任务轨迹的系统性采集。该数据集源自 SWE-Smith 平台生成的模拟 GitHub 问题，通过一个精心设计的流程收集多轮智能体交互轨迹。具体而言，每个轨迹均由一个配备 LLM 路由器的 mini-swe-agent 运行生成，该路由器在每一步动态选择使用 gpt-5.2 或 gpt-5-mini 模型来执行操作，且整个过程遵循单分支、无前瞻的设定，确保了轨迹的连贯性与真实性。最终，数据集以 OpenAI 消息格式封装了完整的对话序列，并附带了来自 SWE-bench 评估的解决状态标注，为后续分析提供了结构化基础。

特点

该数据集的核心特点在于其专注于单一模型生成的完整智能体轨迹，避免了分支或前瞻性干预，从而提供了纯净的行为序列样本。数据以标准的 OpenAI 消息格式呈现，每条记录包含从系统提示到最终提交的完整多轮对话，并详细标注了实例ID、对话轮数、消息数量及每一步所选模型列表。尤为重要的是，数据集整合了 resolved 列，直接反映了任务在 SWE-bench 框架下的解决状态，这为评估智能体在代码任务上的实际效能提供了关键依据。其规模适中，包含1465个训练实例，专为监督微调场景设计，支持对多样化合成编码任务的深入探索。

使用方法

该数据集主要应用于智能体模型的监督式微调，旨在提升模型在复杂代码任务中的多步推理与执行能力。使用者可直接加载数据中的 messages 字段，将其作为训练输入，模拟智能体与环境的交互过程。每条轨迹的 instance_id 和 resolved 状态可用于构建评估指标，衡量模型在不同问题上的解决成功率。由于数据集未划分验证集，建议在训练时自行分割部分样本进行性能监控，或直接将其用于最终评估。数据格式与常见对话框架兼容，便于集成到现有的训练管道中，加速智能体在软件工程领域的应用研发。

背景与挑战

背景概述

在软件工程智能化研究领域，自动化代码修复与任务执行已成为关键方向。agent-trajectories-swesmith-random-subset数据集于2026年3月由研究团队基于SWE-Smith合成问题构建，旨在记录单一模型在解决多样化编程任务时的完整交互轨迹。该数据集依托SWE-bench评估框架，通过LLM路由器动态调度GPT-5.2与GPT-5-mini模型，为智能体模型的监督微调提供了高质量的多轮对话数据，推动了代码生成智能体的行为建模与性能优化研究。

当前挑战

该数据集致力于解决软件工程中自动化代码修复任务的轨迹建模挑战，其核心难点在于如何准确捕捉智能体在复杂代码环境中的多步决策逻辑。数据构建过程中面临双重挑战：一方面需确保合成问题的多样性与真实性，避免模型过拟合于特定模式；另一方面，在采用非前瞻性单分支采集策略时，需平衡轨迹完整性与数据收集效率，同时依赖路由器模型的选择能力可能导致轨迹质量波动，这为后续模型训练带来了潜在噪声。

常用场景

经典使用场景

在软件工程智能体研究领域，该数据集为监督式微调提供了关键的多轮交互轨迹。通过捕捉智能体在解决SWE-Smith合成代码问题时的完整决策序列，包括思考、行动与环境反馈，研究者能够深入分析智能体在复杂编程任务中的行为模式与策略演化。这些轨迹以OpenAI消息格式结构化呈现，便于直接用于训练端到端的代码生成智能体，尤其适用于提升模型在真实开发场景中的多步骤问题解决能力。

解决学术问题

该数据集主要应对智能体在代码生成任务中缺乏高质量、多样化交互数据的问题。它通过提供基于实际代码库问题的完整解决轨迹，帮助研究者探索智能体的决策一致性、错误恢复机制以及长期依赖处理能力。其意义在于为代码智能体的行为建模与评估建立了可重复的基准，推动了程序合成与自动化软件工程领域从单轮生成向多轮协作范式的转变，并为智能体泛化性与鲁棒性研究提供了实证基础。

衍生相关工作

基于该数据集衍生的经典工作主要集中在智能体架构优化与评估框架构建。例如，研究者利用其轨迹分析不同模型在代码任务中的性能差异，进而设计更高效的模型路由策略；同时，该数据也为SWE-bench等评估基准的扩展提供了支持，催生了针对多轮交互的智能体评估指标。这些工作深化了对代码智能体泛化能力与失败模式的理解，推动了自动化软件工程工具的实用化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集