DCAgent2/dev_set_v2_SA_SWE_32B_20260427_061847-traces

Name: DCAgent2/dev_set_v2_SA_SWE_32B_20260427_061847-traces
Creator: DCAgent2
Published: 2026-04-30 07:21:37
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/dev_set_v2_SA_SWE_32B_20260427_061847-traces

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 13562058 num_examples: 110 download_size: 10965641 dataset_size: 13562058 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集名为dev_set_v2_SA_SWE_32B_20260427_061847-traces，专为智能体对话系统与软件工程（SWE）任务而构建。其构建方式源于对32B参数规模模型的交互轨迹进行系统性采集，每条数据包含完整的对话历史（conversations）、智能体标识（agent）、模型信息（model及model_provider）、时间戳（date）、任务描述（task）及运行标识（run_id、trial_name、episode）。此外，还记录了任务的最终结果（result）与验证器输出（verifier_output），确保每条轨迹具备可追溯性与评估依据。数据集以parquet格式存储，划分为单一训练集，共包含110条样本，数据量约为13.5MB，适用于多轮对话与智能体推理场景的研究。

使用方法

该数据集可通过HuggingFace的datasets库直接加载，指定配置名default并读取训练分片即可获取全部110条样本。研究者可利用conversations字段重建多轮对话，结合agent与task字段按特定智能体或任务类型筛选数据，用于监督微调或偏好对齐。result与verifier_output可作为评估标签，用于训练奖励模型或自动化验证器。由于数据量适中，可快速用于小规模实验或作为基准测试集。在开发中，需注意将对话内容按角色解析为模型输入格式，并利用字符串字段预处理日期与元数据，以适应不同的训练框架。

背景与挑战

背景概述

该数据集由研究团队于2026年4月创建，聚焦于大语言模型在多智能体协作环境中的行为追踪与性能评估。随着大语言模型在复杂任务中的广泛应用，理解模型间交互模式与决策过程成为关键研究问题。该数据集通过记录多轮对话、智能体身份、模型来源及任务执行结果等结构化信息，为分析多智能体系统的一致性、鲁棒性与可解释性提供了宝贵资源，对推动大语言模型在软件工程、自动化决策等领域的应用具有重要参考价值。

当前挑战

该数据集主要挑战在于解决多智能体协作中的交互与验证问题，即如何从对话轨迹中提取有效决策信号，并评估模型在复杂任务中的真实性能。此外，构建过程中需应对数据规模有限（仅110条样本）带来的过拟合风险，确保标注一致性与任务多样性；同时，记录模型版本、运行环境及验证器输出等元信息，以支持后续模型对比与可复现性研究，这对数据采集与质量控制提出了较高要求。

常用场景

经典使用场景

该数据集收录了SWE-bench软件工程任务中，由32B规模语言模型在自主智能体框架下生成的完整推理轨迹与执行日志，涵盖对话历史、任务描述、模型输出及验证结果等关键字段。研究者将其作为经典基准，用于评估大语言模型在复杂代码仓库环境中的上下文理解、问题定位与补丁生成能力，尤其关注智能体在长程依赖任务中的决策连贯性与工具调用效率，是推动代码智能从静态补全迈向动态修复的标杆性资源。

解决学术问题

学术界长期受困于缺乏细粒度、多轮交互的软件工程轨迹数据，导致对模型推理过程的归因分析难以深入。该数据集通过结构化记录每一步智能体-环境交互（包括失败试探与成功策略），解决了从‘最终结果’到‘过程因果’的归因难题。它为研究代码补丁生成中的探索-利用平衡、上下文窗口压缩策略以及多模态（自然语言+代码）对齐提供了实证基础，显著提升了可复现研究与跨模型对比的严谨性。

实际应用

在实际研发场景中，该数据集可直接用于训练和微调代码智能助手，提升其在真实GitHub仓库中自主定位Bug、生成修复补丁并维护项目结构一致性的能力。例如，后端DevOps团队可依据轨迹中的‘verifier_output’字段优化CI/CD管线中的自动调试模块；同时，数据中的多轮对话模式被用于增强企业级代码审查工具的上下文感知反馈系统，显著缩短从缺陷报告到补丁提交的闭环周期。

数据集最近研究