five

DCAgent/e1_gpt_long_swegym_sandboxes_4x_glm_4.7_traces_jupiter

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent/e1_gpt_long_swegym_sandboxes_4x_glm_4.7_traces_jupiter
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多轮对话记录,涉及代理、模型、任务执行和结果追踪。特征包括对话内容(含角色和内容)、代理标识、模型信息(如模型名称和提供者)、日期、任务类型、剧集、运行ID、试验名称、结果、验证器输出(通常为空)和追踪来源。数据集用于训练,包含50462个示例,总大小约6.78 GB,适用于自然语言处理、对话系统或任务导向交互的研究。

This dataset contains multi-turn conversation records involving agents, models, task execution, and result tracking. Features include conversation content (with roles and content), agent identifiers, model information (such as model name and provider), date, task type, episode, run ID, trial name, result, verifier output (typically null), and trace source. The dataset is intended for training, comprising 50,462 examples with a total size of approximately 6.78 GB, suitable for research in natural language processing, dialogue systems, or task-oriented interactions.
提供机构:
DCAgent
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对大型语言模型在沙盒环境中的交互轨迹进行系统性收集与整理。具体而言,研究团队利用SWE-gym平台,基于GLM-4.7模型,在4倍扩展的沙盒空间中模拟了多样化的编程任务执行过程。每条数据记录了一场完整的对话轨迹,包含角色与内容字段,并辅以代理标识、模型名称、提供商、时间戳、任务描述、试验编号、运行ID及最终结果等元信息。数据集的构建旨在捕捉模型在近似真实的代码沙盒中解决问题时的行为模式与决策路径。
特点
数据集的核心特色在于其结构化的多轮对话轨迹与丰富的元数据标签,共计50,462条训练样本,构成一个高密度、高维度的交互行为语料库。每条样本不仅记录了模型与环境的完整交互对话,还关联了具体的任务类型、试验轮次与执行结果,使得研究者能够深入分析模型在特定编程任务中的策略演化与失败模式。此外,数据集中包含的验证器输出字段(目前为空)预留了未来扩展评估维度的可能性,体现了数据集设计的灵活性与前瞻性。
使用方法
该数据集可通过HuggingFace Datasets库便捷加载,使用默认配置即可访问训练分片中的所有数据。用户可直接导入数据集对象,遍历每条样本以获取对话历史、任务信息及执行结果,适用于微调代码生成模型、训练基于轨迹的强化学习代理或评估模型在沙盒环境中的问题解决能力。数据集的JSON结构化格式便于与主流深度学习框架无缝对接,开发者可依据‘task’、‘episode’或‘result’等字段进行数据筛选与分组,以支持定制化的实验设计。
背景与挑战
背景概述
该数据集创建于2024年,由智谱AI(GLM团队)主导构建,旨在探索大规模语言模型在多智能体协作场景下的推理与执行能力。核心研究问题聚焦于如何利用GPT-4等强模型生成的轨迹数据,来增强弱模型(如GLM-4)在复杂沙盒环境中的任务完成表现。数据集收录了约5万条交互轨迹,涵盖多种任务类型与代理角色,其构建基于SWE-Gym等标准评测框架,为多智能体系统的行为学习与迁移提供了高质量的训练资源。在相关领域,该数据集推动了基于轨迹蒸馏的模型对齐研究,尤其在代码生成、工具使用及多轮对话一致性方面具有显著影响力。
当前挑战
所解决的领域问题在于:大型语言模型在开放沙盒环境中存在任务分解不细、工具调用策略单一以及错误恢复能力薄弱等缺陷,亟需通过真实交互轨迹的数据驱动方法进行系统优化。构建过程中遭遇的挑战包括:需确保轨迹来源的多样性以覆盖不同任务的空间复杂度;人工标注与自动验证机制的结合面临成本与准确性权衡;不同模型生成的轨迹存在风格与策略的异构性,需设计鲁棒的数据清洗与筛选策略;此外,数据隐私与使用许可的合规性审查也增加了数据集发布的复杂性。这些挑战共同制约着多智能体协作数据集的规模化与实用化发展。
常用场景
经典使用场景
该数据集记录了在通用语言模型(如GLM-4)驱动下,智能体在SWE-gym沙盒环境中执行复杂编程任务的完整交互轨迹。其经典使用场景在于训练和评估基于大语言模型的自主编程智能体,尤其是需要多轮对话、工具调用与代码执行相结合的端到端任务求解过程。研究者可借助这些高保真轨迹数据,深入分析模型在真实工程环境中的决策逻辑与错误模式。
实际应用
在实际应用中,该数据集可赋能自动化软件开发工具链的构建,例如用于训练智能代码助手、自动Bug修复系统或持续集成测试用例生成器。基于这些轨迹数据,开发者能够部署更鲁棒的智能体,使其在真实代码仓库中自主完成功能实现、重构或调试任务。此类应用有望显著降低软件维护成本,并提升开发团队在复杂项目中的协作效率。
衍生相关工作
该数据集衍生了多个经典工作,包括基于轨迹微调的大语言模型智能体训练范式(如AgentTuning)、交互轨迹数据的高效压缩与检索方法,以及面向软件工程任务的基准测试体系(如SWE-bench)。此外,研究者还利用其数据特点设计出多轮对话中的状态回溯机制与工具调用反馈优化策略,进一步推动了可解释、可审计的编程智能体研究方向的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作