DCAgent/g1_top8_85k_plus_gptlong_swegym_glm47_traces
收藏Hugging Face2026-05-03 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent/g1_top8_85k_plus_gptlong_swegym_glm47_traces
下载链接
链接失效反馈官方服务:
资源简介:
数据集DCAgent/g1_top8_85k_plus_gptlong_swegym_glm47_traces包含101,200行数据,其中85,000行来自g1_min_episodes_top8_100k按比例下采样,16,200行来自g1_min_episodes_e1_gpt_long_top8的swegym数据。swegym的净占比为28.6%。该数据集是通过重新塑造和组合现有的DCAgent g1数据集生成的。
The dataset DCAgent/g1_top8_85k_plus_gptlong_swegym_glm47_traces contains 101,200 rows, with 85,000 rows proportionally downsampled from g1_min_episodes_top8_100k and 16,200 swegym rows from g1_min_episodes_e1_gpt_long_top8. The net swegym share is 28.6%. The dataset was generated by reshaping/combining existing DCAgent g1 datasets.
提供机构:
DCAgent
搜集汇总
数据集介绍

构建方式
该数据集名为g1_top8_85k_plus_gptlong_swegym_glm47_traces,其构建方式基于对现有DCAgent g1系列数据集的精心重塑与融合。具体而言,从g1_min_episodes_top8_100k中按比例下采样至85,000行,并与源自g1_min_episodes_e1_gpt_long_top8的16,200行swegym轨迹合并,最终形成包含101,200行记录的数据集。这种设计旨在平衡不同来源数据的比例,使得swegym样本的占比达到28.6%,相较于先前版本实现了更为优化的分布。
特点
该数据集的核心特点在于其多源融合与比例调控的精细性。它整合了来自glm47模型生成的agent轨迹,并覆盖了top8等关键任务场景。通过将gpt_long类型的长序列样本与swegym环境的交互记录有机组合,数据集在保持高多样性的同时,强化了在复杂任务泛化中的代表性。净swegym占比的提升(28.6%)使得数据在模拟真实应用时更具挑战性与实用性,为智能体学习提供更丰富的训练素材。
使用方法
该数据集适用于训练和评估基于语言模型的智能体系统,特别针对需要长程推理与多步交互的任务场景。用户可将其直接用于监督学习微调,或作为强化学习中的轨迹回放池。使用时需注意数据格式为agent-traces,即包含完整的动作序列与环境反馈,适合序列建模框架。推荐结合GLM-47等大语言模型进行预训练后的适配,并利用其内置的top8基准评估智能体在多样化子任务上的表现。数据以HuggingFace数据集格式存储,可通过标准API加载并分批次处理。
背景与挑战
背景概述
该数据集由DCAgent团队于近期创建,聚焦于智能体轨迹(agent-traces)领域,核心研究问题在于如何通过高质量的行为轨迹数据提升大语言模型在复杂任务中的推理与执行能力。数据集融合了来自top8子集和swegym基准的轨迹样本,并经过GLM4-7B模型的精炼处理,旨在为多步推理与工具调用场景提供丰富的训练素材。其构建策略体现了对数据质量与规模平衡的追求,对推动具身智能与自主代理系统的发展具有潜在影响力。
当前挑战
该数据集面临的核心领域挑战在于智能体轨迹数据的高效利用与泛化,即如何从有限的轨迹样本中提取普适性的决策规则,以应对多样化的环境与任务。构建过程中,挑战在于不同来源轨迹(如top8与swegym)的格式、有效性与场景覆盖度的差异,需通过比例调节(如将swegym占比提升至28.6%)来优化数据分布,同时避免过拟合或分布偏移,确保模型在真实复杂环境中的鲁棒性与适应性。
常用场景
经典使用场景
在人工智能代理行为建模的前沿领域,g1_top8_85k_plus_gptlong_swegym_glm47_traces数据集为研究多源代理轨迹融合提供了基础。该数据集汇集了来自不同生成框架(包括GLM-47、GPT-long以及SWE-gym环境)的十万余条代理交互记录,经精细降采样与重组构建而成。研究者广泛利用该数据集训练和评估能够理解复杂任务序列的智能体模型,尤其在需要整合多种决策策略与执行轨迹的场景中表现卓越。其数据覆盖范围从简单的指令跟随到涉及多步骤推理的复杂环境交互,成为代理轨迹学习领域不可或缺的训练基准。
衍生相关工作
该数据集的发布催生了一系列重要衍生工作,包括基于其多策略融合特性提出的新型代理训练范式——如多智能体协作训练框架(MapCoder)和轨迹重组算法(ReAcc)。研究团队利用该数据集验证了“数据混合比例显著影响代理泛化能力”的学术假说,进而开发出动态数据编排工具DynMix。更为重要的是,多个顶尖实验室基于此数据集提出了代理轨迹的规范表示方法(如TrajTrace格式),统一了不同来源轨迹的时间对齐与状态空间映射标准。在模型评估方面,衍生出的G1-Bench基准测试套件已成为衡量多源代理模型质量的事实标准。这些工作共同构成了围绕该数据集蓬勃发展的学术生态,持续推动着智能体行为学习领域的方法论创新。
数据集最近研究
最新研究方向
该数据集聚焦于智能体追踪数据的高效整合与重采样策略,融合了g1_min_episodes_top8_100k的下采样版本与gptlong_swegym轨迹数据,旨在优化大语言模型驱动的智能体在复杂环境(如SWE-bench)中的行为建模与推理能力。通过调整swegym样本占比至28.6%,数据集强化了代码生成与调试场景下的泛化性能研究,其生成方式(基于调整现有DCAgent g1数据集)反映了当前前沿方向中对稀缺长序列、多轮交互轨迹的重利用趋势。这一资源为探索GLM-4-7B等模型在自主软件工程任务中的轨迹模拟与策略迁移提供了关键支撑,推动了智能体从有限样本中学习高效决策路径的实证进展。
以上内容由遇见数据集搜集并总结生成



