DCAgent/g1_top8_85k_plus_gptlong_swegym_10000_glm47_traces
收藏Hugging Face2026-05-03 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent/g1_top8_85k_plus_gptlong_swegym_10000_glm47_traces
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: agent
dtype: string
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: date
dtype: string
- name: episode
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: result
dtype: string
- name: run_id
dtype: string
- name: task
dtype: string
- name: trial_name
dtype: string
splits:
- name: train
num_bytes: 709569458
num_examples: 10000
download_size: 211181127
dataset_size: 709569458
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent
搜集汇总
数据集介绍

构建方式
g1_top8_85k_plus_gptlong_swegym_10000_glm47_traces数据集汇聚了来自多个前沿大语言模型(如GPT-4及其长文本变体、GLM-4-7B等)在SweGym环境中的交互轨迹,经过精心筛选与后处理构建而成。具体而言,数据集首先从85k规模的初始池中依据任务完成质量选取前8名agent的表现,并进一步结合长文本生成能力与SweGym基准测试要求,对10000条轨迹进行标准化整理。每条样本包含agent身份、多轮对话、运行ID、任务描述、结果状态及模型来源等结构化字段,确保数据来源清晰、格式统一、层次分明。
特点
该数据集的核心特色在于其跨模型、多源化的轨迹数据融合设计。它囊括了GPT系列长文本模型与GLM-4-7B等多种架构的agent行为记录,提供了丰富的任务执行日志与模型表现对比基准。每个样本不仅包含完整的对话历史与最终结果,还记录了运行日期、试验名称等元信息,便于进行时间维度和实验版本的分析。此外,数据集规模均衡(10000条),字段设计兼顾可读性与可扩展性,非常适合用于agent训练、行为建模及多模型策略迁移研究。
使用方法
该数据集以HuggingFace Datasets标准格式存储,默认划分为训练集,用户可通过datasets库直接加载使用。加载时指定config_name为'default',数据文件路径为'data/train-*'。每条样本以字典形式呈现,包含agent、conversations(对话列表,每个元素含role与content字段)、date、episode、model、model_provider、result、run_id、task、trial_name等字段。研究者可依据task字段筛选特定任务类型,或按照model字段进行模型间的对比实验。conversations字段支持多轮对话结构解析,便于构建基于上下文的agent训练或评估流程。
背景与挑战
背景概述
随着大型语言模型在复杂任务中的应用日益广泛,智能体(Agent)的推理与决策能力成为研究热点。该数据集创建于2024年,由智谱AI等机构的研究人员共同构建,旨在捕捉GLM-4系列模型在多轮对话与工具调用场景下的行为轨迹。核心研究问题在于如何通过高质量的交互数据提升模型在长上下文任务中的执行准确性与稳定性,尤其是在结合GPT-4等外部模型产生的合成数据进行对比学习时,该数据集为探究模型对齐与泛化能力提供了关键支撑。其影响力体现在为多智能体协作与轨迹追踪研究奠定了数据基础。
当前挑战
该数据集所解决的领域问题在于,现有智能体轨迹数据往往缺乏细粒度的任务分解与结果反馈,导致模型难以在开放环境中进行高效决策。具体挑战包括:数据采集阶段需同时应对多源模型(如GPT-4、GLM-4)的行为差异,确保轨迹一致性与可比性;构建过程中,对话记录的时间戳与任务标签(episode、trial_name)的精准对齐成为技术难点,以避免时序错乱对模型学习产生误导。此外,如何从海量交互中筛选出具有代表性的成功与失败案例,以平衡数据集的鲁棒性与多样性,是确保后续训练效果的核心挑战。
常用场景
经典使用场景
该数据集g1_top8_85k_plus_gptlong_swegym_10000_glm47_traces聚焦于智能体(Agent)在多轮对话与任务执行中的行为轨迹建模。其经典使用场景涵盖基于强化学习与模仿学习的智能体训练,研究人员可利用其中结构化的对话记录(conversations)和任务结果(result)分析智能体的决策链路,以提升其长期推理与交互能力。此外,数据集亦常用于评测大型语言模型(如GPT、GLM系列)在动态环境下的工具调用、计划生成与错误修正等复杂行为,为自主智能体的开发提供了高质量的基准数据。
解决学术问题
该数据集有效解决了智能体在长序列任务中行为一致性与可复现性的学术难题。通过记录完整的episode轨迹,它助力研究者深入分析智能体的失败模式,例如任务分解失误、上下文遗忘或工具滥用,从而推动鲁棒性学习算法的改进。数据集中多模型(如GLM-47)与多供应商(model_provider)的对比信息,还支持跨架构的行为差异分析,为理解语言模型的涌现能力提供了实证基础,在智能体泛化与自适应研究领域具有重要贡献。
衍生相关工作
基于该数据集,学界已衍生出多项突破性工作,包括自适应提示策略优化(如通过轨迹聚类改进思维链推理)、多智能体协作框架的扩展(利用episode间依赖关系设计任务分配协议),以及基于结果(result)特征训练的奖励模型。典型成果如将对话历史编码为状态表征的Transformer变体,以及利用GLM-47轨迹微调出更高效的轻量级模型。这些工作不仅凸显了数据集在迁移学习与跨模型蒸馏中的桥梁作用,还催生了面向安全可控智能体的轨迹因果解释方法,进一步拓宽了人机协同的边界。
以上内容由遇见数据集搜集并总结生成



