armand0e/ag-datagen-v2-test

Name: armand0e/ag-datagen-v2-test
Creator: armand0e
Published: 2026-04-30 22:28:38
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/armand0e/ag-datagen-v2-test

下载链接

链接失效反馈

官方服务：

资源简介：

该目录包含由agentic-datagen生成的原始代理跟踪文件。所有助手响应均由minimax/minimax-m2.7生成。跟踪文件数量为20个。每个文件是以换行符分隔的JSON，代表一个捕获的代理会话。跟踪模式设计为优先上传保存，以便保留原始会话历史并在以后转换为训练数据。常见的顶级事件组包括session_meta、turn_context、event_msg、response_item、session、message、session_info、model_change和thinking_level_change。

This directory contains raw agent trace files generated by agentic-datagen. All assistant responses were generated by minimax/minimax-m2.7. Trace files: 20. Each file is newline-delimited JSON representing a single captured agent session. The trace schema is designed for upload-first preservation so you can keep the original session history and convert it later for training. Common top-level event groups include session_meta, turn_context, event_msg, response_item, session, message, session_info, model_change, and thinking_level_change.

提供机构：

armand0e

搜集汇总

数据集介绍

构建方式

在智能体训练数据领域中，高质量的交互轨迹对于模型能力的提升至关重要。ag-datagen-v2-test数据集基于agentic-datagen框架构建，通过捕获完整的智能体会话流程生成原始轨迹文件。所有助手的响应均由minimax/minimax-m2.7模型生成，共计20个轨迹文件。数据集采用换行符分隔的JSON格式存储，每条记录代表一个独立的智能体会话，其事件类型涵盖session_meta、turn_context、event_msg、response_item等常见顶层事件组，便于后续解析与转换。

特点

该数据集的设计体现了灵活性与结构化并重的特点。每个轨迹文件完整记录了会话元信息、模型切换、思考层级变化等关键事件，保留了原始会话历史的完整性。数据集中预定义了四种训练就绪的工具函数——bash命令执行、精准文件编辑、文件读取与写入，每种工具均配有详细的参数规范与描述。这些工具以统一的结构嵌入每条转换后的训练样本中，为模型学习调用外部工具提供了丰富的示例。

使用方法

使用者可借助agentic-datagen库中的convert_traces_to_training_data函数，将原始轨迹文件便捷地转换为可直接用于模型训练的标准示例。转换过程中，系统会自动整合预定义的工具负载，并按照训练聊天模板的要求格式化输出。该数据集适用于需要智能体交互能力的场景，如代码生成、文件操作等任务，研究人员可直接基于转换后的训练数据开展微调或强化学习实验。

背景与挑战

背景概述

Agentic Training Traces（ag-datagen-v2-test）数据集诞生于2026年，由Minimax团队构建，核心研究问题聚焦于如何高效生成可用于训练智能代理（agent）行为的交互轨迹数据。该数据集记录了20条由minimax/minimax-m2.7模型自动生成的原始代理会话，旨在为语言模型从被动问答向主动执行任务的能力进化提供训练素材。其设计理念在于保存完整的代理交互历史，支持后续转换为标准训练格式，从而推动代码生成、文件操作、bash命令执行等工具调用场景下的智能体研究。作为Agentic Data Generation框架的产物，该数据集对于探索合成代理轨迹的可扩展生产方法具有基础性意义，尤其在降低人工标注成本与提升训练数据多样性方面展现了新的可能性。

当前挑战

该数据集面临的核心挑战包括：其一，在工具调用领域，如何让模型习得规划与执行复杂任务的能力，而非仅停留在单步指令响应；当前数据仅涵盖bash、edit、read、write四类基础工具，距离真实世界中的多工具编排与长程依赖推理仍有显著差距。其二，构建过程中，原始轨迹依赖于单一模型（minimax-m2.7）自动生成，面临模型偏差与数据多样性不足的问题；会话架构虽支持首次保存以保留完整历史，但转换工具链尚需标准化，以确保不同来源的代理轨迹能被统一处理并用于训练。此外，20条样本的规模极小，难以支撑鲁棒的模型训练，进一步限制了该数据集在实际场景中的应用潜力。

常用场景

经典使用场景

在智能体系统（Agentic System）蓬勃发展的时代浪潮中，该数据集以Agentic Training Traces为核心，为训练具备复杂工具调用能力的对话式智能体提供了宝贵的原始轨迹资源。其经典使用场景聚焦于利用bash、edit、read与write四种函数工具，引导大语言模型模拟人类工程师的交互流程，通过多轮函数调用完成文件读写、命令执行等任务。数据集内20条由minimax-m2.7生成的完整会话轨迹，为研究者构建基于工具推理的智能体训练范例，尤其适用于监督微调与偏好对齐阶段，使模型能够从结构化行为序列中习得精准的意图拆解与动作执行能力。

衍生相关工作

该数据集的诞生孕育了一批标志性的衍生工作：围绕其工具调用范式，研究者拓展出专门评估智能体任务完成度的基准方法，如提出分步成功率指标与错误恢复率度量标准；也有团队将其与专用合成框架整合，实现了对智能体轨迹数据的可缩放增强，构建了百万级规模的工具调用微调库。在模型架构层面，衍生的相关工作探索了将工具调用规划融入解码概率计算的新型策略，并开创了基于示例抗性学习的智能体反思机制。此外，基于该数据格式的简化版本已被广泛采纳在开源模型的函数调用能力评测中，成为衡量当代大模型软件工程能力的事实参考之一，推动了整个领域训练数据标准化与共享生态的形成。

数据集最近研究