hermes-agent-reasoning-traces

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/lambda/hermes-agent-reasoning-traces

下载链接

链接失效反馈

官方服务：

资源简介：

Hermes Agent Reasoning Traces 是一个用于训练AI代理的多轮工具调用轨迹数据集，包含真实代理对话及逐步推理过程（通过<think>块标记）和实际工具执行结果。数据集包含两种配置，分别来自Moonshot AI Kimi-K2.5和ZhipuAI GLM-5.1-FP8模型，共计约15,000个样本。每个样本包含UUID标识符、多轮对话（系统、人类、GPT和工具消息）、可用工具定义JSON、任务类别和描述等信息。对话采用ShareGPT格式，包含思维链推理、函数调用和真实执行结果。数据集覆盖9个任务类别，包括终端与编码、代理工具、存储库任务、浏览器自动化等。所有数据均通过真实工具执行生成，而非合成输出。数据集采用Apache 2.0许可证发布。

Hermes Agent Reasoning Traces is a multi-turn tool call trajectory dataset designed for training AI Agents. It contains real agent conversations, step-by-step reasoning processes (marked with <think> blocks), and actual tool execution results. The dataset has two configurations sourced from Moonshot AI Kimi-K2.5 and ZhipuAI GLM-5.1-FP8 models, comprising approximately 15,000 samples in total. Each sample includes a UUID identifier, multi-turn conversations (covering system, human, GPT and tool messages), a JSON-specified definition of available tools, task categories and descriptions, among other information. The conversations follow the ShareGPT format, and incorporate chain-of-thought reasoning, function calls and real execution results. The dataset covers 9 task categories, including Terminal and Coding, Agent Tools, Repository Tasks, Browser Automation, and more. All data is generated through real tool execution, rather than synthetic outputs. The dataset is released under the Apache 2.0 license.

创建时间：

2026-03-30

原始信息汇总

Hermes Agent Reasoning Traces 数据集概述

数据集基本信息

名称: Hermes Agent Reasoning Traces
托管地址: https://huggingface.co/datasets/lambda/hermes-agent-reasoning-traces
许可证: Apache 2.0
主要任务类别: 文本生成
语言: 英语
标签: 工具调用、函数调用、智能体、Hermes、推理、ShareGPT、SFT
数据规模: 10K < n < 100K

配置与来源

数据集包含两个配置，分别对应不同的源模型：

配置名称	源模型	样本数量
kimi	Moonshot AI Kimi-K2.5	7,646
glm-5.1	ZhipuAI GLM-5.1-FP8	7,055

数据加载方式

python from datasets import load_dataset

加载 Kimi-K2.5 轨迹

ds = load_dataset("lambda/hermes-agent-reasoning-traces", "kimi", split="train")

加载 GLM-5.1 轨迹

ds = load_dataset("lambda/hermes-agent-reasoning-traces", "glm-5.1", split="train")

数据模式

两个配置共享相同的数据模式：

字段	类型	描述
`id`	字符串	UUID 标识符
`conversations`	列表	多轮对话（系统、人类、GPT、工具消息）
`tools`	字符串	智能体可用的 JSON 工具定义
`category`	字符串	高级任务类别
`subcategory`	字符串	细粒度任务类型
`task`	字符串	任务描述（来自用户提示）

对话消息使用 ShareGPT 格式： json {"from": "system|human|gpt|tool", "value": "..."}

<think> 块包含链式推理
<tool_call> 块包含函数调用
<tool_response> 块包含实际执行结果

统计信息

指标	kimi	glm-5.1
样本数	7,646	7,055
总轮次	185,798	134,918
总工具调用数	106,222	68,328
每样本平均轮次	24.3	19.1
每样本平均工具调用数	13.9	9.7
平均 `<think>` 深度（词数）	414	70

任务类别分布

两个配置使用共享的 9 类别分类法：

类别	kimi	glm-5.1
终端与编码	2,010	2,237
智能体工具	1,474	2,775
仓库任务	1,109	1,022
浏览器自动化	1,048	639
多工具	807	52
文件操作	757	134
日程安排	204	104
规划与组织	201	92
对话	36	0

生成细节

Kimi-K2.5

模型: moonshotai/Kimi-K2.5 (MoE)
推理: 使用 vLLM，参数为 --tool-call-parser kimi_k2 --reasoning-parser kimi_k2 --enable-auto-tool-choice

GLM-5.1

模型: zai-org/GLM-5.1-FP8
推理: 使用 vLLM，参数为 --tool-call-parser glm47 --reasoning-parser glm45 --enable-auto-tool-choice
服务: 通过负载均衡网关的 3x 8xH100 节点
上下文: 最大 202,752 个令牌，使用 MTP 推测解码

两个数据集均使用 hermes-agent-generator 流水线生成，并包含真实工具执行（终端命令、文件操作、浏览器操作），而非合成输出。

数据来源

两个数据集包含相同任务类别的轨迹：

终端与编码 — 脚本编写、调试、环境设置、数据处理、测试、文档编写
浏览器自动化 — 基于 Playwright 的导航、抓取、表单填写、截图分析
智能体工具 — Hermes 特定功能：记忆持久化、任务委派、技能管理、待办事项规划、代码执行、会话回忆
仓库任务 — 跨 GitHub 仓库的真实代码库工作：错误修复、功能实现、测试编写、代码审查、重构

搜集汇总

数据集介绍

构建方式

在智能体研究领域，构建高质量的训练轨迹对于提升模型的实际任务执行能力至关重要。Hermes Agent Reasoning Traces数据集通过集成真实工具调用环境生成，其构建过程依托于Hermes Agent框架，采用Moonshot AI的Kimi-K2.5与智谱AI的GLM-5.1-FP8两大先进模型作为推理引擎。数据生成并非依赖合成输出，而是通过配置vLLM推理服务并启用自动工具选择与专用解析器，在终端命令、文件操作、浏览器自动化等实际场景中执行多轮对话，从而采集包含逐步推理链与真实工具执行结果的交互轨迹。这一构建方式确保了数据的高度真实性与任务覆盖的广泛性。

特点

该数据集在智能体训练数据中展现出鲜明的技术特征，其核心在于提供了包含详细思维过程与工具执行结果的多轮对话轨迹。每条样本均遵循ShareGPT格式，明确标注系统、用户、模型及工具消息，并嵌入了结构化的<think>推理块与<tool_call>工具调用块。数据集涵盖终端与编码、浏览器自动化、存储库任务等九大任务类别，总计超过1.4万条样本，平均每样本包含约20轮对话与10余次工具调用。尤为突出的是，Kimi配置的样本平均思维深度达414词，为模型提供了丰富的推理上下文，而GLM-5.1配置则在高吞吐量推理环境下生成，体现了不同模型在复杂任务处理上的差异化表现。

使用方法

为有效利用这一数据集进行智能体训练或评估，研究者可通过Hugging Face的datasets库便捷加载。数据集提供kimi与glm-5.1两种配置，分别对应不同的源模型轨迹，用户可根据需要选择特定配置进行加载。数据模式统一，包含对话列表、可用工具定义及任务分类等关键字段，支持直接用于监督微调或行为克隆。在实际应用中，开发者可依据任务类别筛选样本，或利用其丰富的多轮交互与真实工具响应来训练模型掌握规划、推理与工具调用的综合能力，进而推动通用智能体在复杂环境中的适应性发展。

背景与挑战

背景概述

在人工智能代理领域，提升模型在复杂任务中的推理与工具调用能力是核心研究方向。Hermes Agent Reasoning Traces数据集由NousResearch团队于2024年创建，旨在提供真实多轮对话轨迹，包含逐步推理过程与工具执行结果。该数据集基于Moonshot AI的Kimi-K2.5与智谱AI的GLM-5.1等先进模型生成，覆盖终端编码、浏览器自动化、仓库任务等九大类别，为训练高效AI代理提供了高质量监督数据，推动了具身智能与自主任务执行系统的进展。

当前挑战

该数据集致力于解决AI代理在开放环境中进行多步骤推理与工具调用的挑战，包括如何整合链式思维与真实工具反馈以提升任务完成率。在构建过程中，挑战主要源于确保工具执行结果的真实性与多样性，避免合成数据导致的泛化不足；同时，处理多轮对话的长期依赖与复杂工具定义的一致性也增加了数据收集与标注的难度。此外，平衡不同任务类别的样本分布以覆盖广泛场景，亦是数据集构建的关键考量。

常用场景

经典使用场景

在智能体与工具调用研究领域，Hermes Agent Reasoning Traces数据集为训练具备复杂推理能力的AI代理提供了关键资源。该数据集收录了多轮对话轨迹，其中包含逐步推理的思考块和实际工具执行结果，使得研究者能够基于真实交互数据，优化代理在终端编码、浏览器自动化及多工具协同等任务中的决策过程。通过模拟人类代理的链式思考与工具调用行为，该数据集成为开发高效、可靠智能体系统的核心训练素材。

解决学术问题

该数据集有效应对了智能体研究中工具调用与推理过程的可解释性挑战。传统方法往往依赖合成数据或简化模拟，难以捕捉真实场景中的复杂交互。Hermes Agent Reasoning Traces通过提供包含实际执行结果的轨迹，支持对代理内部推理机制进行细致分析，助力解决工具选择准确性、多步任务规划以及错误恢复等关键学术问题，推动了具身智能与自主代理系统的理论进展。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于工具增强型智能体的经典研究工作。例如，基于Hermes Agent框架的后续扩展优化了多模态工具调用策略，提升了代理在混合任务中的泛化能力。同时，该数据集也催生了针对推理轨迹的可视化分析工具与评估基准，促进了智能体决策透明度的研究。这些工作共同推动了开源智能体生态的发展，为更复杂的人机协作场景提供了技术储备。

以上内容由遇见数据集搜集并总结生成