lambda/hermes-agent-reasoning-traces
收藏Hugging Face2026-04-17 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/lambda/hermes-agent-reasoning-traces
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- en
tags:
- tool-calling
- function-calling
- agent
- hermes
- reasoning
- sharegpt
- sft
- traces
size_categories:
- 10K<n<100K
configs:
- config_name: kimi
data_files:
- split: train
path: data/kimi/train.parquet
- config_name: glm-5.1
data_files:
- split: train
path: data/glm-5.1/train.parquet
---
# Hermes Agent Reasoning Traces
Multi-turn tool-calling trajectories for training AI agents using the [Hermes Agent](https://github.com/nousresearch/hermes-agent) harness. Each sample is a real agent conversation with step-by-step reasoning (`<think>` blocks) and actual tool execution results.
This dataset has two configs, one per source model:
| Config | Model | Samples |
|--------|-------|---------|
| **kimi** | Moonshot AI Kimi-K2.5 | 7,646 |
| **glm-5.1** | ZhipuAI GLM-5.1-FP8 | 7,055 |
## Loading
```python
from datasets import load_dataset
# Kimi-K2.5 traces
ds = load_dataset("lambda/hermes-agent-reasoning-traces", "kimi", split="train")
# GLM-5.1 traces
ds = load_dataset("lambda/hermes-agent-reasoning-traces", "glm-5.1", split="train")
```
## Schema
Both configs share the same schema:
| Field | Type | Description |
|-------|------|-------------|
| `id` | string | UUID identifier |
| `conversations` | list | Multi-turn dialogue (system, human, gpt, tool messages) |
| `tools` | string | JSON tool definitions available to the agent |
| `category` | string | High-level task category |
| `subcategory` | string | Fine-grained task type |
| `task` | string | Task description (from user prompt) |
Conversation messages use ShareGPT format:
```json
{"from": "system|human|gpt|tool", "value": "..."}
```
- `<think>` blocks contain chain-of-thought reasoning
- `<tool_call>` blocks contain function invocations
- `<tool_response>` blocks contain real execution results
## Statistics
| Metric | kimi | glm-5.1 |
|--------|------|---------|
| Samples | 7,646 | 7,055 |
| Total turns | 185,798 | 134,918 |
| Total tool calls | 106,222 | 68,328 |
| Avg turns per sample | 24.3 | 19.1 |
| Avg tool calls per sample | 13.9 | 9.7 |
| Avg `<think>` depth (words) | 414 | 70 |
## Categories
Both configs use a shared 9-category taxonomy:
| Category | kimi | glm-5.1 |
|----------|-----:|--------:|
| Terminal & Coding | 2,010 | 2,237 |
| Agent Tools | 1,474 | 2,775 |
| Repository Tasks | 1,109 | 1,022 |
| Browser Automation | 1,048 | 639 |
| Multi-Tool | 807 | 52 |
| File Operations | 757 | 134 |
| Scheduling | 204 | 104 |
| Planning & Organization | 201 | 92 |
| Conversational | 36 | 0 |
## Generation Details
### Kimi-K2.5
- **Model:** `moonshotai/Kimi-K2.5` (MoE)
- **Inference:** vLLM with `--tool-call-parser kimi_k2 --reasoning-parser kimi_k2 --enable-auto-tool-choice`
### GLM-5.1
- **Model:** `zai-org/GLM-5.1-FP8`
- **Inference:** vLLM with `--tool-call-parser glm47 --reasoning-parser glm45 --enable-auto-tool-choice`
- **Serving:** 3x 8xH100 nodes via load-balanced gateway
- **Context:** 202,752 tokens max, MTP speculative decoding
Both datasets were generated using the [hermes-agent-generator](https://github.com/nousresearch/hermes-agent) pipeline with **real tool execution** (terminal commands, file operations, browser actions) — not synthetic outputs.
## Data Sources
Both datasets include trajectories across the same task categories:
- **Terminal & Coding** — script writing, debugging, environment setup, data processing, testing, documentation
- **Browser Automation** — Playwright-based navigation, scraping, form filling, screenshot analysis
- **Agent Tools** — Hermes-specific capabilities: memory persistence, task delegation, skill management, todo planning, code execution, session recall
- **Repository Tasks** — real codebase work across GitHub repos: bug fixes, feature implementation, test writing, code review, refactoring
## License
Apache 2.0
提供机构:
lambda
搜集汇总
数据集介绍

构建方式
在人工智能代理研究领域,构建高质量的训练轨迹对于提升模型的实际任务执行能力至关重要。hermes-agent-reasoning-traces数据集的构建采用了多阶段生成与严格后处理的策略。第一阶段聚焦于终端与浏览器任务,生成了五千余个涉及脚本编写、环境调试及网页交互的样本;第二阶段引入代理原生工具,涵盖记忆管理、任务委派等高级功能;第三阶段则针对真实代码库任务,从三十八个顶级GitHub仓库中提取了包括错误修复与功能实现在内的实际工作流。所有样本均经过质量过滤,确保工具输出为真实执行结果,并移除了全错误或幻觉样本,最终形成了覆盖广泛工具类型的高保真多轮对话轨迹。
特点
该数据集的核心特征在于其真实性与复杂性,为智能代理的训练提供了高度仿真的环境。所有工具调用均基于实际执行,而非合成输出,确保了学习信号的可靠性。数据中嵌入了丰富的逐步推理痕迹,清晰展示了代理在每次行动前的思维链条。值得注意的是,数据集中16%的助手轮次涉及并行工具调用,模拟了高效的多任务处理场景,而81%的轨迹包含了工具失败后的自适应恢复行为,这为训练模型的鲁棒性与错误处理能力提供了宝贵实例。其内容横跨终端操作、浏览器自动化、代理原生功能及真实代码库任务,构成了一个多维度的综合评估基准。
使用方法
该数据集遵循标准化的ShareGPT对话格式,与NousResearch的Hermes函数调用框架完全兼容,便于研究者直接集成到现有训练流程中。每个样本包含完整的对话轮次、工具定义及任务分类信息,其中代理的推理过程封装于<think>标签内,工具调用与响应则分别由<tool_call>和<tool_response>标签标示。使用者可通过axolotl等训练框架,利用其预定义的聊天模板进行监督微调,或通过简单的字段映射适配TRL等强化学习库。数据集特别适用于训练具备复杂推理与工具使用能力的AI代理,支持从基础代码生成到高级系统交互等多种下游任务的模型开发与评估。
背景与挑战
背景概述
在人工智能代理领域,如何训练模型进行复杂推理与工具调用是核心研究问题。由NousResearch机构创建的hermes-agent-reasoning-traces数据集,于近期发布,旨在为基于Hermes Agent框架的智能代理提供高质量的多轮交互轨迹。该数据集聚焦于真实环境下的任务执行,涵盖终端操作、浏览器自动化、代码库维护及代理原生工具使用等多个维度,通过引入详尽的思维链痕迹与并行工具调用记录,为提升代理的规划、纠错与适应能力提供了关键数据支持,对推动具身智能与自主代理系统的发展具有显著影响力。
当前挑战
该数据集致力于解决智能代理在开放环境中执行多步骤任务时面临的规划与工具调用挑战,包括如何在动态反馈中进行错误恢复、实现并行工具协调以及维持长期推理一致性。在构建过程中,挑战主要体现于确保工具执行结果的真实性,避免合成数据带来的偏差;同时,需从多样化的真实任务源(如GitHub代码库、终端操作)中采集高质量轨迹,并处理数据中的工具失败案例与幻觉问题,以维持数据集的可靠性与泛化能力。
常用场景
解决学术问题
该数据集有效应对了AI代理研究中工具调用与推理能力结合的挑战。它通过提供真实而非合成的工具输出,解决了模拟环境中行为与现实脱节的问题,促进了代理在链式思维、错误恢复和并行操作方面的研究。其覆盖的多样化任务场景,如代码修复、浏览器导航和技能管理,为评估代理在跨领域应用中的泛化能力提供了基准,推动了具身智能与自动化系统的发展。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,主要集中在工具调用范式的优化与代理架构的创新。例如,基于其格式兼容性,研究者扩展了Hermes Agent框架,开发了更高效的并行工具调用机制;同时,该数据也被用于训练和评估新型代理模型,如增强推理能力的多模态系统。这些工作进一步推动了开源社区中工具调用标准的发展,并为后续数据集如hermes-function-calling-v1的构建提供了参考。
以上内容由遇见数据集搜集并总结生成



