austindixson/agent-dataset-hybrid-v2
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/austindixson/agent-dataset-hybrid-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
- question-answering
language:
- en
tags:
- agents
- tool-use
- coding
- reasoning
- claude
- anthropic
- tool-calling
- function-calling
- code-generation
- attribution-required
size_categories:
- 100K<n<1M
dataset_info:
- attribution:
- Contains data from nohurry/Opus-4.6-Reasoning-3000x-filtered (Apache 2.0)
- Contains data from Jackrong/Qwen3.5-reasoning-700x (Apache 2.0)
- license: apache-2.0
---
# Agent Dataset Hybrid v2
Fine-tuning dataset for training AI agents with tool-use capabilities and reasoning skills.
## ⚠️ Attribution Notice
This dataset incorporates data from the following sources:
### Original Sources
1. **[Opus-4.6-Reasoning-3000x-filtered](https://huggingface.co/datasets/nohurry/Opus-4.6-Reasoning-3000x-filtered)** by nohurry
- License: [Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
- Contribution: Mathematical and logical reasoning samples with explicit thinking tags
- Samples in this dataset: ~2,093 (5.2%)
2. **[Qwen3.5-reasoning-700x](https://huggingface.co/datasets/Jackrong/Qwen3.5-reasoning-700x)** by Jackrong
- License: [Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
- Contribution: Natural language Chain-of-Thought reasoning
- Samples in this dataset: ~569 (1.4%)
3. **Agent conversations (primary dataset)** by austindixson
- License: Apache 2.0
- Contribution: Claude Code agent workflows with tool-use
- Samples in this dataset: ~39,971 (93.3%)
### License Notice
This derivative work is licensed under the **Apache 2.0 License**.
Original datasets are used in accordance with their Apache 2.0 licenses. This dataset:
- ✅ Includes attribution to original creators
- ✅ States this is a derivative work
- ✅ Uses the same Apache 2.0 license
- ✅ Includes license notice
## Dataset Description
Multi-purpose fine-tuning dataset combining:
- **Tool-Use Workflows**: Real agent conversations with file operations, code execution, search
- **Mathematical Reasoning**: Step-by-step problem solving with `<thinking>` tags
- **Natural Reasoning**: Conversational Chain-of-Thought processes
## Dataset Statistics
- **Training**: 38,369 conversations (965,819 turns)
- **Validation**: 4,264 conversations (44,644 turns)
- **Total**: 42,633 conversations (1,010,463 turns)
- **Average turns**: 25.3 per conversation
- **Tool-use conversations**: ~3,867 (9.7%)
## Data Format
Each example is a conversation with multiple turns:
```json
{
"conversations": [
{"from": "human", "value": "User message"},
{"from": "gpt", "value": "Assistant response"},
{"from": "tool", "value": "Tool execution result"},
{"from": "gpt", "value": "Assistant response to tool result"}
]
}
```
## Use Cases
Perfect for fine-tuning models on:
- Tool-use and function calling
- Code generation and debugging
- Multi-step reasoning
- Agent workflows
- Software development tasks
- Mathematical problem solving
## Training Recommendations
- Models: Claude, GPT-4, LLaMA, Gemma, GLM
- Method: QLoRA, full fine-tuning
- Sequence length: 8192+ tokens recommended
- Batch size: 16-32 effective
## Citation
If you use this dataset, please cite the original sources:
```bibtex
@dataset{opus_reasoning,
title = {Opus-4.6-Reasoning-3000x-filtered},
author = {nohurry},
year = {2024},
publisher = {HuggingFace}
}
@dataset{qwen_reasoning,
title = {Qwen3.5-reasoning-700x},
author = {Jackrong},
year = {2024},
publisher = {HuggingFace}
}
@dataset{agent_hybrid,
title = {Agent Dataset Hybrid v2},
author = {austindixson},
year = {2025},
publisher = {HuggingFace}
}
```
## License
Copyright 2025 austindixson
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
## Changes from Original Datasets
This dataset:
- Combines multiple datasets into a unified format
- Converts all datasets to a conversational format
- Adds tool-use execution results from Claude Code conversations
- Filters and curates samples for quality
- Splits into train/validation sets
All modifications comply with Apache 2.0 license requirements.
---
许可证:Apache 2.0许可证(Apache 2.0)
任务类别:
- 文本生成
- 问答
语言:
- 英语
标签:
- 智能体(AI Agent)
- 工具使用(tool-use)
- 编程
- 推理
- Claude
- Anthropic
- 工具调用(tool-calling)
- 函数调用(function-calling)
- 代码生成(code-generation)
- 需注明来源(attribution-required)
规模类别:10万 < 样本数 < 100万
数据集信息:
- 来源说明:
- 包含来自nohurry/Opus-4.6-Reasoning-3000x-filtered(Apache 2.0)的数据
- 包含来自Jackrong/Qwen3.5-reasoning-700x(Apache 2.0)的数据
- 许可证:Apache 2.0许可证(Apache 2.0)
---
# 混合智能体数据集v2(Agent Dataset Hybrid v2)
用于训练具备工具使用能力与推理技能的AI智能体(AI Agent)的微调数据集。
## ⚠️ 来源注明须知
本数据集整合了以下原始数据源的数据:
### 原始数据源
1. **[Opus-4.6-Reasoning-3000x-filtered](https://huggingface.co/datasets/nohurry/Opus-4.6-Reasoning-3000x-filtered)**,作者:nohurry
- 许可证:[Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
- 贡献内容:带有显式`<thinking>`思考标记的数学与逻辑推理样本
- 本数据集占比:约2093条(5.2%)
2. **[Qwen3.5-reasoning-700x](https://huggingface.co/datasets/Jackrong/Qwen3.5-reasoning-700x)**,作者:Jackrong
- 许可证:[Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
- 贡献内容:自然语言思维链(Chain-of-Thought)推理样本
- 本数据集占比:约569条(1.4%)
3. **智能体对话(核心数据集)**,作者:austindixson
- 许可证:Apache 2.0
- 贡献内容:带有工具使用流程的Claude Code智能体工作流
- 本数据集占比:约39971条(93.3%)
### 许可证声明
本衍生作品采用Apache 2.0许可证(Apache 2.0)进行授权。
原始数据集均按照其自身的Apache 2.0许可证要求进行使用。本数据集:
- ✅ 包含对原始创作者的署名声明
- ✅ 明确标注本作品为衍生作品
- ✅ 采用与原始数据集一致的Apache 2.0许可证
- ✅ 附带完整的许可证声明
## 数据集描述
多功能微调数据集,整合了以下三类内容:
- **工具使用工作流**:包含文件操作、代码执行、搜索等操作的真实智能体对话
- **数学推理样本**:带有`<thinking>`标记的分步问题求解内容
- **自然语言推理**:对话式思维链(Chain-of-Thought)流程
## 数据集统计信息
- **训练集**:38369轮对话(总计965819个交互回合)
- **验证集**:4264轮对话(总计44644个交互回合)
- **总样本**:42633轮对话(总计1010463个交互回合)
- **平均回合数**:每轮对话平均包含25.3个交互回合
- **工具使用对话**:约3867轮(占总样本的9.7%)
## 数据格式
每个样本均为多轮对话结构:
json
{
"conversations": [
{"from": "human", "value": "User message"},
{"from": "gpt", "value": "Assistant response"},
{"from": "tool", "value": "Tool execution result"},
{"from": "gpt", "value": "Assistant response to tool result"}
]
}
## 应用场景
适用于以下场景的模型微调:
- 工具使用与函数调用
- 代码生成与调试
- 多步推理任务
- 智能体工作流构建
- 软件开发相关任务
- 数学问题求解
## 训练建议
- 支持模型:Claude、GPT-4、LLaMA、Gemma、GLM
- 微调方法:QLoRA、全量微调
- 序列长度:建议使用8192+ Token(Token)
- 有效批次大小:16-32
## 引用方式
若使用本数据集,请引用以下原始数据源:
bibtex
@dataset{opus_reasoning,
title = {Opus-4.6-Reasoning-3000x-filtered},
author = {nohurry},
year = {2024},
publisher = {HuggingFace}
}
@dataset{qwen_reasoning,
title = {Qwen3.5-reasoning-700x},
author = {Jackrong},
year = {2024},
publisher = {HuggingFace}
}
@dataset{agent_hybrid,
title = {Agent Dataset Hybrid v2},
author = {austindixson},
year = {2025},
publisher = {HuggingFace}
}
## 许可证
版权所有 2025 austindixson
根据Apache许可证2.0版("许可证")获得许可;除非符合许可证要求,否则不得使用本作品。您可以通过以下链接获取许可证副本:
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,根据许可证分发的软件均按"按现状"提供,不附带任何明示或暗示的担保或条件。有关许可证下特定语言的权限和限制,请参阅许可证。
## 与原始数据集的差异
本数据集相较于原始数据源作出了以下修改:
- 将多个独立数据集整合为统一格式
- 将所有原始数据集转换为标准对话格式
- 从Claude Code对话中补充工具执行结果字段
- 对样本进行筛选与整理以提升整体质量
- 划分为训练集与验证集子集
所有修改均符合Apache 2.0许可证的相关要求。
提供机构:
austindixson
搜集汇总
数据集介绍

构建方式
Agent Dataset Hybrid v2 是一个面向智能体微调的混合数据集,由 austindixson 在 Apache-2.0 许可下发布。该数据集融合了三大来源:主体部分源自 Claude Code 智能体工作流对话(约 39,971 条样本,占比 93.3%),记录了真实的工具调用、文件操作与代码执行交互;另整合了 nohurry 提供的 Opus-4.6-Reasoning-3000x-filtered 数据集(含数学与逻辑推理,约 2,093 条样本)以及 Jackrong 贡献的 Qwen3.5-reasoning-700x 数据集(包含自然语言链式推理,约 569 条样本)。所有原始数据均遵守 Apache-2.0 许可协议,构建过程中进行了格式统一、对话化转换、质量过滤与训练/验证集划分。
使用方法
该数据集适用于对多种主流大语言模型进行监督微调,包括 Claude、GPT-4、LLaMA、Gemma 及 GLM 系列。推荐采用 QLoRA 或全参数微调策略,序列长度建议不低于 8192 个 token,有效批量大小宜设定为 16-32。数据内容涵盖软件工程任务、智能体工作流、数学问题求解等场景,可直接用于提升模型在函数调用、代码调试与多步骤推理方面的表现。研究人员在使用时需依据 Apache-2.0 条款标注原始数据来源,相关引用信息已在数据集的 README 中提供。
背景与挑战
背景概述
近年来,智能体(AI Agent)已成为人工智能领域的前沿研究方向,其核心在于赋予大语言模型调用外部工具、执行多步推理以及与复杂环境交互的能力。在此背景下,由研究人员austindixson于2025年创建的agent-dataset-hybrid-v2数据集应运而生,旨在为智能体的微调训练提供高质量、多源融合的数据资源。该数据集巧妙整合了来自nohurry的数学与逻辑推理样本、Jackrong的自然语言链式思维数据,以及海量真实的Claude Code智能体工作流对话,共计约4.2万条多轮对话、超过百万轮次交互。通过将工具使用、代码生成与复杂推理任务无缝融合,该数据集为解决智能体从单纯语言理解迈向可执行、可交互行为的范式跃迁提供了关键训练基石,在开源社区中迅速成为微调主流模型(如Claude、LLaMA、GLM等)的重要资源,显著推动了智能体技术从学术界向工业落地场景的渗透。
当前挑战
该数据集所应对的核心领域挑战在于,传统语言模型微调数据往往局限于静态文本理解,而无法覆盖智能体在与真实环境交互过程中所需的动态工具调用与反馈闭环能力。为此,数据构建面临多重难题:其一,如何从海量Claude Code工作流中精准筛选并结构化表示涉及文件操作、代码执行、搜索等多样化工具调用的对话片段,保证数据对于不同智能体架构的通用性;其二,需要将来自不同源、不同格式的推理数据(如含有<thinking>标签的数学推理与自然语言链式思维)统一转换为标准的多轮对话格式,同时保留推理过程的完整性;其三,在处理工具调用结果时,需确保模型能够正确理解并回应来自环境的非结构化反馈,这对数据标注的质量和一致性提出了极高要求。此外,不同来源样本量的不平衡(如工具使用对话占比约9.7%)也为构建均衡、鲁棒的训练集带来了额外挑战。
常用场景
经典使用场景
agent-dataset-hybrid-v2作为一款专为智能体微调设计的混合数据集,在构建能够调用工具并具备复杂推理能力的对话模型方面具有核心应用价值。该数据集整合了约42,633条多轮对话,涵盖代码生成、文件操作与函数调用等典型工具使用场景,辅以数学与自然语言链式思维推理样本,为大语言模型在智能体任务下的行为对齐提供了丰富的训练材料。研究者可借助其统一的对话格式与高质量标注,引导模型学习如何在真实交互中感知环境状态、选择恰当工具并整合执行结果,从而塑造出更具自主性与鲁棒性的智能体系统。
解决学术问题
当前智能体研究面临的关键瓶颈在于缺乏兼具工具使用复杂性与推理多样性的高质量微调数据。agent-dataset-hybrid-v2通过融合真实智能体工作流、数学逻辑推理与自然语言思维链,有效缓解了模型在工具调用过程中常见的指令误解与推理断裂问题。其经典应用包括探究多步推理与工具使用的协同机制、分析思维链提示对工具选择准确率的影响,以及评估模型在长序列对话中维持上下文一致性的能力。该数据集的出现推动了智能体行为建模从简单函数映射向情境化决策的跨越,为学术界构建可泛化的智能体框架奠定了数据基础。
实际应用
在产业界,agent-dataset-hybrid-v2可直接赋能软件开发助手、自动化运维代理及智能客服系统的能力升级。通过在该数据集上微调,模型能够掌握文件读写、代码调试、搜索引擎调用等实用技能,进而在真实场景中协助工程师完成复杂的编程任务、自动化部署巡检或提供多步骤故障排查方案。此外,其在数学推理与自然语言链式思维方面的数据覆盖,有助于提升金融风控、教育辅导及医疗诊断等领域的智能体在长链条因果分析中的表现,加速了人工智能从被动响应向主动协作的范式转变。
数据集最近研究
最新研究方向
当前,大语言模型正从单纯的对话系统向具备工具调用与自主决策能力的智能体(Agent)演进。在这一浪潮中,agent-dataset-hybrid-v2作为面向智能体微调的高质量混合数据集,融合了Claude Code等真实代理工作流中的工具使用轨迹、结构化数学推理及自然语言链式思考过程,形成了以工具执行为核心、兼具推理能力的统一对话格式。其前沿研究意义在于:一方面,数据集内近10%的工具调用样本直接映射了软件工程中文件操作、代码执行等实际场景,为训练模型执行复杂多步任务提供了生态级支撑;另一方面,其构建方式体现了当前Agent对齐研究的趋势——即从多种开源推理数据中拼接与再造,既尊重原始创作归属(均遵循Apache 2.0协议),又实现了格式与质量的统一。这一资源正推动开发者利用QLoRA或全参数微调方法,在Claude、GPT-4、LLaMA等主流架构上打造更具自主性、推理链透明且能落地于编程与问题求解的智能体系统。
以上内容由遇见数据集搜集并总结生成



