agent-dataset-hybrid-v2

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/austindixson/agent-dataset-hybrid-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Agent Dataset Hybrid v2 是一个用于微调具备工具使用能力和推理技能的AI代理的多用途数据集。该数据集整合了来自三个主要来源的数据：Opus-4.6-Reasoning-3000x-filtered（提供数学和逻辑推理样本）、Qwen3.5-reasoning-700x（提供自然语言链式推理）以及由austindixson创建的代理对话（主要数据集，包含工具使用的工作流程）。数据集总共有42,633个对话（1,010,463轮），平均每个对话25.3轮，其中工具使用对话约占9.7%。每个样本以多轮对话的JSON格式呈现，适用于工具使用、函数调用、代码生成、多步推理、代理工作流程等多种任务。数据集采用Apache 2.0许可证，并明确标注了原始数据来源和修改内容。

创建时间：

2026-04-10

原始信息汇总

Agent Dataset Hybrid v2 数据集概述

数据集基本信息

名称: Agent Dataset Hybrid v2
创建者: austindixson
发布日期: 2025年
许可证: Apache 2.0
任务类别: 文本生成、问答
主要语言: 英语
数据规模: 100K<n<1M

数据集描述

这是一个用于训练具备工具使用能力和推理技能的AI智能体的微调数据集。它是一个多用途数据集，结合了以下内容：

工具使用工作流: 包含文件操作、代码执行、搜索等真实智能体对话。
数学推理: 带有<thinking>标签的逐步问题解决过程。
自然推理: 对话式思维链过程。

数据来源与构成

数据集整合了以下三个来源的数据，均为Apache 2.0许可证：

Opus-4.6-Reasoning-3000x-filtered (nohurry)
- 贡献：带有明确思考标签的数学和逻辑推理样本
- 在本数据集中的样本数：约2,093个（占5.2%）
- 原始地址：https://huggingface.co/datasets/nohurry/Opus-4.6-Reasoning-3000x-filtered
Qwen3.5-reasoning-700x (Jackrong)
- 贡献：自然语言思维链推理
- 在本数据集中的样本数：约569个（占1.4%）
- 原始地址：https://huggingface.co/datasets/Jackrong/Qwen3.5-reasoning-700x
Agent conversations (primary dataset) (austindixson)
- 贡献：包含工具使用的Claude Code智能体工作流
- 在本数据集中的样本数：约39,971个（占93.3%）

数据集统计信息

训练集: 38,369个对话（965,819轮）
验证集: 4,264个对话（44,644轮）
总计: 42,633个对话（1,010,463轮）
平均每对话轮数: 25.3轮
包含工具使用的对话: 约3,867个（占9.7%）

数据格式

每个样本都是一个包含多轮对话的JSON对象，格式如下： json { "conversations": [ {"from": "human", "value": "用户消息"}, {"from": "gpt", "value": "助手回复"}, {"from": "tool", "value": "工具执行结果"}, {"from": "gpt", "value": "对工具结果的助手回复"} ] }

主要用途

适用于以下任务的模型微调：

工具使用和函数调用
代码生成和调试
多步推理
智能体工作流
软件开发任务
数学问题解决

训练建议

适用模型: Claude、GPT-4、LLaMA、Gemma、GLM
训练方法: QLoRA、全参数微调
序列长度: 建议8192+ tokens
批大小: 有效批大小16-32

与原数据集的差异

本数据集进行了以下处理：

将多个数据集合并为统一格式
将所有数据转换为对话格式
从Claude Code对话中添加工具使用执行结果
对样本进行筛选和整理以保证质量
划分为训练集和验证集

引用要求

使用本数据集时，请引用原始数据源：

Opus-4.6-Reasoning-3000x-filtered (nohurry, 2024)
Qwen3.5-reasoning-700x (Jackrong, 2024)
Agent Dataset Hybrid v2 (austindixson, 2025)

许可证信息

搜集汇总

数据集介绍

构建方式

在人工智能代理领域，数据集的构建质量直接决定了模型在复杂任务中的表现。Agent Dataset Hybrid v2通过精心整合多个开源数据集，构建了一个专门用于训练具备工具使用和推理能力的AI代理的综合性资源。其核心构建方法涉及从三个主要来源提取数据：来自Opus-4.6-Reasoning-3000x-filtered的数学逻辑推理样本，来自Qwen3.5-reasoning-700x的自然语言思维链样本，以及由austindixson贡献的、占比超过九成的Claude Code代理工作流对话。构建过程将这些异构数据统一转换为标准化的多轮对话格式，并进行了严格的质量筛选与划分，最终形成了包含超过四万段对话、总计百万轮次交互的结构化数据集。

使用方法

对于希望训练或微调AI代理模型的研究者与开发者而言，该数据集提供了明确的应用路径。它主要适用于对如Claude、GPT-4、LLaMA等大型语言模型进行全参数微调或高效的QLoRA微调，以增强其在工具使用、函数调用及多步推理方面的能力。使用前，需将数据加载为标准的JSON对话格式，每条记录包含按顺序排列的‘human’、‘gpt’和‘tool’角色对话轮次。建议在训练时配置8192以上的长序列长度以容纳完整的复杂对话，并采用16至32的有效批次大小。该数据集可直接用于监督式微调，目标是使模型学会在交互中自主规划步骤、调用工具并整合结果，最终完成软件开发、数学解题等综合性任务。

背景与挑战

背景概述

在人工智能迈向通用智能体的演进历程中，赋予模型工具使用与复杂推理能力成为关键研究方向。Agent Dataset Hybrid v2数据集于2025年由austindixson构建并发布，其核心目标在于为训练具备工具调用、代码生成及多步推理能力的AI智能体提供高质量微调数据。该数据集整合了来自Opus-4.6-Reasoning-3000x-filtered的数学逻辑推理样本、Qwen3.5-reasoning-700x的自然语言思维链样本，以及以Claude Code智能体工作流为主体的工具使用对话，共计超过四万条对话与百万轮次交互。这一综合性资源的出现，显著推动了智能体在软件开发、问题求解等实际任务中的性能边界，为相关模型的训练与评估奠定了重要基础。

当前挑战

该数据集旨在应对AI智能体在工具使用与复杂推理任务中面临的挑战，其核心问题在于如何使模型能够准确理解用户意图、规划多步行动序列、并有效调用外部工具执行代码、文件操作或搜索等具体功能。构建过程中的挑战主要体现在数据整合与质量把控层面：首先，需将来源各异、格式不同的原始数据集（如带明确思考标签的数学推理与自然语言思维链）统一转化为标准对话格式，并确保逻辑连贯性；其次，工具使用对话的构建要求模拟真实交互场景，包括工具执行结果的合理生成与嵌入，这对数据的真实性与复杂性提出了较高要求；最后，数据筛选与验证过程需平衡样本多样性、任务覆盖度与整体质量，以形成适用于模型微调的高效训练集。

常用场景

经典使用场景

在智能体与工具交互的研究领域，Agent Dataset Hybrid v2数据集为训练具备工具调用能力的AI智能体提供了经典范例。该数据集整合了真实的智能体对话流程，涵盖文件操作、代码执行和搜索等多样化工具使用场景，同时融合了数学推理与自然语言推理的链式思考过程。研究人员通常利用该数据集对大型语言模型进行微调，以提升模型在复杂任务中规划、调用外部工具并整合结果的能力，从而模拟人类在软件开发、问题解决中的多步骤协作行为。

解决学术问题

该数据集有效应对了AI智能体研究中的若干核心挑战，包括工具使用的泛化性、多步骤推理的连贯性以及代码生成与调试的准确性。通过提供大量标注清晰的对话轨迹，它帮助学术界探索如何让模型理解工具语义、管理任务状态并在动态环境中做出决策。其意义在于为可解释的智能体行为建立了基准，推动了从静态语言理解到动态交互执行的范式转变，对构建可靠、实用的自主智能系统具有深远影响。

实际应用

在实际部署中，该数据集支撑了各类自动化智能系统的开发。基于其训练的模型可应用于智能编程助手，能够根据用户需求生成代码、调试错误并执行测试；在数据分析领域，智能体可调用计算工具完成查询、可视化与报告生成；此外，在客服自动化与教育辅导场景中，模型能结合搜索工具提供准确、可追溯的解答。这些应用显著提升了工作效率，降低了专业任务的技术门槛。

数据集最近研究