qwen3.5-toolcalling-v1

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/Mustafaege/qwen3.5-toolcalling-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Qwen3.5 Tool Calling Dataset v1 是一个用于工具调用的监督微调（SFT）数据集，源自 smirki/Tool-Calling-Dataset-UIGEN-X（interstellarninja/hermes_reasoning_tool_use 的清理版本），并已从 ShareGPT 对话格式转换为 Qwen3 消息格式。该数据集以深度推理链为特点，包含 `<think>` 标签和结构化的工具调用。数据集包含 51,004 个样本，其中训练集 45,904 个，测试集 5,100 个。数据格式为 Qwen3 消息，语言为英语，许可证为 Apache 2.0。数据集中的每个工具调用都带有 `<think>` 思维链推理块和结构化的 JSON 工具调用输出，支持多轮对话。数据字段包括 `messages` 列表，其中包含 `role` 和 `content` 字段。角色类型包括 `system`（工具定义嵌入系统提示）、`user`（用户查询或工具执行结果）和 `assistant`（包含 `<think>` 推理块和 JSON 工具调用或最终答案）。数据集适用于文本生成、工具使用、推理、多轮对话和结构化输出等任务。

Qwen3.5 Tool Calling Dataset v1 is a supervised fine-tuning (SFT) dataset for tool calling, derived from smirki/Tool-Calling-Dataset-UIGEN-X (a cleaned version of interstellarninja/hermes_reasoning_tool_use), and converted from ShareGPT conversation format to Qwen3 message format. This dataset features deep reasoning chains, including `<think>` tags and structured tool calls. It contains a total of 51,004 samples, with 45,904 in the training split and 5,100 in the test split. The dataset is formatted as Qwen3 messages, in English, and licensed under Apache 2.0. Each tool call in the dataset is accompanied by a `<think>`-wrapped chain-of-thought reasoning block and structured JSON tool call outputs, supporting multi-turn conversations. The data fields include a `messages` list containing `role` and `content` fields. The role types include `system` (with tool definitions embedded in the system prompt), `user` (user queries or tool execution results), and `assistant` (containing `<think>` reasoning blocks and JSON tool calls or final answers). This dataset is applicable to tasks such as text generation, tool usage, reasoning, multi-turn conversations, and structured output generation.

创建时间：

2026-03-04

原始信息汇总

Qwen3.5 Tool Calling Dataset v1 数据集概述

数据集基本信息

数据集名称：Qwen3.5 Tool Calling Dataset v1
语言：英语
许可证：Apache 2.0
任务类别：文本生成
大小类别：10K<n<100K
创建方式：机器生成
语言来源：发现

数据集规模与来源

总样本数：51,004
训练集样本数：45,904
测试集样本数：5,100
数据源：smirki/Tool-Calling-Dataset-UIGEN-X（一个经过清理的 interstellarninja/hermes_reasoning_tool_use 版本）
格式转换：从 ShareGPT 对话格式转换为 Qwen3 消息格式

核心概念：工具调用

工具调用在函数调用的基础上增加了显式的推理轨迹。关键特征包括：

使用 <think>...</think> 块进行思维链推理
结构化的 JSON 工具调用输出
包含工具响应的多轮对话

数据结构

数据字段

字段名	类型	描述
`messages`	`list[dict]`	包含 `role` 和 `content` 的对话轮次列表

角色类型

角色	描述
`system`	系统提示中嵌入的工具定义
`user`	用户查询或工具执行结果
`assistant`	包含 `<think>` 推理块和 JSON 工具调用或最终答案的助手回复

关键特性

深度推理：每个工具调用前都有 <think> 思维链
多轮对话：包含工具响应和后续对话
多样化工具：涵盖天气、搜索、数据库、计算、API 调用等
数据清洁：移除了有问题的 tools 列，工具被嵌入系统消息中（兼容 Axolotl 风格）

使用方式

可通过 Hugging Face datasets 库加载： python from datasets import load_dataset dataset = load_dataset("Mustafaege/qwen3.5-toolcalling-v1")

许可证

许可证类型：Apache 2.0
许可证详情：https://www.apache.org/licenses/LICENSE-2.0

备注

该数据集专为 Qwen3.5 微调而构建。
属于 Mustafaege 模型系列的一部分。

搜集汇总

数据集介绍

构建方式

在工具调用与智能体推理领域，Qwen3.5 Tool Calling Dataset v1 的构建体现了数据转换与结构优化的精妙过程。该数据集源自 smirki/Tool-Calling-Dataset-UIGEN-X，后者本身是对 interstellarninja/hermes_reasoning_tool_use 的清洗版本。构建过程的核心是将原始 ShareGPT 对话格式系统地映射为 Qwen3 消息格式，具体通过角色映射逻辑实现：将“human”转换为“user”，“gpt”转换为“assistant”，“system”角色则予以保留。此转换不仅统一了数据结构，还移除了冗余的“tools”列，将工具定义直接嵌入系统提示中，从而形成了与 Axolotl 框架兼容的简洁风格，最终生成了包含 51,004 条样本的标准化数据集。

特点

该数据集的核心特征在于其深度融合了显式推理轨迹与结构化工具调用。每条样本均遵循特定的对话结构，其中助理（assistant）的回应首先包含用 `<think>` 标签包裹的思维链推理过程，详尽阐述选择工具的逻辑与依据，随后才输出符合 JSON 规范的正式工具调用指令。这种设计模拟了人类解决问题时的内部思考与外部执行两阶段，为模型提供了学习复杂决策过程的范例。此外，数据集覆盖了天气查询、搜索、数据库操作等多种工具场景，并以多轮对话形式呈现，完整包含了用户查询、工具调用、工具执行结果反馈及最终答案生成的完整交互闭环。

使用方法

对于希望利用该数据集进行模型微调的研究者与开发者而言，其使用方法清晰而直接。通过 Hugging Face 的 `datasets` 库，可以便捷地加载数据集并访问其训练集与测试集。数据以包含 `messages` 字段的字典列表形式组织，每条消息均标有 `role`（系统、用户或助理）和 `content`。用户可以直接将此格式的数据输入到支持监督式微调（SFT）的训练框架中，例如使用 `trl` 库的 `SFTTrainer`。数据集的结构天然适配于训练模型生成带有推理步骤的工具调用序列，开发者可通过解析助理消息中的 `<think>` 与 `<tool_call>` 区块，来验证或引导模型的学习过程。

背景与挑战

背景概述

在人工智能领域，工具调用能力是增强大型语言模型实用性的关键方向，旨在使模型能够理解和执行外部函数调用以完成复杂任务。Qwen3.5 Tool Calling Dataset v1由Mustafaege于近期发布，基于smirki/Tool-Calling-Dataset-UIGEN-X构建，该数据集源自对interstellarninja/hermes_reasoning_tool_use的清理与转换。其核心研究问题聚焦于通过监督微调提升模型在工具调用任务中的推理与结构化输出能力，特别强调思维链引导下的深度推理过程。该数据集采用Qwen3消息格式，包含超过五万个多轮对话样本，为开源社区在智能体与函数调用领域的研究提供了高质量的训练资源，推动了模型在现实场景中工具集成与应用的发展。

当前挑战

该数据集致力于解决工具调用领域的核心挑战，即如何使语言模型在复杂多轮交互中准确理解用户意图，并通过结构化推理选择并执行合适的工具。具体挑战包括模型需在思维链引导下生成精确的JSON格式工具调用，同时处理多轮对话中工具返回结果的整合与后续决策。在构建过程中，数据集面临格式转换的复杂性，需将原始ShareGPT对话格式映射为Qwen3兼容的消息结构，并确保工具定义嵌入系统提示的兼容性。此外，清理原始数据以移除不一致的工具列并保持推理轨迹的完整性，也是构建高质量、可用于监督微调的数据集的关键难点。

常用场景

经典使用场景

在人工智能领域，工具调用已成为增强大语言模型与外部系统交互能力的关键技术。Qwen3.5 Tool Calling Dataset v1 的经典使用场景在于为大语言模型提供监督式微调（SFT）的训练数据，专门用于训练模型执行复杂的工具调用任务。该数据集通过多轮对话格式，模拟了用户请求、模型内部推理（以<think>标签标记）以及结构化JSON工具调用的完整流程，使模型能够学习在生成最终答案前，先进行深思熟虑的推理链，从而精准地选择并调用合适的工具。

实际应用

在实际应用层面，该数据集为开发各类AI智能体系统提供了核心训练资源。基于此数据集微调的模型，能够被部署到需要与真实世界API、数据库或计算服务进行交互的场景中，例如智能客服助手、自动化数据分析工具、代码生成代理以及集成多种外部服务的任务型对话系统。模型通过学习数据集中涵盖的天气查询、搜索、计算等多样化工具调用范例，具备了处理开放域用户请求并执行相应操作的能力，从而将大语言模型的文本理解优势转化为具体的、可执行的动作。

衍生相关工作

该数据集本身源自对现有开源数据集（如smirki/Tool-Calling-Dataset-UIGEN-X）的格式转换与优化，其出现也进一步催生和支撑了后续一系列相关研究工作。例如，它直接服务于Qwen3.5系列模型的工具调用能力微调，并衍生出包含更多数据源的v2版本。在更广泛的社区中，此类强调推理过程的结构化工具调用数据集，为探索智能体架构、研究思维链对工具使用性能的影响、以及开发更高效的模型微调方法（如使用Unsloth等优化库）提供了标准化的基准和实验基础。

以上内容由遇见数据集搜集并总结生成

版本	样本数	新增数据源	链接
v1 (当前数据集)	51,004	UIGEN-X	https://huggingface.co/datasets/Mustafaege/qwen3.5-toolcalling-v1
v2	~60K+	增加 Jupyter Agent	https://huggingface.co/datasets/Mustafaege/qwen3.5-toolcalling-v2