qwen3.5-toolcalling-v2

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/Mustafaege/qwen3.5-toolcalling-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Qwen3.5 Tool Calling Dataset v2 是一个扩展的工具调用监督微调（SFT）数据集，结合了 smirki/Tool-Calling-Dataset-UIGEN-X 和 AmanPriyanshu/tool-reasoning-sft-jupyter-agent 两个来源的数据，并统一为 Qwen3 消息格式。该数据集新增了带有代码执行推理链的 Jupyter 笔记本代理数据。数据集包含约 60K+ 样本，其中训练集约 55K，测试集约 6K，语言为英语，采用 Apache 2.0 许可证。v2 版本新增了 Jupyter 代理功能，支持代码执行、结构化推理链（reasoning → tool_call → tool_output → answer）、数据科学任务（如 CSV 分析、可视化、统计计算）以及多步代码执行。数据集结构包含 messages 字段，其中包含 role 和 content 的对话轮次。角色类型包括 system（工具模式与助手指令）、user（用户请求或工具输出）和 assistant（<think> 推理 + 工具调用或最终答案）。数据集适用于文本生成、工具使用、代码执行、多轮对话等任务。

创建时间：

2026-03-07

原始信息汇总

Qwen3.5 Tool Calling Dataset v2 数据集概述

数据集基本信息

数据集名称：Qwen3.5 Tool Calling Dataset v2
描述：一个扩展的工具调用监督微调数据集，合并了 smirki/Tool-Calling-Dataset-UIGEN-X 和 AmanPriyanshu/tool-reasoning-sft-jupyter-agent 的数据，并统一为 Qwen3 消息格式。新增了包含代码执行推理链的 Jupyter notebook 智能体数据。
语言：英语
许可证：Apache 2.0
任务类别：文本生成
标签：工具使用、工具调用、函数调用、推理、智能体、Jupyter、代码执行、监督微调、聊天、qwen3、qwen3.5、思维链、多轮对话、结构化输出、JSON、微调、开源、扩展数据集
标注创建者：机器生成
语言创建者：发现

数据规模与划分

总样本量：约 60,000+
训练集：约 55,000 个样本
测试集：约 6,000 个样本
大小类别：10K < n < 100K

版本对比 (v1 vs v2)

版本	样本量	智能体类型	新增数据源
v1	51,004	通用工具调用	smirki/Tool-Calling-Dataset-UIGEN-X
v2 (当前)	~60K+	+ 代码/Jupyter 智能体	+ AmanPriyanshu/tool-reasoning-sft-jupyter-agent

v2 版本新增内容

Jupyter 智能体：通过 add_and_execute_jupyter_code_cell 工具进行代码执行。
更丰富的推理：结构化的 推理 → 工具调用 → 工具输出 → 答案 链。
数据科学任务：CSV 分析、可视化、统计计算。
多步执行：按顺序执行多个代码单元。

数据集结构

数据字段

字段	类型	描述
`messages`	`list[dict]`	包含 `role` 和 `content` 的对话轮次列表

角色类型

角色	来源	描述
`system`	两者皆有	工具模式 + 助手指令
`user`	两者皆有	用户请求或工具输出
`assistant`	两者皆有	`<think>` 推理 + 工具调用或最终答案

注意：来自 Jupyter Agent 数据源的原始 reasoning、tool_call、tool_output 角色已被规范化为 assistant 或 user。

数据源

数据集	格式	样本量	核心能力
smirki/Tool-Calling-Dataset-UIGEN-X	`conversations[from/value]`	51,004	带有 `<think>` 推理的通用 API/工具调用
AmanPriyanshu/tool-reasoning-sft-jupyter-agent	`messages[role/content]`	~10K	Jupyter 代码执行智能体

数据格式示例

UIGEN-X 风格：API 工具调用

json { "messages": [ {"role": "system", "content": "You are a deep thinking AI... <tools> {"name": "search_web", "description": "Search the web", ...} </tools>"}, {"role": "user", "content": "Find the latest news about AI developments"}, {"role": "assistant", "content": "<think> User wants latest AI news. Ill use search_web. </think> <tool_call> {"name": "search_web", "arguments": {"query": "latest AI developments 2025"}} </tool_call>"}, {"role": "user", "content": "<tool_response> [{"title": "New LLM achieves SOTA", "url": "..."}] </tool_response>"}, {"role": "assistant", "content": "Here are the latest AI developments: New LLM achieves state-of-the-art performance..."} ] }

Jupyter Agent 风格：代码执行

json { "messages": [ {"role": "system", "content": "You are an intelligent data science assistant with access to a stateful Jupyter notebook. You can use the add_and_execute_jupyter_code_cell tool.

You have access to: winequality-red.csv"}, {"role": "user", "content": "What is the average alcohol content in the dataset?"}, {"role": "assistant", "content": "<think> I need to load the CSV and compute the mean of the alcohol column. </think> {"name": "add_and_execute_jupyter_code_cell", "arguments": {"code": "import pandas as pd\ndf = pd.read_csv(/home/user/input/winequality-red.csv)\nprint(df[alcohol].mean())"}}"}, {"role": "assistant", "content": "10.422983114446529"}, {"role": "assistant", "content": "<answer> The average alcohol content is approximately 10.42%. </answer>"} ] }

使用方式

python from datasets import load_dataset dataset = load_dataset("Mustafaege/qwen3.5-toolcalling-v2")

许可证

Apache 2.0 — 详情请见 LICENSE。

搜集汇总

数据集介绍

构建方式

在智能体与工具调用研究领域，数据集的质量与多样性对模型性能至关重要。Qwen3.5 Tool Calling Dataset v2的构建采用了数据融合与格式统一的方法，整合了smirki/Tool-Calling-Dataset-UIGEN-X和AmanPriyanshu/tool-reasoning-sft-jupyter-agent两个核心来源。前者提供了通用API工具调用的对话样本，后者则贡献了Jupyter代码执行代理的交互数据。构建过程中，原始数据中的角色与内容被系统性地映射并归一化为Qwen3消息格式，确保了数据结构的一致性。这一过程不仅扩充了数据规模至约六万条样本，还通过合并训练与测试分割，为模型训练与评估提供了结构化基础。

使用方法

为有效利用该数据集进行模型训练，研究者可借助Hugging Face的datasets库直接加载，并通过识别消息内容中的特定工具名称来区分样本类型。在训练流程上，数据集适用于监督微调范式，常与Unsloth等高效训练框架结合使用。由于样本包含多轮对话与长序列推理，建议配置较大的最大序列长度（例如8192）以完整保留上下文信息。训练时，数据集的标准化消息格式可直接适配基于Transformer架构的语言模型，通过优化损失函数使模型学习工具调用的模式与代码生成的逻辑。这种使用方法旨在提升模型在工具使用、链式推理以及交互式代码执行方面的实际性能。

背景与挑战

背景概述

在人工智能领域，工具调用能力是构建智能代理系统的核心，旨在使大型语言模型能够理解和执行外部工具或API的指令。Qwen3.5 Tool Calling Dataset v2由Mustafaege团队于近期发布，作为该系列数据集的扩展版本，它整合了smirki/Tool-Calling-Dataset-UIGEN-X和AmanPriyanshu/tool-reasoning-sft-jupyter-agent两个开源资源，统一为Qwen3消息格式。该数据集专注于增强模型在通用工具调用和代码执行方面的推理能力，特别是通过引入Jupyter笔记本代理数据，支持数据科学任务中的多步代码执行与可视化分析。其创建反映了当前研究对模型工具使用泛化性和复杂任务处理能力的迫切需求，为开源社区提供了高质量的监督微调数据，推动了智能代理技术的发展。

当前挑战

该数据集旨在解决工具调用与代码执行领域的双重挑战，核心问题在于如何使模型在开放环境中准确理解用户意图、规划多步工具使用序列，并生成可执行的代码或API调用。具体挑战包括：在领域层面，模型需处理从简单查询到复杂数据分析的多样化任务，确保工具调用的可靠性和代码执行的安全性；在构建过程中，数据集整合了异构源数据，需统一不同格式的对话结构和角色映射，例如将原始推理、工具调用和输出角色规范化为标准消息格式，同时保持任务逻辑的连贯性。此外，扩展Jupyter代理数据引入了代码执行链的复杂性，要求数据在序列化过程中保留状态依赖和多步交互的完整性，这对数据清洗与验证提出了较高要求。

常用场景

经典使用场景

在工具调用智能体研究领域，Qwen3.5 Tool Calling Dataset v2为模型训练提供了标准化的多轮对话范例。该数据集最经典的使用场景在于指导语言模型学习结构化工具调用流程，通过融合通用API调用与Jupyter代码执行两种模式，构建从思维链推理到工具选择、参数生成、结果解析的完整闭环。研究人员利用其约六万条标注样本，能够训练模型在复杂任务中自主规划工具使用序列，特别适用于需要多步骤交互的数据分析、信息检索和自动化编程任务。

解决学术问题

该数据集有效解决了工具调用研究中的若干核心学术问题。首先，它通过统一的Qwen3消息格式，弥合了不同工具调用范式之间的数据鸿沟，为对比研究提供基准。其次，数据集包含的显式推理标注（<think>标签）使模型可解释性研究成为可能，允许学者深入分析工具选择决策过程。更重要的是，其整合的代码执行轨迹为研究符号推理与神经计算的结合机制提供了珍贵素材，推动了具身智能与程序合成领域的交叉进展。

实际应用

在实际应用层面，该数据集支撑着智能助手系统的功能拓展。基于其训练的模型可部署为数据分析助手，直接通过自然语言指令执行CSV文件处理、统计计算与可视化生成。在软件开发场景中，这类模型能够理解用户需求并调用相应API完成网页搜索、邮件发送等操作。教育领域则可利用其构建交互式编程教学工具，通过分步代码执行演示帮助学习者理解复杂算法。这些应用显著降低了专业工具的使用门槛，提升了人机协作效率。

数据集最近研究