qwen3.5-toolcalling-v2
收藏Qwen3.5 Tool Calling Dataset v2 数据集概述
数据集基本信息
- 数据集名称:Qwen3.5 Tool Calling Dataset v2
- 描述:一个扩展的工具调用监督微调数据集,合并了 smirki/Tool-Calling-Dataset-UIGEN-X 和 AmanPriyanshu/tool-reasoning-sft-jupyter-agent 的数据,并统一为 Qwen3 消息格式。新增了包含代码执行推理链的 Jupyter notebook 智能体数据。
- 语言:英语
- 许可证:Apache 2.0
- 任务类别:文本生成
- 标签:工具使用、工具调用、函数调用、推理、智能体、Jupyter、代码执行、监督微调、聊天、qwen3、qwen3.5、思维链、多轮对话、结构化输出、JSON、微调、开源、扩展数据集
- 标注创建者:机器生成
- 语言创建者:发现
数据规模与划分
- 总样本量:约 60,000+
- 训练集:约 55,000 个样本
- 测试集:约 6,000 个样本
- 大小类别:10K < n < 100K
版本对比 (v1 vs v2)
| 版本 | 样本量 | 智能体类型 | 新增数据源 |
|---|---|---|---|
| v1 | 51,004 | 通用工具调用 | smirki/Tool-Calling-Dataset-UIGEN-X |
| v2 (当前) | ~60K+ | + 代码/Jupyter 智能体 | + AmanPriyanshu/tool-reasoning-sft-jupyter-agent |
v2 版本新增内容
- Jupyter 智能体:通过
add_and_execute_jupyter_code_cell工具进行代码执行。 - 更丰富的推理:结构化的
推理 → 工具调用 → 工具输出 → 答案链。 - 数据科学任务:CSV 分析、可视化、统计计算。
- 多步执行:按顺序执行多个代码单元。
数据集结构
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
messages |
list[dict] |
包含 role 和 content 的对话轮次列表 |
角色类型
| 角色 | 来源 | 描述 |
|---|---|---|
system |
两者皆有 | 工具模式 + 助手指令 |
user |
两者皆有 | 用户请求或工具输出 |
assistant |
两者皆有 | <think> 推理 + 工具调用或最终答案 |
注意:来自 Jupyter Agent 数据源的原始
reasoning、tool_call、tool_output角色已被规范化为assistant或user。
数据源
| 数据集 | 格式 | 样本量 | 核心能力 |
|---|---|---|---|
| smirki/Tool-Calling-Dataset-UIGEN-X | conversations[from/value] |
51,004 | 带有 <think> 推理的通用 API/工具调用 |
| AmanPriyanshu/tool-reasoning-sft-jupyter-agent | messages[role/content] |
~10K | Jupyter 代码执行智能体 |
数据格式示例
UIGEN-X 风格:API 工具调用
json { "messages": [ {"role": "system", "content": "You are a deep thinking AI... <tools> {"name": "search_web", "description": "Search the web", ...} </tools>"}, {"role": "user", "content": "Find the latest news about AI developments"}, {"role": "assistant", "content": "<think> User wants latest AI news. Ill use search_web. </think> <tool_call> {"name": "search_web", "arguments": {"query": "latest AI developments 2025"}} </tool_call>"}, {"role": "user", "content": "<tool_response> [{"title": "New LLM achieves SOTA", "url": "..."}] </tool_response>"}, {"role": "assistant", "content": "Here are the latest AI developments: New LLM achieves state-of-the-art performance..."} ] }
Jupyter Agent 风格:代码执行
json { "messages": [ {"role": "system", "content": "You are an intelligent data science assistant with access to a stateful Jupyter notebook. You can use the add_and_execute_jupyter_code_cell tool.
You have access to: winequality-red.csv"}, {"role": "user", "content": "What is the average alcohol content in the dataset?"}, {"role": "assistant", "content": "<think> I need to load the CSV and compute the mean of the alcohol column. </think> {"name": "add_and_execute_jupyter_code_cell", "arguments": {"code": "import pandas as pd\ndf = pd.read_csv(/home/user/input/winequality-red.csv)\nprint(df[alcohol].mean())"}}"}, {"role": "assistant", "content": "10.422983114446529"}, {"role": "assistant", "content": "<answer> The average alcohol content is approximately 10.42%. </answer>"} ] }
使用方式
python from datasets import load_dataset dataset = load_dataset("Mustafaege/qwen3.5-toolcalling-v2")
相关数据集
| 版本 | 样本量 | 链接 |
|---|---|---|
| v1 | 51,004 | Mustafaege/qwen3.5-toolcalling-v1 |
| v2 (当前) | ~60K+ | Mustafaege/qwen3.5-toolcalling-v2 |
许可证
- Apache 2.0 — 详情请见 LICENSE。



