qwen3.5-functioncalling-v1

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/Mustafaege/qwen3.5-functioncalling-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Qwen3.5 Function Calling Dataset v1 是一个经过整理的功能调用监督微调（SFT）数据集，源自 glaiveai/glaive-function-calling-v2，并转换为 Qwen3 消息格式，用于微调 Qwen3.5 系列模型。该数据集旨在帮助语言模型生成结构化 JSON 输出以调用外部 API、工具或服务。数据集包含 112,960 个样本，其中训练集 101,664 个，测试集 11,296 个。数据格式为 Qwen3 消息格式，包含 `system`、`user` 和 `assistant` 三种角色类型。`system` 角色提供功能定义和助手指令，`user` 角色触发功能调用请求，`assistant` 角色生成功能调用 JSON 或自然语言响应。数据集适用于文本生成任务，特别是功能调用和工具使用场景。数据集语言为英语，采用 Apache 2.0 许可证。

Qwen3.5 Function Calling Dataset v1 is a curated supervised fine-tuning (SFT) dataset derived from glaiveai/glaive-function-calling-v2 and converted to the Qwen3 message format, intended for fine-tuning Qwen3.5 series models. This dataset is designed to enable language models to generate structured JSON outputs for invoking external APIs, tools, or services. It contains a total of 112,960 samples, including 101,664 training samples and 11,296 test samples. The dataset follows the Qwen3 message format, which includes three role types: `system`, `user`, and `assistant`. The `system` role provides function definitions and assistant instructions; the `user` role triggers function call requests; and the `assistant` role generates either function call JSON outputs or natural language responses. This dataset is applicable to text generation tasks, especially function calling and tool usage scenarios. The dataset is in English and released under the Apache 2.0 license.

创建时间：

2026-03-04

原始信息汇总

Qwen3.5 Function Calling Dataset v1 数据集概述

数据集基本信息

数据集名称：Qwen3.5 Function Calling Dataset v1
数据集地址：https://huggingface.co/datasets/Mustafaege/qwen3.5-functioncalling-v1
主要用途：用于微调Qwen3.5系列模型，训练其进行函数调用（Function Calling）和工具使用（Tool Use）。
核心任务：文本生成（Text Generation），具体为指令遵循（Instruction Following）和结构化输出（Structured Output）。
语言：英语（en）
许可证：Apache 2.0

数据规模与构成

总样本量：112,960
训练集样本量：101,664
测试集样本量：11,296
规模分类：100K < n < 1M
数据来源：基于 glaiveai/glaive-function-calling-v2 数据集转换并标准化而来。
数据创建方式：机器生成（Machine-generated）

数据集内容与结构

数据字段

messages：一个字典列表，包含对话轮次，每个字典包含 role 和 content 字段。

角色类型

system：包含函数定义和给助手的指令。
user：触发函数调用的用户请求。
assistant：模型响应，内容为函数调用的JSON格式或自然语言回复。

数据格式

所有样本均已标准化为Qwen3的原生消息格式。一个完整的样本包含多轮对话，展示了从用户请求、模型进行函数调用、接收函数响应到最终回复的完整流程。函数调用以 <functioncall> 标签包裹的JSON格式输出。

数据处理与转换

源数据集：glaiveai/glaive-function-calling-v2
原始格式：包含 system 字段和 chat 字段（使用 USER: / ASSISTANT: 模式）。
转换逻辑：
- system 字段转换为 {"role": "system", "content": ...}
- chat 字段中的 "USER: ..." 转换为 {"role": "user", "content": ...}
- chat 字段中的 "ASSISTANT: ..." 转换为 {"role": "assistant", "content": ...}

使用方式

可通过 datasets 库加载数据集，并用于训练。示例代码展示了如何使用 Unsloth 和 SFTTrainer 进行高效微调。

引用

若使用本数据集，请引用原始数据源 glaiveai/glaive-function-calling-v2。

搜集汇总

数据集介绍

构建方式

在大型语言模型工具调用能力日益重要的背景下，Qwen3.5 Function Calling Dataset v1的构建体现了对现有高质量资源的有效整合与标准化。该数据集源自glaiveai/glaive-function-calling-v2，通过一套精密的转换逻辑，将原始数据中基于“USER:”和“ASSISTANT:”标记的对话格式，系统地重构为符合Qwen3系列模型原生消息格式的列表结构。具体而言，转换过程将原始的系统提示映射为“system”角色，并将对话轮次精准地解析为“user”与“assistant”角色，最终形成包含超过11万条样本的标准化数据集，并划分为训练集与测试集，为模型微调提供了结构清晰、格式统一的语料基础。

特点

该数据集的核心特点在于其专为函数调用任务设计的结构化对话格式。每条数据样本均以消息列表的形式组织，清晰地定义了系统角色提供的函数描述、用户角色提出的自然语言请求，以及助理角色生成的结构化JSON函数调用或自然语言回复。这种格式不仅完整模拟了真实场景下的工具调用交互流程，还确保了模型能够学习从非结构化请求中准确解析意图、匹配函数并提取参数的关键能力。数据集完全采用英文，遵循Apache 2.0开源协议，其规模适中且经过精心划分，兼具了训练的有效性与评估的可靠性。

使用方法

使用该数据集进行模型微调，流程直接而高效。研究者可通过Hugging Face的`datasets`库加载数据集，获得包含训练与测试分片的DatasetDict对象。每条样本的“messages”字段可直接用于监督式微调。结合如Unsloth等高效训练框架，开发者可以便捷地应用Qwen3专用的聊天模板，并利用SFTTrainer等工具进行模型训练。数据集的结构设计使得它能够无缝集成到标准的大语言模型微调流水线中，旨在提升模型在理解用户指令、生成合规JSON以调用外部API或工具方面的性能，是增强模型实用性与交互性的重要资源。

背景与挑战

背景概述

在大型语言模型向工具调用与结构化输出能力演进的背景下，通义千问团队于2024年推出了Qwen3.5 Function Calling Dataset v1。该数据集源自GlaiveAI的glaive-function-calling-v2，由Mustafaege研究团队进行格式转换与标准化处理，旨在为Qwen3.5系列模型提供高质量的有监督微调数据。其核心研究问题聚焦于提升语言模型对用户指令的理解与结构化函数调用能力，即模型需精准解析自然语言请求，识别对应函数并提取参数以生成合规的JSON输出。这一数据集的构建推动了开源模型在工具使用与API集成方向的发展，为构建具备实际交互能力的智能助手奠定了数据基础。

当前挑战

该数据集致力于解决语言模型在函数调用任务中面临的若干核心挑战。首要挑战在于模型需从复杂多变的自然语言指令中准确识别用户意图，并将其映射到预定义的函数集合，同时精确提取结构化参数，这对模型的语义理解与逻辑推理能力提出了较高要求。在数据构建过程中，挑战主要源于源数据格式的异构性转换，需将原始对话中的角色标记系统性地转化为Qwen3消息格式，并确保函数定义、用户查询与模型响应在转换后保持语义一致性与结构完整性。此外，如何确保生成的数据集能够广泛覆盖多样化的函数调用场景，以提升模型的泛化能力，亦是构建过程中的关键考量。

常用场景

经典使用场景

在大型语言模型（LLM）与外部工具集成的研究领域，Qwen3.5 Function Calling Dataset v1 的核心应用场景在于对模型进行指令微调，以增强其函数调用能力。该数据集通过标准化的对话格式，模拟了用户请求、函数定义及结构化响应的完整交互流程，为模型学习如何准确解析自然语言指令、识别对应函数并生成合规的JSON参数提供了高质量的监督数据。这一过程直接服务于构建能够无缝衔接API、数据库或各类服务的智能助手，是推动语言模型从纯文本生成迈向具身行动的关键步骤。

衍生相关工作

该数据集的发布直接催生并支撑了一系列围绕Qwen3.5系列模型进行工具学习优化的研究工作。开发者利用此数据集对基础模型进行监督微调，产出了多个专精于函数调用的开源模型变体，这些模型在评测基准如ToolBench上展现了卓越的性能。同时，相关工作进一步探索了数据混合策略、课程学习以及强化学习对齐等方法，以提升模型在未知函数上的泛化能力和推理精度。这些衍生模型和训练范式共同构成了开源生态中工具调用能力建设的重要组成部分，为后续更复杂的智能体（Agent）系统开发奠定了坚实的数据与模型基础。

数据集最近研究