five

UniToolCall

收藏
arXiv2026-04-13 更新2026-04-15 收录
下载链接:
https://github.com/EIT-NLP/UniToolCall
下载链接
链接失效反馈
官方服务:
资源简介:
UniToolCall是由宁波数字孪生研究院等机构构建的大规模工具学习数据集,包含22,606个工具定义和390,060条训练实例。该数据集创新性地融合了10个标准化公共数据集与结构可控的合成轨迹,涵盖单跳/多跳、单轮/多轮交互模式,并首次显式建模了串行与并行执行结构。通过独创的锚定链接机制强化跨轮次依赖关系,所有数据均采用统一的QAOA(查询-动作-观察-回答)表示框架。该数据集旨在解决工具学习中的表征碎片化、结构欠建模和评估不兼容三大核心问题,为LLM智能体的工具调用能力提供标准化训练与评估基准。
提供机构:
中国科学技术大学; 宁波数字孪生研究院·东方理工学院; 香港理工大学·计算学系
创建时间:
2026-04-13
原始信息汇总

UniToolCall 数据集概述

数据集简介

UniToolCall 是一个用于工具学习的统一框架,旨在标准化工具学习的全流程,包括工具集构建、数据集生成和评估。该框架提供了一个包含超过 22,000 个工具的工具池,以及一个包含超过 390,000 个实例的混合训练语料库。

数据集构成

训练数据由两部分组成:

  1. 公共转换数据:整合了 10 个标准化的公共数据集。
  2. 流程生成数据:通过结构化控制的合成轨迹生成,覆盖了单跳、多跳、单轮和多轮交互,并明确建模了串行和并行执行。多轮交互中引入了“锚点链接”机制以强制执行跨轮次依赖。

数据规模与特点

  • 工具池规模:超过 22,000 个工具。
  • 训练实例规模:超过 390,000 个实例。
  • 交互类型:涵盖单跳、多跳、单轮和多轮交互。
  • 执行模式:明确建模串行和并行执行。

评估基准与表示

  • 统一表示:将 7 个公共基准转换为统一的“查询-动作-观察-答案”表示形式。
  • 评估粒度:在函数调用、轮次和对话级别进行细粒度评估。

性能表现

在 Qwen3-8B 模型上使用本数据集进行微调,显著提升了工具使用性能。在干扰项较多的“Hybrid-20”设置下,UniToolCall 在单轮严格精确度上达到了 93.0%,比 Qwen3-32B 高出 20.3 个百分点。

数据获取与存储

  • 公共转换数据发布地址:https://huggingface.co/datasets/EIT-NLP/UniToolCall
  • 流程生成数据存储路径
    • multi-hop_pipeline/data/
    • multi-turn_pipeline/data/
    • single-hop_pipeline/data/
  • 工具集文件路径tool_set/apis/toolset.json

许可证

本项目采用 Apache License 2.0 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型代理工具学习领域,数据集的构建质量直接决定了模型对外部系统交互能力的上限。UniToolCall数据集通过一种混合构建策略,系统性地整合了来自十个标准化公共数据源的超过387,000条实例,并在此基础上,基于一个精心筛选的包含22,000余个工具的工具池,生成了结构可控的合成轨迹。其合成管线明确建模了单跳、多跳、单轮、多轮等多种交互模式,并精细区分了串行与并行两种工具执行结构。尤为关键的是,该框架引入了锚点链接机制,以强制多轮对话间的状态依赖关系,确保了长程推理的连贯性。最终,所有数据均被统一转换为查询-行动-观察-答案格式,形成了一个规模达390,000余条实例的综合性训练语料库。
特点
该数据集的核心特征在于其统一性与结构多样性。首先,它通过标准化的QAOA表示法,解决了以往工具学习数据中表征不一致的根本问题,为跨数据源的联合训练与评估提供了统一基础。其次,数据集在规模宏大的同时,深度覆盖了工具使用的结构复杂性,不仅包含基础的单一工具调用,更系统性地囊括了需要多步规划与状态维护的复杂场景。其合成数据部分通过受控生成,精确注入了对串行依赖与并行执行模式的监督信号,弥补了公共语料库在结构建模上的不足。此外,数据集配套的统一评估基准将七个异构的公共评测集转化为相同格式,支持在函数调用、轮次和会话三个粒度上进行细粒度评估,实现了跨任务结构的公平性能比较。
使用方法
UniToolCall数据集主要用于训练和评估大型语言模型在结构化工具调用方面的能力。研究人员可利用其统一的QAOA格式,对模型进行端到端的微调,以学习如何将自然语言指令映射为正确的函数名称和参数。在评估阶段,该数据集提供的统一基准支持多层次的性能度量:在函数调用级别,检验工具名称与参数生成的准确性;在轮次级别,评估单轮或多轮对话中任务完成的完整性;在会话级别,衡量长程、多轮交互的整体成功率。评估时采用混合候选工具列表设置,模拟了真实场景中模型需从大量干扰项中精准定位目标工具的挑战。通过这套标准化的使用流程,该数据集能够系统、可复现地衡量模型在复杂工具使用任务上的泛化能力与鲁棒性。
背景与挑战
背景概述
随着大型语言模型(LLM)智能体从被动文本生成转向与外部环境进行目标导向交互,工具使用能力成为其核心组件,使其能够通过结构化函数调用与外部系统交互。然而,该领域长期存在交互表示不一致、工具使用轨迹的结构分布被忽视以及评估基准互不兼容等问题。为应对这些挑战,由宁波数字孪生研究院、中国科学技术大学及香港理工大学等机构的研究人员于2026年共同提出了UniToolCall数据集。该数据集旨在构建一个统一的工具学习框架,标准化从工具集构建、数据生成到评估的整个流程。其核心研究问题聚焦于解决工具学习中的碎片化问题,通过整合大规模公共语料与结构可控的合成轨迹,为训练和评估LLM智能体的工具使用能力提供了高质量、标准化的资源,对推动可扩展且系统化的智能体工具学习研究具有重要影响力。
当前挑战
UniToolCall数据集致力于解决LLM智能体工具使用领域的核心挑战,即模型如何准确地将自然语言指令映射为可执行的函数调用,并可靠地选择、组合和执行工具。具体挑战包括:在复杂多轮对话中维持跨轮次状态依赖、区分串行与并行工具调用模式,以及处理单跳与多跳交互的规划问题。在构建过程中,研究团队面临三大挑战:首先是表示不一致性,不同来源的数据集采用互不兼容的模式编码工具调用、参数和观察结果,导致跨源联合训练困难;其次是结构建模不足,现有数据生成流程普遍忽视了执行结构的多样性,特别是串行与并行工具调用模式的区分;最后是评估失配,现有基准依赖不同的协议、工具定义和评估脚本,阻碍了公平且可复现的跨数据集比较。
常用场景
经典使用场景
在大型语言模型智能体研究领域,工具调用能力是实现外部环境交互的核心技术。UniToolCall数据集通过构建统一框架,为工具学习提供了标准化训练与评估基准。其经典使用场景在于系统化训练模型掌握从简单单步调用到复杂多轮对话的多样化交互模式,涵盖串行与并行执行结构,显著提升了智能体在混合干扰环境下的工具选择与参数生成精度。
解决学术问题
该数据集有效解决了工具学习领域长期存在的三大碎片化问题:交互表示不一致、执行结构建模不足以及评估基准互不兼容。通过引入统一的QAOA表示格式,整合大规模公共语料与结构可控的合成轨迹,UniToolCall为学术界提供了可复现、可比较的研究基础,推动了工具调用能力从孤立实验向系统化评估的范式转变。
衍生相关工作
基于UniToolCall的统一表示与评估协议,衍生出多项针对工具学习子问题的深入研究。例如,其结构感知的数据生成机制启发了对串并行执行模式的细粒度分析,锚点链接机制为长程对话状态跟踪提供了新思路。这些工作共同推进了工具学习在规划一致性、跨轮次依赖建模等方向的理论进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作