UniToolCall
收藏github2026-04-08 更新2026-04-23 收录
下载链接:
https://github.com/EIT-NLP/UniToolCall
下载链接
链接失效反馈官方服务:
资源简介:
训练数据包含两部分:(1) 公共转换数据,和 (2) 管道生成数据。完整的公共转换版本可在Hugging Face上获取:[huggingface.co/datasets/EIT-NLP/UniToolCall](https://huggingface.co/datasets/EIT-NLP/UniToolCall)。管道生成的数据集位于仓库的`multi-hop_pipeline/data/`、`multi-turn_pipeline/data/`和`single-hop_pipeline/data/`目录下。
本数据集的训练数据由两部分构成:(1) 公共转换数据集,(2) 管道生成数据集。完整的公共转换数据集可于Hugging Face平台获取,其仓库链接为:https://huggingface.co/datasets/EIT-NLP/UniToolCall。管道生成的数据集存放于该仓库的`multi-hop_pipeline/data/`、`multi-turn_pipeline/data/`及`single-hop_pipeline/data/`目录下。
创建时间:
2026-04-07
原始信息汇总
UniToolCall 数据集概述
数据集简介
UniToolCall 是一个用于大语言模型(LLM)智能体工具学习的统一框架。该框架旨在标准化工具学习的全流程,包括工具集构建、数据集生成和评估。
核心数据构成
训练数据
训练数据由两部分组成:
- 公共数据集转换数据:整合了10个标准化的公共数据集。
- 流程生成数据:通过结构化控制的合成轨迹生成,覆盖单跳、多跳、单轮和多轮交互,并明确建模串行和并行执行。
数据规模
- 工具池:包含超过22,000个工具。
- 训练语料库:包含超过390,000个实例,为混合训练语料。
数据特性与结构
- 交互类型:明确涵盖单跳、多跳、单轮和多轮交互。
- 执行模式:建模串行和并行执行。
- 多轮交互机制:引入“锚点链接”机制以强制执行轮次间的依赖关系。
- 统一表示:将7个公共基准测试转换为统一的“查询-动作-观察-答案”表示形式。
数据分布与获取
- 公共转换数据发布地址:https://huggingface.co/datasets/EIT-NLP/UniToolCall
- 流程生成数据存储位置:
multi-hop_pipeline/data/multi-turn_pipeline/data/single-hop_pipeline/data/
- 工具集文件:
tool_set/apis/toolset.json
评估体系
评估在三个层面进行细粒度评估:
- 函数调用级别
- 轮次级别
- 对话级别
性能表现
基于该数据集对Qwen3-8B模型进行微调,在包含大量干扰项的“Hybrid-20”设置下,单轮严格精度达到93.0%,优于Qwen3-32B模型20.3个百分点。
许可证
数据集遵循Apache License 2.0许可证。
搜集汇总
数据集介绍

构建方式
在大型语言模型工具学习领域,UniToolCall数据集通过融合标准化公共数据与结构化合成轨迹构建而成。该框架整合了十个公开数据集,并生成涵盖单跳、多跳、单轮及多轮交互的合成实例,总量超过39万条。构建过程中,数据生成管道显式建模了串行与并行执行模式,并引入锚点链接机制以强化多轮交互中的跨轮次依赖关系,从而形成统一的查询-动作-观察-答案表示形式。
特点
UniToolCall数据集的核心特征在于其高度统一性与结构多样性。数据集囊括超过2.2万个工具组成的工具池,并覆盖多种交互范式,包括单跳、多跳以及单轮与多轮对话场景。其独特之处在于通过锚点链接机制确保多轮交互的连贯性,并将七个公共评测基准转化为细粒度的函数调用、轮次及会话级评估体系,为工具学习提供了全面且一致的评估标准。
使用方法
使用UniToolCall数据集时,研究人员可通过Hugging Face平台获取公开转换部分的数据,而管道生成的数据则存储于仓库的相应目录中。数据应用流程包括配置环境变量与API密钥,运行推理脚本生成预测结果,随后利用评估脚本进行多层级性能分析。数据集支持本地vLLM服务及主流云API,其模块化脚本结构便于用户根据具体研究需求定制数据处理与评估流程。
背景与挑战
背景概述
在大型语言模型(LLM)代理领域,工具调用能力是实现与外部系统交互的关键技术。然而,现有研究在工具学习过程中普遍面临交互表示不一致、轨迹结构分布关注不足以及评估基准互不兼容等问题。UniToolCall框架由EIT-NLP团队于近期提出,旨在通过统一工具集构建、数据集生成与评估全流程,解决上述核心研究问题。该框架整合了超过22,000个工具和390,000余条混合训练实例,覆盖单跳、多跳、单轮及多轮交互场景,并引入锚点链接机制以强化跨轮依赖建模,显著提升了LLM代理的工具使用性能与泛化能力,对推动智能体系统标准化发展具有重要影响力。
当前挑战
UniToolCall致力于解决LLM代理工具调用领域的核心挑战,即如何实现跨场景、跨任务的统一表示与评估。具体而言,该数据集构建过程中需克服三大难题:其一,工具调用轨迹的结构复杂性,需精确建模串行与并行执行逻辑,并确保多轮交互中的依赖关系连贯性;其二,数据合成与质量控制,需在生成大规模混合数据时平衡真实性与多样性,同时避免噪声引入;其三,评估体系标准化,需将异构基准转换为统一的QAOA表示,并在函数调用、轮次及对话级别实现细粒度性能度量。这些挑战共同构成了工具学习从数据构建到评估验证的全链条瓶颈。
常用场景
经典使用场景
在大型语言模型(LLM)代理工具学习领域,UniToolCall数据集为标准化工具使用流程提供了典范场景。该数据集通过整合超过22,000个工具和390,000个训练实例,覆盖单跳、多跳、单轮和多轮交互模式,并明确建模串行与并行执行逻辑。其经典使用场景在于为研究人员提供结构化的训练语料,以系统性地评估和提升LLM代理在复杂工具调用任务中的泛化能力与鲁棒性,尤其在处理含干扰项的高难度设定下表现突出。
实际应用
在实际应用层面,UniToolCall框架可广泛应用于智能助手、自动化工作流和跨平台服务集成等场景。例如,在开发能够调用多种API的对话代理时,利用该数据集训练的模型能更准确地理解用户指令、规划工具调用序列并处理多轮交互中的依赖关系。其支持的并行执行与锚点链接机制尤其适用于需要同时协调多个外部系统(如数据库查询、支付接口与地图服务)的复杂业务流程,显著提升了代理在真实环境中的实用性与可靠性。
衍生相关工作
围绕UniToolCall数据集,已衍生出多项经典研究工作,主要集中在工具学习范式的统一与评估体系的创新。例如,基于其标准化QAOA表示,研究者开发了针对多跳推理的增强训练策略,以及结合强化学习的工具调用优化方法。同时,该数据集催生了多个专注于特定交互类型(如长程依赖的多轮对话)的细分基准,并促进了开源工具库与可视化分析工具的发展,为后续研究提供了可扩展的基础设施与方法论参考。
以上内容由遇见数据集搜集并总结生成



