ToolScale

Name: ToolScale
Creator: NVIDIA
Published: 2025-11-27 12:02:56
License: 暂无描述

Hugging Face2025-11-27 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/nvidia/ToolScale

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含各种功能，包括id、描述、用户场景、初始状态和评估标准。描述字段包含目的、相关政策和注释。用户场景字段包含角色、任务说明、呼叫原因、已知信息和未知信息。评估标准字段包含动作，每个动作包含多个参数，如俱乐部id、赛季、状态、游戏id、联赛、是否仅活跃、球员id等。数据集还包含一些空字段，可能用于未来的扩展。

提供机构：

NVIDIA

创建时间：

2025-11-26

原始信息汇总

ToolScale数据集概述

数据集基本信息

数据集名称: ToolScale
发布机构: NVIDIA
数据集地址: https://huggingface.co/datasets/nvidia/ToolScale
下载大小: 2,457,777字节
数据集大小: 16,467,385字节
样本数量: 4,063个

数据结构特征

主要字段组成

id: 字符串类型标识符
description: 描述信息结构
- purpose: 字符串类型
- relevant_policies: 空值
- notes: 空值
user_scenario: 用户场景结构
- persona: 空值
- instructions: 指令结构
  - task_instructions: 字符串类型
  - reason_for_call: 字符串类型
  - known_info: 字符串类型
  - unknown_info: 字符串类型
  - domain: 字符串类型
initial_state: 空值
evaluation_criteria: 评估标准结构
- actions: 动作列表
  - arguments: 参数结构（包含100+个字段）
  - name: 字符串类型
  - action_id: 字符串类型
- communicate_info: 字符串序列
- nl_assertions: 字符串序列

复杂数据结构

参数结构: 包含俱乐部、季节、状态、游戏、联赛、玩家、交易、旅行、教育、医疗等多个领域的详细字段
嵌套结构: 支持多层嵌套数据结构，如地址信息、支付信息、保险信息等
列表类型: 支持旅行者列表、火车列表、座位列表、优惠列表等复杂数据结构
时间戳: 支持时间戳数据类型

数据集用途

作为ToolOrchestra项目的训练数据集之一，用于训练智能编排模型，协调专家模型和工具解决复杂的多轮代理任务。

相关资源

论文: https://arxiv.org/abs/2511.21689
代码库: https://github.com/NVlabs/ToolOrchestra/
模型: https://huggingface.co/nvidia/Orchestrator-8B
项目网站: https://research.nvidia.com/labs/lpr/ToolOrchestra/
其他训练数据: https://huggingface.co/datasets/natolambert/GeneralThought-430K-filtered

搜集汇总

数据集介绍

构建方式

在人工智能工具编排领域，ToolScale数据集通过结构化标注流程精心构建。该数据集采用多维度特征设计，涵盖用户场景描述、任务指令、领域分类及评估标准等核心要素。其构建过程特别注重动作参数的完整性，包含从金融交易到医疗处方等跨领域参数体系，通过时间戳序列和嵌套数据结构确保真实场景的精确还原。数据集通过专业标注团队对复杂任务流程进行拆解，形成标准化的工具调用范式。

使用方法

研究人员可通过HuggingFace平台直接加载ToolScale数据集进行模型训练与评估。该数据集适用于工具调用模型的监督微调阶段，能够有效提升模型在复杂任务中的工具选择与参数生成能力。使用时可结合数据集中提供的评估标准，对模型输出的动作序列进行多维度验证。建议采用课程学习策略，从简单工具调用逐步过渡到多步骤编排任务，以充分发挥数据集的训练价值。

背景与挑战

背景概述

在人工智能领域，工具调用与多模型协同已成为提升复杂任务解决能力的关键方向。ToolScale数据集由NVIDIA与香港大学联合研发，作为ToolOrchestra项目的核心训练数据，旨在推动智能体在多轮交互中高效协调异构工具与专家模型。该数据集通过结构化场景描述与动作参数规范，聚焦于解决现实场景中的动态决策问题，其设计理念显著提升了模型在金融、医疗、教育等跨领域任务中的泛化性能，为构建低成本高精度的智能系统奠定了数据基础。

当前挑战

构建ToolScale数据集面临双重挑战：在领域问题层面，需克服多工具动态调度中的语义对齐难题，确保模型能精准解析用户意图并选择最优工具链；在数据构建过程中，需平衡大规模场景覆盖与参数一致性，例如跨领域动作参数的标准化定义与时序逻辑的连贯性验证，同时需解决异构工具接口的语义映射与容错机制设计问题。

常用场景

经典使用场景

在智能体系统研究领域，ToolScale数据集为多轮复杂任务中的工具调用与模型协调提供了标准化评估框架。该数据集通过结构化字段模拟真实场景下的用户指令与系统响应，涵盖金融交易、旅行预订、医疗咨询等跨领域任务，使研究者能够系统评估智能体在动态环境中调用异构工具链的准确性与连贯性。其嵌套式特征设计精确捕捉了动作参数传递、状态转换与信息沟通的完整流程，成为验证工具增强型语言模型性能的核心基准。

解决学术问题

ToolScale有效解决了智能体系统中工具组合泛化与多步推理的学术难题。通过提供包含时间序列操作、空间推理与领域知识整合的多样化任务，该数据集帮助突破传统方法在长程依赖与上下文保持方面的局限。其精心设计的评估标准推动了基于强化学习的策略优化研究，为构建兼顾效率与精度的协同计算范式提供数据支撑，显著加速了面向开放环境的多模态工具学习理论发展。

实际应用

该数据集已广泛应用于企业级智能助手与自动化流程开发。在金融服务中支撑反欺诈系统的多工具协同决策，于医疗领域赋能处方审核与患者管理的闭环操作，并为教育平台提供课程注册与学业规划的个性化服务。其模块化数据结构可直接对接现有业务系统，通过标准化接口降低智能体部署成本，推动产业界实现从单点工具到生态化服务链的数字化转型。

数据集最近研究