When2Call

Name: When2Call
Creator: NVIDIA
Published: 2025-04-29 08:14:10
License: 暂无描述

Hugging Face2025-04-29 更新2025-04-30 收录

下载链接：

https://huggingface.co/datasets/nvidia/When2Call

下载链接

链接失效反馈

官方服务：

资源简介：

When2Call是一个评估大型语言模型工具调用决策能力的基准数据集，包括何时生成工具调用、何时提出后续问题、何时承认问题无法用提供的工具回答，以及如果问题似乎需要使用工具但无法进行工具调用时应该怎么做。该数据集提供了一个训练集用于When2Call，并利用基准的多选特性来开发偏好优化训练制度，这比传统的微调方法对工具调用有显著改进。

提供机构：

NVIDIA

创建时间：

2025-04-26

原始信息汇总

When2Call 数据集概述

基本信息

所有者: NVIDIA Corporation
创建日期: 2024年9月
许可证: Creative Commons Attribution 4.0 International
语言: 英语 (en)
任务类别: 文本生成 (text-generation)
标签: 函数调用 (function-calling)、工具调用 (tool-calling)、合成数据 (synthetic)、NVIDIA (nvidia)

数据集描述

When2Call 是一个用于评估大型语言模型 (LLMs) 工具调用决策能力的基准测试，涵盖以下方面：

何时生成工具调用
何时提出后续问题
何时承认问题无法通过提供的工具解决
当问题看似需要工具使用但无法进行工具调用时的应对策略

数据集配置

测试集 (test):
- llm_judge: 300 条数据
- mcq: 3,652 条数据
训练集:
- train_sft (监督微调): 15,000 条数据
- train_pref (偏好调优): 9,000 条数据

数据格式

文件格式: JSON Lines (.jsonl)
总存储量: 56MB

特征字段

测试集:
- uuid, source, source_id, question, correct_answer, answers, target_tool, tools, orig_tools, orig_question, held_out_param
训练集 (SFT):
- tools, messages
训练集 (Preference):
- tools, messages, chosen_response, rejected_response

数据收集与标注

数据收集方法: 合成数据
标注方法: 自动化

预期用途

用于评估和训练 LLMs 的工具调用能力。

参考文献

Hayley Ross, Ameya Sunil Mahabaleshwarka, Yoshi Suhara. "When2Call: When (not) to Call Tools". NAACL 2025.

伦理考虑

NVIDIA 强调可信赖 AI 是共同责任，开发者应确保模型符合相关行业和使用案例的要求。

搜集汇总

数据集介绍

构建方式

在大型语言模型工具调用决策评估领域，When2Call数据集采用合成数据生成技术构建，通过自动化标注流程确保数据质量。该数据集包含监督微调（SFT）和偏好优化（如DPO）两种训练集，以及多选题评估和LLM作为评判者的测试集，总计生成24,952条结构化数据实例。数据生成脚本和评估代码已在GitHub仓库开源，为研究社区提供透明可复现的基准构建方法。

特点

作为工具调用决策领域的专业评测基准，When2Call数据集具有多维评估特性。其独特之处在于同时涵盖工具调用时机判断、追问需求识别、无解问题承认等复杂决策场景。数据集提供丰富的元数据字段，包括工具规范、用户输入、候选答案及预期响应等，支持端到端的模型训练与评估。3,652道多选题和300条LLM评判子集的设计，为模型性能提供多角度验证。

使用方法

该数据集支持灵活的研究应用场景。通过HuggingFace datasets库可分别加载测试集（含mcq和llm_judge两个子集）或训练集（sft/pref两种格式）。监督微调数据集包含15,000条工具-消息对，偏好优化数据集则提供9,000条带正负样本的对比数据。研究人员可基于PyTorch或TensorFlow框架，利用这些结构化数据开展工具调用决策模型的微调训练，或通过多选题测试集进行zero-shot能力评估。

背景与挑战

背景概述

由NVIDIA公司于2024年9月发布的When2Call数据集，标志着大型语言模型（LLMs）工具调用决策评估领域的重要进展。该数据集旨在系统评估LLMs在工具调用场景中的决策能力，包括判断何时生成工具调用、何时提出后续问题、何时承认无法通过现有工具解决问题等关键行为。作为NAACL 2025会议收录的研究成果，该数据集通过合成数据生成技术和自动化标注方法，构建了包含监督微调与偏好优化的双轨训练体系，为提升LLMs在复杂工具调用场景中的鲁棒性提供了标准化评估框架。其创新性的多选问答设计和LLM-as-a-judge评估机制，显著推动了人机交互系统中工具调用决策的量化研究。

当前挑战

When2Call数据集面临的挑战主要体现在两个维度：在领域问题层面，现有工具调用模型在复杂决策场景中仍存在显著性能差距，特别是当问题需要多轮交互或工具参数不完整时，模型难以平衡工具调用与自然语言响应的选择；在构建技术层面，合成数据虽然能高效生成海量样本，但需要精细设计工具调用逻辑树以确保数据分布的合理性，同时偏好优化数据的标注过程涉及对模型响应质量的自动化评估，这对评判标准的客观性和一致性提出了更高要求。测试集中工具参数动态遮蔽（held_out_param）的设计虽能验证模型泛化能力，但也增加了评估任务的复杂度。

常用场景

经典使用场景

在大型语言模型（LLM）工具调用能力评估领域，When2Call数据集被广泛应用于测试模型在复杂决策场景下的表现。该数据集通过多选问题评估和LLM作为评判者的双重机制，精确衡量模型在何时生成工具调用、何时提出后续问题、何时承认无法通过现有工具解决问题等关键决策点的能力。研究人员可利用该数据集对模型进行端到端的工具调用决策评估，特别适合验证模型在工具参数缺失或工具不适用时的应变能力。

实际应用

在实际应用中，When2Call数据集被集成到商业LLM开发流程中，用于优化虚拟助手、智能客服等需要工具调用的场景。企业可利用其训练集开发更精准的工具调用策略，减少无效调用带来的资源浪费。测试集的MCQ评估模块可直接部署为持续集成中的自动化测试环节，监测模型迭代过程中的性能波动。特别在医疗咨询、法律问答等专业领域，该数据集帮助模型建立更严谨的工具调用决策机制。

衍生相关工作

基于When2Call的评估框架，学术界已衍生出多个重要研究方向。NVIDIA团队提出的偏好优化训练范式被应用于工具调用之外的决策任务扩展，相关方法发表在NAACL等顶级会议。部分研究将该数据集的评估指标与人类专家判断进行对齐验证，推动了可解释性工具调用决策的发展。另有工作将其合成数据生成方法迁移至多模态工具调用场景，构建了跨模态的决策评估基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集