When2Call
收藏github2025-04-29 更新2025-04-30 收录
下载链接:
https://github.com/NVIDIA/When2Call
下载链接
链接失效反馈官方服务:
资源简介:
When2Call是一个用于训练和评估语言模型在决策制定方面的数据集,特别关注何时(不)调用工具。该数据集评估工具调用的决策制定:何时生成工具调用、何时提出后续问题以及何时承认问题无法通过提供的工具解答。
When2Call is a dataset designed for training and evaluating language models in decision-making tasks, with a particular focus on determining the timing of tool invocation. The dataset assesses the decision-making process for tool invocation, including when to generate a tool call, when to pose follow-up questions, and when to acknowledge that the problem cannot be resolved through the provided tools.
创建时间:
2025-04-26
原始信息汇总
When2Call 数据集概述
数据集简介
- 名称: When2Call
- 目的: 评估语言模型在工具调用决策中的表现,包括何时生成工具调用、何时提出后续问题以及何时承认无法回答问题。
- 特点: 专注于工具调用决策而非工具调用准确性。
数据集内容
测试数据
- 文件路径:
~/data/test/when2call_test_mcq.jsonl~/data/test/when2call_test_llm_judge.jsonl
- 数据格式:
uuid: 唯一标识符source: 问题来源类别source_id: 来源样本IDquestion: 用户问题correct_answer: 正确答案类别("direct", "tool_call", "request_for_info", "cannot_answer")answers: 各答案类别的响应target_tool: 正确工具(如有)tools: 提供的工具列表
训练数据
监督微调 (SFT)
- 文件路径:
~/data/train/when2call_train_sft.jsonl - 数据格式:
tools: 提供的工具列表messages: 对话记录(用户问题和助手回答)
偏好调优 (Preference Tuning)
- 文件路径:
~/data/train/when2call_train_pref.jsonl - 数据格式:
tools: 提供的工具列表messages: 用户问题chosen_response: 正确助手回答rejected_response: 错误助手回答
数据生成
- 来源数据:
- 生成工具: 使用OpenAI API兼容端点生成合成数据。
评估方法
MCQ (LM-Eval-Harness)
- 步骤:
- 克隆并设置LM-Eval-Harness。
- 复制MCQ评估数据到指定目录。
- 运行评估脚本。
- 生成额外指标(如幻觉率和混淆矩阵)。
LLM-as-a-Judge
- 步骤:
- 使用OpenAI API模型生成模型响应。
- 运行评判脚本。
- 聚合评判结果。
结果
MCQ 评估结果
- 指标: F1、Acc-Norm、Tool Hallucination Rate、BFCL AST Acc、BFCL Irr. Acc。
- 表现最佳模型: MNM 8B dataset-RPO(F1: 52.4, Acc-Norm: 70.0%, Tool Hall%: 1.2%)。
LLM-as-a-Judge 评估结果
- 指标: F1、Acc、Tool Hallucination Rate、BFCL AST Acc、BFCL Irr. Acc。
- 表现最佳模型: GPT-4-Turbo-04-09(F1: 64.6, Acc: 64.3%, Tool Hall%: 22%)。
引用
bibtex @inproceedings{ross-etal-2025-when2call, title = "{W}hen2{C}all: When (not) to Call Tools", author = "Ross, Hayley and Mahabaleshwarkar, Ameya Sunil and Suhara, Yoshi", booktitle = "Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)", month = apr, year = "2025", address = "Albuquerque, New Mexico", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.naacl-long.174/", pages = "3391--3409", ISBN = "979-8-89176-189-6", }
搜集汇总
数据集介绍

构建方式
在语言模型工具调用能力评估领域,When2Call数据集的构建采用了多源数据融合与合成生成相结合的方法。研究团队基于BFCL基准测试数据和Salesforce/xlam-function-calling-60k数据集,通过Mistral-8x22b-instruct模型进行数据增强,生成了包含四种决策类型(直接回答、工具调用、信息追问、无法回答)的评估样本。数据构建过程特别设计了参数缺失情境以测试模型的信息追问能力,并通过严格的质量控制确保样本的多样性和评估维度覆盖。
使用方法
使用When2Call进行模型评估时,研究者可通过两种互补的评估范式:多项选择题(MCQ)模式和LLM-as-a-Judge模式。MCQ评估利用LM-Eval-Harness框架计算宏观F1值和标准化准确率,同时输出工具幻觉率等衍生指标;LLM-as-a-Judge模式则通过GPT-4等高级模型进行响应质量评判。对于模型训练,数据集提供监督微调(SFT)和偏好优化(Preference Tuning)两种格式,其中偏好优化数据采用对比学习框架,能显著提升模型的决策能力。评估时需注意根据模型特性选择合适的prompt模板配置。
背景与挑战
背景概述
When2Call数据集由NVIDIA等机构的研究团队于2025年推出,旨在解决现代语言模型(LMs)在工具调用决策中的关键问题。该数据集的核心研究焦点是评估语言模型在何时调用工具、何时提出后续问题以及何时承认无法通过现有工具解答问题的能力。通过引入多类别评估框架,When2Call填补了现有工具调用基准仅关注调用准确性的空白,为语言模型在复杂决策场景下的表现提供了系统化评估标准。该数据集的发布推动了语言模型与外部工具集成领域的研究,为后续优化模型决策逻辑提供了重要基准。
当前挑战
When2Call数据集面临的挑战主要体现在两个方面:领域问题的复杂性与数据构建的技术难度。在领域层面,模型需精准区分工具调用、直接回答、信息补充请求及无法回答四种决策场景,这对模型的上下文理解与逻辑推理能力提出了更高要求。数据构建过程中,合成数据的生成依赖高质量API接口与多样化问题模板,需平衡工具参数缺失、问题模糊性等边缘案例的覆盖范围,同时确保评估指标(如工具幻觉率)能真实反映模型缺陷。此外,多模型评估时提示模板的差异性也增加了结果可比性的挑战。
常用场景
经典使用场景
在自然语言处理领域,When2Call数据集为评估语言模型在工具调用决策中的表现提供了基准。该数据集通过模拟多种实际场景,如是否需要调用工具、请求更多信息或承认无法回答问题,帮助研究者深入理解模型在复杂交互中的行为模式。其多选式评估框架为模型性能的量化分析提供了科学依据。
解决学术问题
When2Call数据集解决了语言模型工具调用决策中的关键学术问题,包括如何判断何时调用工具、何时需要进一步澄清问题以及何时应承认能力局限。通过系统化的评估标准,该数据集填补了现有研究在工具调用决策逻辑评估上的空白,为模型优化提供了明确方向,推动了语言模型与外部工具集成领域的发展。
实际应用
在实际应用中,When2Call数据集可优化智能助手、客服系统等场景下的工具调用策略。通过训练模型准确判断何时需要调用外部API、何时应请求用户澄清或礼貌拒绝,显著提升了人机交互的流畅性和可靠性。该数据集特别适用于需要平衡自动化效率与用户体验的复杂服务场景。
数据集最近研究
最新研究方向
在语言模型工具调用领域,When2Call数据集的推出标志着研究重心从单纯的工具调用准确性转向了更为复杂的决策逻辑评估。该数据集聚焦于模型在何时调用工具、何时请求更多信息以及何时承认无法回答等关键决策点,填补了现有评估体系的空白。当前前沿研究主要围绕三个方向展开:基于偏好优化的训练范式创新,通过对比传统微调方法,证明了强化学习策略在提升模型决策能力方面的显著优势;多模态评估体系的构建,结合MCQ客观评测与LLM-as-a-Judge主观评判,形成了更全面的评估维度;工具幻觉抑制技术的探索,针对模型在无工具可用时的错误调用倾向,最新研究显示基于RPO训练的模型能将幻觉率降至1.2%。这些突破对构建可靠的企业级AI助手具有重要意义,特别是在医疗咨询、法律顾问等高风险场景中,精准的工具决策能力直接影响服务的可信度与安全性。
以上内容由遇见数据集搜集并总结生成



