ICT

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/ddehun/ICT

下载链接

链接失效反馈

官方服务：

资源简介：

IncompleteToolBench数据集用于评估大型语言模型在工具调用场景中，是否能够识别由于缺少工具或用户信息不足导致的不完整条件。该数据集基于APIBank和ToolBench数据集，并通过API替换和话语移除两种方式进行了扰动处理，每个实例都经过人工验证以保证有效性和自然性。

The IncompleteToolBench dataset is designed to evaluate whether large language models (LLMs) can identify incomplete conditions caused by missing tools or insufficient user-provided information in tool invocation scenarios. This dataset is constructed based on APIBank and ToolBench, and has been perturbed through two approaches: API replacement and utterance removal. Each instance has been manually verified to ensure its validity and naturalness.

创建时间：

2025-08-01

搜集汇总

数据集介绍

构建方式

在工具增强语言模型评估领域，ICT数据集基于APIBank和ToolBench两个成熟基准进行构建。通过人工验证的干预策略，采用API替换和语句删除两种扰动方式：前者将正确工具替换为语义相似但功能无效的API，后者系统性移除用户输入中的关键信息。每个实例均经过人工验证，确保扰动后的场景既保持自然性又具备逻辑有效性，最终形成包含四种扰动类型的结构化评估数据。

特点

该数据集的核心特征在于其针对工具使用完备性的双重评估维度。API替换案例揭示模型对工具功能匹配性的敏感度，语句删除案例则检验信息完整性感知能力。所有案例均包含原始样本与扰动样本的配对设计，支持对照实验。数据集涵盖多样化工具调用场景，包括天气查询、航班预订等实际应用，为评估大语言模型在真实环境中的鲁棒性提供多角度测试基准。

使用方法

研究人员可通过加载JSONL格式文件获取标准化测试用例，每条数据包含原始查询、扰动查询及对应工具元数据。评估时需将查询输入待测模型，观察其工具调用决策：理想模型应拒绝执行条件不完整的查询。支持准确率、召回率等指标量化分析，特别适用于检验模型在工具不可用场景下的拒绝能力与错误识别性能。

背景与挑战

背景概述

随着大语言模型在工具调用领域的深入应用，2024年由Seungbin Yang等学者提出的ICT数据集应运而生。该数据集基于APIBank和ToolBench构建，专注于评估模型在工具不可用场景下的认知能力。其核心研究在于探索模型是否能够识别因工具缺失或信息不足而导致的不完整条件，这一研究对提升模型在实际应用中的可靠性和安全性具有重要影响。

当前挑战

ICT数据集旨在解决工具增强型大语言模型在不完整条件下的决策挑战，包括模型对工具可用性的误判和用户信息缺失的敏感性。构建过程中面临的主要挑战在于如何通过API替换和话语移除两种扰动方式，确保数据的有效性和自然性，同时保持人类验证的高标准，以避免引入偏差或噪声。

常用场景

经典使用场景

在工具增强型大语言模型的研究领域，ICT数据集被广泛用于系统评估模型在工具调用场景下的认知边界。该数据集通过精心设计的API替换和话语删除两种扰动方式，模拟现实应用中工具缺失或信息不完整的复杂环境，为研究者提供了标准化的测试基准来检验模型是否能够准确识别不可行操作条件。

衍生相关工作

基于ICT数据集的评估范式，研究者们相继开发了多种增强模型工具感知能力的新方法。这些工作不仅深化了对大语言模型工具使用机制的理解，还催生了针对不完全条件检测的专用模型架构和训练策略，进一步推动了工具增强型语言模型在开放环境中的实际部署与应用创新。

数据集最近研究