RobustBench-TC

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/Justin1233/RobustBench-TC

下载链接

链接失效反馈

官方服务：

资源简介：

RobustBench-TC 是首个针对工具调用AI代理的系统性鲁棒性基准测试，将工具使用形式化为马尔可夫决策过程（MDP），并应用了22种扰动操作，覆盖4个MDP类别。数据集包含69,921个样本，来源于6个基准测试（BFCL V3、API-Bank、ToolAlpaca、RoTBench、ToolEyes、ACEBench）。数据集分为三个主要部分：完整基准测试（unified_benchmark/）、评估子集（datasets/api_eval/）和训练数据（datasets/train_toolrl/）。每个样本采用JSON行格式（JSONL），包含ID、基准来源、类别、扰动类型、对话内容、工具描述、黄金答案和评估配置等信息。数据集适用于文本生成任务，特别是工具调用和函数调用的鲁棒性评估和强化学习研究。

创建时间：

2026-04-03

原始信息汇总

RobustBench-TC 数据集概述

基本信息

数据集名称: RobustBench-TC: Unified Perturbation Benchmark for Tool-Calling Agents
创建者: 专家生成与机器生成
语言: 英语
许可协议: Apache 2.0
多语言性: 单语言
数据规模: 10K<n<100K
标签: 工具调用、函数调用、鲁棒性、扰动、基准测试、智能体、MDP、强化学习
任务类别: 文本生成
任务ID: 文本到文本生成

数据集构成

数据集包含69,921个样本，来源于6个基准数据集：

BFCL V3: 36,354个样本
ACEBench: 15,191个样本
API-Bank: 10,074个样本
ToolEyes: 4,579个样本
ToolAlpaca: 1,938个样本
RoTBench: 1,785个样本

核心特性

数据格式

每个样本为JSON行格式，包含以下字段：

id: 样本唯一标识符
benchmark: 来源基准名称
category: 类别
perturbation: 扰动信息（类型、MDP类别、变体）
conversation: 对话列表（角色、内容）
tools: 工具列表（名称、描述、参数）
golden_answers: 标准答案列表（名称、参数）
eval_config: 评估配置（方法）

扰动分类

基于马尔可夫决策过程的扰动分类体系：

观察扰动: realistic_typos, query_paraphrase, paraphrase_tool_description, paraphrase_parameter_description（4种）
动作扰动: same_name (A-E), redundant（6种）
转移扰动: timeout, rate_limit, auth_error, server_error, malformed_response, schema_drift（6种）
奖励扰动: CD, TD, CD_NT, TD_NT, CD_AB, TD_AB（6种）

数据集组件

1. 完整基准

路径: unified_benchmark/
内容: 69,921个样本，涵盖6个基准数据集和22种扰动类型
用途: 全面评估

2. 评估子集

路径: datasets/api_eval/
内容: 轻量级评估集，用于API测试
规模: 200个唯一ID，3,145个静态样本，1,200个额外API调用，总计约4,345次API调用
来源分布:
- BFCL V3: 32个ID
- API-Bank: 74个ID
- ToolEyes: 51个ID
- ToolAlpaca: 22个ID
- RoTBench: 21个ID

3. 训练数据

路径: datasets/train_toolrl/
内容: 4,000个样本，来源于ToolRL训练集
实验组:
- A组: clean.jsonl（4,000个干净样本）
- B组: perturbed.jsonl（4,000个扰动样本）
- C组: mixed.jsonl（2,000个干净样本 + 2,000个扰动样本）
扰动分布:
- 奖励扰动: 60%（2,111个样本）
- 观察扰动: 25%（880个样本）
- 动作扰动: 15%（527个样本）

关键发现

转移扰动: 平均准确率下降33.73%，最严重为timeout（33.73%）
奖励扰动: 平均准确率下降28.71%，最严重为CD_AB（37.82%）
观察扰动: 平均准确率下降4.85%，最严重为paraphrase（8.23%）
动作扰动: 平均准确率下降1.18%，最严重为redundant（5.68%）

使用方法

加载数据集

python from datasets import load_dataset

加载完整基准

ds = load_dataset("Justin1233/RobustBench-TC", "all")

加载单个基准

ds = load_dataset("Justin1233/RobustBench-TC", "bfcl_v3")

加载评估子集

ds = load_dataset("Justin1233/RobustBench-TC", "eval")

加载训练数据

ds = load_dataset("Justin1233/RobustBench-TC", "train_toolrl")

运行评估

bash

在GPT-4o上完整评估

python scripts/run_eval.py --model gpt-4o --api-key $OPENAI_API_KEY

干运行检查成本

python scripts/run_eval.py --model gpt-4o --dry-run

仅特定扰动

python scripts/run_eval.py --model gpt-4o --perturbations clean CD TD realistic_typos

来源基准详情

基准	样本数	评估方法	对话轮次类型
BFCL V3	36,354	精确匹配	单轮+多轮
ACEBench	15,191	精确匹配	单轮+多轮
API-Bank	10,074	精确匹配	单轮
ToolEyes	4,579	GPT评判	单轮
ToolAlpaca	1,938	GPT评判	单轮
RoTBench	1,785	基于规则	单轮

目录结构

unified_benchmark/ # 完整基准 datasets/ ├── api_eval/ # 评估子集 └── train_toolrl/ # 训练数据 robustbench_tc.py # HuggingFace加载器 scripts/ # 脚本目录 dataset_card.yaml # 数据集卡片

引用

bibtex @inproceedings{robustbench-tc2026, title={RobustBench-TC: A Unified Perturbation Benchmark for Tool-Calling Agents}, year={2026}, }

搜集汇总

数据集介绍

构建方式

在工具调用智能体领域，RobustBench-TC的构建采用了系统化的方法，通过整合六个现有基准数据集（包括BFCL V3、API-Bank等）并引入马尔可夫决策过程框架，将工具使用形式化为状态、观察、动作、转移和奖励五个要素。在此基础上，研究者设计了二十二种扰动算子，覆盖观察、动作、转移和奖励四个MDP类别，这些扰动部分由专家生成，部分由机器生成，最终形成了包含六万九千九百二十一个样本的统一基准。数据以JSONL格式组织，每个样本均包含对话、工具定义、标准答案及评估配置等结构化信息。

特点

该数据集的核心特征在于其首次为工具调用智能体提供了系统化的鲁棒性评估框架，通过MDP分类法将扰动类型归纳为观察、动作、转移和奖励四大范畴，实现了对智能体在多样化异常场景下性能的全面度量。数据集规模庞大，涵盖单轮与多轮对话场景，并支持精确匹配、规则判断和GPT评估等多种评估方法。其独特的结构设计允许研究者灵活加载完整基准或特定子集，同时包含专门用于API评估的轻量化子集以及适用于强化学习训练的数据分组，为对比实验与消融研究提供了坚实基础。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库便捷加载不同配置，例如加载完整基准或特定源数据集以进行全面评估。对于API模型测试，可利用预构建的评估子集运行自动化评估脚本，该脚本支持成本估算与特定扰动类型的选择性测试。在训练方面，数据集提供了源自ToolRL的预处理数据，包含干净样本、扰动样本及混合样本三个实验组，可直接用于工具调用强化学习算法的训练与比较。数据集的目录结构清晰，脚本工具完善，支持从基准测试到模型训练的全流程研究需求。

背景与挑战

背景概述

随着人工智能代理工具调用能力的快速发展，评估其在实际复杂环境中的鲁棒性成为关键研究议题。RobustBench-TC数据集应运而生，作为首个系统性的工具调用智能体鲁棒性基准，由研究人员于2026年创建。该数据集将工具调用形式化为马尔可夫决策过程，并整合了BFCL V3、API-Bank、ToolAlpaca、RoTBench、ToolEyes及ACEBench六个来源的69,921个样本，旨在通过统一的扰动框架全面评估智能体在观察、行动、转移和奖励四个维度的稳定性。其创新性在于构建了涵盖22种扰动类型的分类体系，为智能体在动态和噪声环境下的性能提供了标准化度量，显著推动了具身智能与强化学习领域向更可靠、更实用的方向发展。

当前挑战

RobustBench-TC致力于解决工具调用智能体鲁棒性评估的核心挑战，即在多样化扰动下保持功能一致性的难题。具体而言，该数据集针对智能体在现实场景中可能遭遇的输入噪声、API故障、奖励误导及行动歧义等问题，系统设计了四类MDP扰动。在构建过程中，挑战主要源于多源基准的统一与扰动操作的标准化。需要将不同评估方法、数据格式及任务类型的六个独立数据集整合为一致的JSONL结构，并确保22种扰动算子能准确映射到MDP的各个组件。此外，生成高质量且符合现实的扰动样本，如模拟拼写错误或服务器错误，需平衡自动化规则与LLM生成之间的精度与效率，以保障基准的可靠性与泛化能力。

常用场景

经典使用场景

在工具调用智能体研究领域，RobustBench-TC数据集为评估模型在扰动环境下的鲁棒性提供了标准化基准。其经典使用场景集中于系统性地测试智能体在马尔可夫决策过程框架内应对观察、行动、转移和奖励四类扰动的能力。研究者通过加载该数据集的全量或子集，能够量化模型在多种扰动操作下的性能衰减，例如在模拟API超时、奖励函数畸变或工具描述改写等复杂情境中，精确衡量智能体的工具调用准确性与稳定性。

衍生相关工作

基于RobustBench-TC的规范化框架，已衍生出一系列聚焦于工具调用鲁棒性提升的经典研究工作。这些工作主要围绕对抗性训练、扰动自适应策略以及基于MDP的鲁棒性理论分析展开。例如，利用其提供的扰动训练集进行策略梯度优化，显著提升了智能体在奖励扰动下的决策稳定性；同时，该数据集也催生了针对特定扰动类型（如模式转移错误、描述歧义）的专用检测与修复方法，形成了持续演进的研究脉络。

数据集最近研究