five

RobustBench-TC

收藏
Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/Justin1233/RobustBench-TC
下载链接
链接失效反馈
官方服务:
资源简介:
RobustBench-TC 是首个针对工具调用AI代理的系统性鲁棒性基准测试,将工具使用形式化为马尔可夫决策过程(MDP),并应用了22种扰动操作,覆盖4个MDP类别。数据集包含69,921个样本,来源于6个基准测试(BFCL V3、API-Bank、ToolAlpaca、RoTBench、ToolEyes、ACEBench)。数据集分为三个主要部分:完整基准测试(unified_benchmark/)、评估子集(datasets/api_eval/)和训练数据(datasets/train_toolrl/)。每个样本采用JSON行格式(JSONL),包含ID、基准来源、类别、扰动类型、对话内容、工具描述、黄金答案和评估配置等信息。数据集适用于文本生成任务,特别是工具调用和函数调用的鲁棒性评估和强化学习研究。
创建时间:
2026-04-03
原始信息汇总

RobustBench-TC 数据集概述

基本信息

  • 数据集名称: RobustBench-TC: Unified Perturbation Benchmark for Tool-Calling Agents
  • 创建者: 专家生成与机器生成
  • 语言: 英语
  • 许可协议: Apache 2.0
  • 多语言性: 单语言
  • 数据规模: 10K<n<100K
  • 标签: 工具调用、函数调用、鲁棒性、扰动、基准测试、智能体、MDP、强化学习
  • 任务类别: 文本生成
  • 任务ID: 文本到文本生成

数据集构成

数据集包含69,921个样本,来源于6个基准数据集:

  • BFCL V3: 36,354个样本
  • ACEBench: 15,191个样本
  • API-Bank: 10,074个样本
  • ToolEyes: 4,579个样本
  • ToolAlpaca: 1,938个样本
  • RoTBench: 1,785个样本

核心特性

数据格式

每个样本为JSON行格式,包含以下字段:

  • id: 样本唯一标识符
  • benchmark: 来源基准名称
  • category: 类别
  • perturbation: 扰动信息(类型、MDP类别、变体)
  • conversation: 对话列表(角色、内容)
  • tools: 工具列表(名称、描述、参数)
  • golden_answers: 标准答案列表(名称、参数)
  • eval_config: 评估配置(方法)

扰动分类

基于马尔可夫决策过程的扰动分类体系:

  • 观察扰动: realistic_typos, query_paraphrase, paraphrase_tool_description, paraphrase_parameter_description(4种)
  • 动作扰动: same_name (A-E), redundant(6种)
  • 转移扰动: timeout, rate_limit, auth_error, server_error, malformed_response, schema_drift(6种)
  • 奖励扰动: CD, TD, CD_NT, TD_NT, CD_AB, TD_AB(6种)

数据集组件

1. 完整基准

  • 路径: unified_benchmark/
  • 内容: 69,921个样本,涵盖6个基准数据集和22种扰动类型
  • 用途: 全面评估

2. 评估子集

  • 路径: datasets/api_eval/
  • 内容: 轻量级评估集,用于API测试
  • 规模: 200个唯一ID,3,145个静态样本,1,200个额外API调用,总计约4,345次API调用
  • 来源分布:
    • BFCL V3: 32个ID
    • API-Bank: 74个ID
    • ToolEyes: 51个ID
    • ToolAlpaca: 22个ID
    • RoTBench: 21个ID

3. 训练数据

  • 路径: datasets/train_toolrl/
  • 内容: 4,000个样本,来源于ToolRL训练集
  • 实验组:
    • A组: clean.jsonl(4,000个干净样本)
    • B组: perturbed.jsonl(4,000个扰动样本)
    • C组: mixed.jsonl(2,000个干净样本 + 2,000个扰动样本)
  • 扰动分布:
    • 奖励扰动: 60%(2,111个样本)
    • 观察扰动: 25%(880个样本)
    • 动作扰动: 15%(527个样本)

关键发现

  • 转移扰动: 平均准确率下降33.73%,最严重为timeout(33.73%)
  • 奖励扰动: 平均准确率下降28.71%,最严重为CD_AB(37.82%)
  • 观察扰动: 平均准确率下降4.85%,最严重为paraphrase(8.23%)
  • 动作扰动: 平均准确率下降1.18%,最严重为redundant(5.68%)

使用方法

加载数据集

python from datasets import load_dataset

加载完整基准

ds = load_dataset("Justin1233/RobustBench-TC", "all")

加载单个基准

ds = load_dataset("Justin1233/RobustBench-TC", "bfcl_v3")

加载评估子集

ds = load_dataset("Justin1233/RobustBench-TC", "eval")

加载训练数据

ds = load_dataset("Justin1233/RobustBench-TC", "train_toolrl")

运行评估

bash

在GPT-4o上完整评估

python scripts/run_eval.py --model gpt-4o --api-key $OPENAI_API_KEY

干运行检查成本

python scripts/run_eval.py --model gpt-4o --dry-run

仅特定扰动

python scripts/run_eval.py --model gpt-4o --perturbations clean CD TD realistic_typos

来源基准详情

基准 样本数 评估方法 对话轮次类型
BFCL V3 36,354 精确匹配 单轮+多轮
ACEBench 15,191 精确匹配 单轮+多轮
API-Bank 10,074 精确匹配 单轮
ToolEyes 4,579 GPT评判 单轮
ToolAlpaca 1,938 GPT评判 单轮
RoTBench 1,785 基于规则 单轮

目录结构

unified_benchmark/ # 完整基准 datasets/ ├── api_eval/ # 评估子集 └── train_toolrl/ # 训练数据 robustbench_tc.py # HuggingFace加载器 scripts/ # 脚本目录 dataset_card.yaml # 数据集卡片

引用

bibtex @inproceedings{robustbench-tc2026, title={RobustBench-TC: A Unified Perturbation Benchmark for Tool-Calling Agents}, year={2026}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在工具调用智能体领域,RobustBench-TC的构建采用了系统化的方法,通过整合六个现有基准数据集(包括BFCL V3、API-Bank等)并引入马尔可夫决策过程框架,将工具使用形式化为状态、观察、动作、转移和奖励五个要素。在此基础上,研究者设计了二十二种扰动算子,覆盖观察、动作、转移和奖励四个MDP类别,这些扰动部分由专家生成,部分由机器生成,最终形成了包含六万九千九百二十一个样本的统一基准。数据以JSONL格式组织,每个样本均包含对话、工具定义、标准答案及评估配置等结构化信息。
特点
该数据集的核心特征在于其首次为工具调用智能体提供了系统化的鲁棒性评估框架,通过MDP分类法将扰动类型归纳为观察、动作、转移和奖励四大范畴,实现了对智能体在多样化异常场景下性能的全面度量。数据集规模庞大,涵盖单轮与多轮对话场景,并支持精确匹配、规则判断和GPT评估等多种评估方法。其独特的结构设计允许研究者灵活加载完整基准或特定子集,同时包含专门用于API评估的轻量化子集以及适用于强化学习训练的数据分组,为对比实验与消融研究提供了坚实基础。
使用方法
使用该数据集时,研究者可通过HuggingFace的datasets库便捷加载不同配置,例如加载完整基准或特定源数据集以进行全面评估。对于API模型测试,可利用预构建的评估子集运行自动化评估脚本,该脚本支持成本估算与特定扰动类型的选择性测试。在训练方面,数据集提供了源自ToolRL的预处理数据,包含干净样本、扰动样本及混合样本三个实验组,可直接用于工具调用强化学习算法的训练与比较。数据集的目录结构清晰,脚本工具完善,支持从基准测试到模型训练的全流程研究需求。
背景与挑战
背景概述
随着人工智能代理工具调用能力的快速发展,评估其在实际复杂环境中的鲁棒性成为关键研究议题。RobustBench-TC数据集应运而生,作为首个系统性的工具调用智能体鲁棒性基准,由研究人员于2026年创建。该数据集将工具调用形式化为马尔可夫决策过程,并整合了BFCL V3、API-Bank、ToolAlpaca、RoTBench、ToolEyes及ACEBench六个来源的69,921个样本,旨在通过统一的扰动框架全面评估智能体在观察、行动、转移和奖励四个维度的稳定性。其创新性在于构建了涵盖22种扰动类型的分类体系,为智能体在动态和噪声环境下的性能提供了标准化度量,显著推动了具身智能与强化学习领域向更可靠、更实用的方向发展。
当前挑战
RobustBench-TC致力于解决工具调用智能体鲁棒性评估的核心挑战,即在多样化扰动下保持功能一致性的难题。具体而言,该数据集针对智能体在现实场景中可能遭遇的输入噪声、API故障、奖励误导及行动歧义等问题,系统设计了四类MDP扰动。在构建过程中,挑战主要源于多源基准的统一与扰动操作的标准化。需要将不同评估方法、数据格式及任务类型的六个独立数据集整合为一致的JSONL结构,并确保22种扰动算子能准确映射到MDP的各个组件。此外,生成高质量且符合现实的扰动样本,如模拟拼写错误或服务器错误,需平衡自动化规则与LLM生成之间的精度与效率,以保障基准的可靠性与泛化能力。
常用场景
经典使用场景
在工具调用智能体研究领域,RobustBench-TC数据集为评估模型在扰动环境下的鲁棒性提供了标准化基准。其经典使用场景集中于系统性地测试智能体在马尔可夫决策过程框架内应对观察、行动、转移和奖励四类扰动的能力。研究者通过加载该数据集的全量或子集,能够量化模型在多种扰动操作下的性能衰减,例如在模拟API超时、奖励函数畸变或工具描述改写等复杂情境中,精确衡量智能体的工具调用准确性与稳定性。
衍生相关工作
基于RobustBench-TC的规范化框架,已衍生出一系列聚焦于工具调用鲁棒性提升的经典研究工作。这些工作主要围绕对抗性训练、扰动自适应策略以及基于MDP的鲁棒性理论分析展开。例如,利用其提供的扰动训练集进行策略梯度优化,显著提升了智能体在奖励扰动下的决策稳定性;同时,该数据集也催生了针对特定扰动类型(如模式转移错误、描述歧义)的专用检测与修复方法,形成了持续演进的研究脉络。
数据集最近研究
最新研究方向
在工具调用智能体领域,鲁棒性评估正成为前沿研究的核心焦点。RobustBench-TC作为首个系统化的扰动基准,通过马尔可夫决策过程框架统一了观测、动作、转移与奖励四类扰动,为智能体在复杂环境下的稳定性提供了量化标准。当前研究热点集中于利用该基准探究大语言模型在工具调用中的泛化能力与抗干扰机制,特别是在动态环境扰动下的策略优化与自适应学习。这一工作推动了智能体从静态任务执行向动态交互鲁棒性的范式转变,为构建可靠、安全的实际应用系统奠定了关键基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作