aiba-benchmark

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/anon-aiba-2026/aiba-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

AIBA 是一个用于评估计算机使用代理在8层反作弊隔离下的原子浏览器能力的诊断基准数据集。该数据集包含124个活动任务，分为90个手工制作的核心任务和34个匹配概念的扩展任务。数据集提供了66个任务的诊断子集，平衡了能力和隔离层级的覆盖。每个任务都带有TIER-ABILITY-seq标识、层级、能力和概念元数据。数据集采用8层反作弊隔离技术，包括FNV-1a哈希答案、种子PRNG、Canvas像素渲染等。数据集适用于评估浏览器代理的能力和反作弊性能，支持三轴评分：成功率、效率和校准。数据集包含多个配置文件，如任务清单、任务目录、诊断子集和结果报告。数据集假设浏览器UI为多模态模型，反作弊功能激活，且中文UI为重要子集。数据集存在一些限制，如仅限浏览器使用、单种子评估等。

AIBA is a diagnostic benchmark dataset for evaluating the atomic browser capabilities of computer usage agents under 8-layer anti-cheat isolation. The dataset contains 124 active tasks, divided into 90 manually crafted core tasks and 34 extended tasks matching concepts. The dataset provides a diagnostic subset of 66 tasks, balancing the coverage of capabilities and isolation levels. Each task is labeled with TIER-ABILITY-seq identifiers, levels, capabilities, and concept metadata. The dataset employs 8-layer anti-cheat isolation techniques, including FNV-1a hash answers, seed PRNG, Canvas pixel rendering, etc. The dataset is suitable for evaluating browser agent capabilities and anti-cheat performance, supporting three-axis scoring: success rate, efficiency, and calibration. The dataset includes multiple configuration files, such as task lists, task directories, diagnostic subsets, and result reports. The dataset assumes the browser UI is a multimodal model, with anti-cheat functions activated, and Chinese UI as an important subset. The dataset has some limitations, such as being browser-only and single-seed evaluation.

创建时间：

2026-05-03

原始信息汇总

AIBA 数据集概述

AIBA（An Atomic-Ability Decomposition of Computer Use, with Anti-Exploit Isolation）是一个用于浏览器代理原子能力诊断的基准测试数据集，旨在通过8层反利用隔离机制，评估代理在浏览器环境中的真实能力。该数据集是 NeurIPS 2026 评估与数据集赛道（双盲评审中）的配套材料。

核心特性

任务规模：包含 124 个活跃任务（v2.0.0，2026-05-04 扩展）：
- 90 个人工编写的核心任务（T1-T90）
- 34 个匹配概念扩展任务（T127-T160）：涵盖 5 个概念（读数字、匹配按钮、解算术、找关键词、识别形状颜色），每个概念在 5 个反利用隔离层级（A→E）中复制，另加 10 个关键空/场景填充任务。
诊断子集：66 个任务的诊断 v3.5 子集（diagnostic-v3-subset.json），提供平衡的（能力×层级）单元锚覆盖及所有匹配概念实例，适用于计算受限的评估。
元数据：每个任务包含唯一的 slug（如 A-PER-01）、层级（tier）、能力（ability）和概念（concept）元数据，便于追踪和分析。
隔离矩阵：5×5 隔离矩阵被密集填充（A-E 层级间无空单元）：6 种能力 × 5 个反利用层级 = 30 个单元，每个单元至少包含 1 个任务。

反作弊隔离机制

8 层隔离栈：
1. FNV-1a 哈希答案
2. 种子伪随机数生成器（PRNG）
3. Canvas 像素渲染
4. Worker 隔离答案 / WASM 隐藏逻辑
5. 服务端渲染 PNG + 验证端点
6. 行为追踪
7. 每任务动态 JS 加载
8. 轨迹记录

评分体系

三维评分：成功率（Success）、效率（Efficiency）、校准度（Calibration）

文件结构

文件	用途
`aiba-tasks-v1.0.0.json`	任务清单（ID、名称、分值、时间限制、轴）
`aiba-task-catalog-v1.0.0.json`	更丰富的任务目录（主原子能力、反利用层级标签、源文件）
`diagnostic-v3-subset.json`	66 任务平衡子集（v3.5）
`results/*.json`	模型及工具链运行结果（5 代理 × 43 任务单种子 + GPT-5.4 × 90 任务案例研究 + N=1 人类锚点）

主要主张（论文 §1）

C1：隔离感知的原子诊断矩阵，同一浏览器能力在 5 个反利用隔离层级下重新实例化，实现能力与侧信道利用性的实验分离。
C2：8 层反利用隔离栈 + 攻击审计，验证示例中 GPT-5.4 利用 Chrome DevTools 工具链在 ~100 ms/任务速度下暴力破解开放 DOM 答案空间，同时跳过答案泄露路径被封闭的任务。
C3：跨层级诊断发现，每层级的跳过模式、匹配概念分数差距及工具链×层级交互表明，前沿代理在浏览器基准上的“成功”显著依赖于可读侧信道而非稳健能力。

假设与限制

假设：A1 仅浏览器 UI · A2 多模态模型 · A3 反作弊活跃 · A4 中文 UI 为一等公民子集。
限制：L1 仅浏览器 · L2 单种子（多种子进行中） · L3 N=1 人类锚点（N≥3-5 进行中） · L4 部分代际梯级 · L5 校准依赖自报置信度 · L6 反作弊消融实验简略 · L7 跨语言分析待续 · L8 导航×{C,D,E}单元仅由单实例探针填充。

其他信息

许可证：Apache-2.0
语言：英语、中文
数据集大小：n<1K

搜集汇总

数据集介绍

构建方式

AIBA基准测试集通过原子能力分解与反作弊隔离的双重路径构建而成。其核心包含124项主动任务，由90项手工精心打造的核心任务与34项匹配概念扩展任务组成，覆盖六种原子浏览器能力与五级反利用隔离层（A至E），形成6×5的密集隔离矩阵。任务编排采用层级-能力-序列标识符（如A-PER-01），并附带元数据记录。配套的66项诊断子集（diagnostic-v3-subset）则实现能力与层级间的平衡单元覆盖，专为计算资源受限场景设计。整体数据集以JSON格式存储，涵盖任务清单、详细目录及评估结果等多项文件。

特点

该数据集最显著的特点在于其8层反作弊隔离机制——从FNV-1a哈希答案、种子伪随机生成器、Canvas像素渲染，到Worker隔离验证、服务端PNG渲染与追踪记录，层层递进地阻断侧信道攻击路径。基于此，AIBA实现了能力区分度与防御稳健性的解耦评估，通过跨层级跳过模式、匹配概念分数差距及工具与层级交互效应，揭示智能体在浏览器任务上的真实表现很大程度上依赖可读侧信道而非稳健能力。评估体系采用成功率、效率与校准度三维评分标准。

使用方法

数据集通过HuggingFace平台以四个配置提供：tasks配置包含任务基础清单，catalog配置提供详尽的原子能力与反作弊层级标注，diagnostic_v3_subset配置为66项平衡诊断子集，results配置则纳入已报告的多智能体运行结果。用户可直接加载JSON数据进行多模态浏览器智能体迁移能力与反作弊鲁棒性的联合评估。推荐结合动态演示网站（8层隔离全激活）进行可视化验证，并通过Apache-2.0许可证自由使用与扩展，引用时需标注匿名作者于NeurIPS 2026的同行评审论文。

背景与挑战

背景概述

随着大语言模型驱动的浏览器智能体在计算机使用任务中展现出日益强大的能力，如何科学、可重复地评估其真实性能成为研究焦点。AIBA（An Atomic-Ability Decomposition of Computer Use, with Anti-Exploit Isolation）基准数据集于2026年由匿名研究团队在NeurIPS 2026评估与数据集轨道提出（双盲审稿中），旨在通过原子化能力分解与抗利用隔离机制，解构浏览器智能体的底层能力。该数据集包含124项精心设计的任务，围绕六种原子能力（如数字阅读、按钮匹配、算术求解等），并引入五层抗利用隔离等级（从开放DOM到服务端CAPTCHA），构建起5×5的能力×隔离矩阵。AIBA的核心贡献在于首次将智能体的真实能力与侧信道利用能力分离评估，为计算机使用智能体的可靠测评奠定了方法论基础，对浏览器智能体评估范式产生了重要影响。

当前挑战

AIBA所解决的领域核心挑战在于，现有浏览器智能体基准测试往往忽略侧信道利用对评测结果的污染，即模型可通过读取开放DOM中的隐藏答案或利用代码注入等作弊手段“虚假成功”，而非真正具备原子能力。为此，AIBA设计了八层抗作弊隔离栈，包括FNV-1a哈希答案、Canvas像素渲染、Worker隔离逻辑、服务端验证等，并实证发现GPT-5.4在开放DOM下能以约100毫秒/任务的速度暴力破解答案空间，而一旦隔离层启用则直接跳过任务，揭示了当前前沿智能体评测的脆弱性。构建过程中面临的主要挑战包括：在有限任务数下密集填充6能力×5隔离等级的全部30个单元格（零空置），设计跨五个隔离等级的匹配概念复制方案以确保可比性，以及为计算受限场景提供平衡的66任务诊断子集，同时维持原子能力与隔离层锚点的均匀覆盖。

常用场景

经典使用场景

在人工智能与浏览器自动化交叉的学术前沿，AIBA基准测试集为评估多模态大模型驱动的浏览器智能体提供了精密的诊断框架。该数据集将计算机使用能力原子化解构为六项基础技能，并在五重反作弊隔离层中复现每项能力，从而精准区分智能体的真实能力与利用侧信道产生的虚假成功。研究者可通过124个精心设计的任务，包括90个手工构建的核心任务与34个匹配概念扩展任务，系统性地剖析浏览器智能体在开放式DOM、Canvas渲染、Worker隔离、服务端真值和服务端验证码等不同安全层级下的表现差异。这一原子能力分解与隔离层矩阵的结合，使得对智能体鲁棒性的评估摆脱了传统端到端指标的模糊性，为浏览器自动化领域的诊断性评测树立了新标准。

衍生相关工作

AIBA数据集的发布催生了一系列富有启发性的后续研究工作。基于其隔离层原子能力矩阵的思想，研究者开始构建面向非浏览器场景的跨平台智能体诊断基准，将反作弊隔离理念迁移至桌面GUI和移动端自动化任务。数据集工作中对GPT-5.4等前沿模型绕过低隔离层任务的实证分析，直接激发了针对浏览器智能体侧信道防御策略的研究，催生了多篇关于交互安全协议和匿名化执行环境的工作。原子能力分解的评估范式也被推广到更广泛的智能体评测领域，推动了从粗粒度任务成功率到细粒度能力剖面诊断的转变。同时，AIBA提出的三轴评分框架（成功率、效率和校准度）为智能体性能的量化描述提供了可扩展的模板，被后续多个基准工作采纳和调整，形成了浏览器智能体评估方法论的重要分支。

数据集最近研究