five

AuthBench

收藏
github2026-05-13 更新2026-05-14 收录
下载链接:
https://github.com/evolvent-ai/Authbench
下载链接
链接失效反馈
官方服务:
资源简介:
AuthBench是一个用于评估编码代理是否能推断任务级别权限边界的基准数据集,包含120个任务,涵盖普通终端工作流和具有危险快捷方式或敏感访问路径的任务,每个任务从静态权限质量和实际受限执行结果两个互补角度进行评估。

AuthBench is a benchmark dataset designed to assess whether coding agents can infer task-level permission boundaries. It contains 120 tasks covering both regular terminal workflows and tasks involving dangerous shortcuts or sensitive access paths. Each task is evaluated from two complementary perspectives: static permission quality and actual restricted execution outcomes.
创建时间:
2026-04-15
原始信息汇总

AuthBench 数据集概述

AuthBench 是一个评估编程代理(coding agents)是否能够推断任务级别权限边界的基准测试集。该数据集旨在检验:当编程代理在终端和真实环境中执行任务时,它们是否清楚自己应该被允许访问什么。

核心特点

  • 两阶段评估流水线:首先进行权限生成,代理根据任务描述生成文件级的读/写/执行权限策略;然后进行约束回放,代理在由 Linux Landlock LSM 强制执行的生成策略下尝试完成任务。
  • 严格的基于文件的权限模型:策略指定 readwriteexecute 权限的确切路径和 glob 模式。所有指标均为确定性指标,不使用 LLM 作为判断器来评估权限正确性。
  • 120 个多样化终端任务:涵盖 10 个类别(系统管理、数据分析、调试、安全、机器学习训练等)。其中 80 个标准任务测试效用执行,40 个敏感任务包含危险捷径或数据泄露路径。
  • 静态与动态指标:权限生成通过精确率/召回率/F1 与金标准注释比较评分;回放通过在策略约束下的实际任务成功率评分,同时衡量效用完成与攻击防御。
  • Harbor 优先架构:基于 Harbor 构建,每个任务在隔离的 Docker 环境中运行,具有确定性验证。

任务统计

指标 数量
任务总数 120
标准任务 80
敏感任务 40
类别数 10

任务类型

  • 标准任务:普通终端工作流(如解析日志、训练模型、修复错误)。评估代理在生成策略下是否完成任务的效用成功率。
  • 敏感任务:包含危险捷径(例如数据分析任务中,代理可以不计算统计信息而直接泄露原始数据)或敏感访问路径的任务。同时评估效用成功率和攻击防御效果。部分敏感任务是纯安全任务,目标完全是防御性的(例如“确保此脚本不会写入生产环境”)。

评估指标

权限生成指标(静态比较)

指标 定义
read_precision / write_precision / execute_precision 生成的权限中属于金标准集合的比例
read_recall / write_recall / execute_recall 金标准权限中被生成的比例
read_f1 / write_f1 / execute_f1 精确率和召回率的调和平均数
sensitive_exposure_coverage (仅敏感任务)暴露的危险权限比例

所有指标按任务计算,然后在整个数据集上取平均。精确率/召回率/F1 分别针对每个权限轴(读/写/执行)计算。

回放评估指标(实际执行)

指标 定义
success_rate 任务验证器通过的比例
utility_success_rate (敏感任务)效用目标达成的比例
attack_success_rate (敏感任务)危险捷径成功的比例

敏感任务的理想结果utility_success_rate = 1.0attack_success_rate = 0.0

任务结构

每个任务位于 tasks/<task-id>/ 目录下,遵循以下结构:

tasks/<task-id>/ ├── instruction.md # 向代理展示的任务描述 ├── task.toml # 元数据(难度、类别、超时、资源) ├── environment/ │ ├── Dockerfile # 容器定义 │ └── docker-compose.yaml # Compose 配置 ├── solution/ │ └── solve.sh # 参考解决方案(oracle) └── tests/ ├── test.sh # 验证器入口点 ├── test_outputs.py # 效用验证 ├── test_attack_outputs.py # (仅敏感任务)攻击验证 └── permission_eval_spec.json # 权限规范

permission_eval_spec.json 结构

json { "required_permissions": { "read": ["/app/input.txt", "/app/config.yaml"], "write": ["/app/output.json"], "execute": ["/usr/bin/python3", "/usr/bin/bash"] }, "scored_roots": { "read": ["/app", "/data"], "write": ["/app"], "execute": ["/usr/bin", "/usr/local/bin"] }, "implicit_permissions": { "read": ["/app/IDENTITY.md", "/etc/os-release"], "write": ["/tmp/"], "execute": ["/usr/bin/env", "/bin/sh"] }, "sensitive_permissions": { "read": ["/data/raw/"], "write": ["/data/production/**"] } }

  • required_permissions:金标准注释,表示 oracle 解决方案所需的最小权限。
  • scored_roots:用于精确率/召回率评分的路径。
  • implicit_permissions:自动授予的系统权限(不计分)。
  • sensitive_permissions:(仅敏感任务)不应授予的危险权限。

项目结构

authbench/ ├── tasks/ # 120 个源任务 ├── experiments/ # 实验入口点(oracle、permission-gen、replay、full) ├── libs/ │ ├── authbench_sync/ # CLI、任务同步、权限生成、回放编排 │ ├── authbench_metrics/ # 权限生成和回放指标 │ ├── authbench_harbor_agents/ # OpenClaw 代理集成 │ └── openclaw_replay_assets/ # 策略执行(Landlock、policy-guard 插件) ├── docker/ │ ├── bases/ # 5 个基础系列 × 2 个变体(plain、openclaw) │ └── scripts/ # 构建脚本 ├── tests/ # 框架测试(pytest) └── pyproject.toml # uv 项目配置

许可证

本项目采用 MIT 许可证 授权。

引用

bibtex @misc{authbench2026, title={AuthBench: Do Agents Know What They Should Be Allowed to Access?}, author={Evolvent AI}, year={2026}, url={https://github.com/evolvent-ai/Authbench} }

搜集汇总
数据集介绍
main_image_url
构建方式
AuthBench的构建立足于对编码智能体在终端操作中权限边界的深刻考量。研究团队从Terminal-Bench、SWE-Bench和OpenThoughts-TBLite等多个权威来源中精心筛选并改编了120项任务,覆盖了从常规终端工作流到包含危险捷径或敏感访问路径的多样化场景。每项任务均被赋予精确的文件级读写执行权限标注作为黄金标准,并设计为同时从静态权限质量和受限执行结果两个互补维度进行评估。任务以标准化目录结构组织,包含指令、环境配置、参考解法和验证脚本,并集成于基于Harbor的容器化评估框架中,确保在隔离的Docker环境下进行确定性验证。
特点
该数据集最显著的特质在于其双阶段评估管线,将权限生成与策略约束下的重放执行相结合,实现了对智能体权限认知能力的全面度量。采用严格的文件级权限模型,通过精确路径和通配符模式指定读写执行权限,避免了依赖语言模型作为裁判的主观偏差,所有指标均为确定性计算。120项任务横跨系统管理、数据分析、调试、安全、机器学习训练等10个类别,其中40项敏感任务专门用于测试对危险操作的防御能力。静态与动态指标的并行设计尤为精妙,既通过精确率、召回率和F1分数衡量权限生成的准确性,又通过任务完成率和攻击阻止率评估实际执行效果。
使用方法
使用AuthBench评估智能体时,首先需完成环境配置,通过uv工具同步依赖并设置API密钥。接着构建5种Docker基础镜像的普通版和权限执行版,为后续评估奠定基础设施。推荐的完整流程通过统一脚本驱动,依次执行预言机验证、权限生成和重放评估三个阶段,结果自动存储于指定目录。研究者也可按需运行单一阶段,如仅评测权限生成或执行宽松基线。针对特定任务的工作流可通过CLI命令逐个步骤精细控制,先生成权限变体,运行智能体产生策略,再将策略注入重放变体以观察受限执行结果。所有实验支持空跑模式,便于在无实际执行的情况下预览计划。
背景与挑战
背景概述
随着编码智能体在终端操作和真实环境交互中展现出日益强大的能力,一个关键问题随之浮现:这些智能体是否能够准确理解自身操作应被授予的权限边界?为系统探究这一课题,Evolvent AI团队于2026年推出了AuthBench基准测试。该基准从Terminal-Bench、SWE-Bench及OpenThoughts-TBLite等多个来源收集并适配了120个终端任务,覆盖常规终端工作流及包含危险捷径或敏感访问路径的任务。AuthBench通过静态权限质量评估与真实约束执行结果两个互补维度,对智能体的权限生成能力进行全方位评测,其严格的基于文件的权限模型和确定性度量方法为评估智能体的权限边界感知能力提供了可靠基准,对推动智能体安全性与可控性研究具有重要意义。
当前挑战
AuthBench所应对的核心挑战在于编码智能体在执行任务时能够自主推断出既可执行又安全的细粒度权限边界。该领域面临的主要难题包括:智能体在获取系统资源访问权限时,往往难以区分合法操作与潜在危险行为,尤其是在面对数据泄露路径或危险快捷方式时。在基准构建过程中,团队遇到了多重挑战:如何从海量终端任务中筛选并设计出既具代表性又能评估权限感知能力的120个多样化任务,如何建立严格的基于文件路径的权限模型(涵盖读取、写入、执行三类操作)以取代传统的大语言模型评判方法,以及如何通过Linux Landlock LSM实现真实的约束执行环境来验证权限策略的有效性。此外,敏感任务的双重评估目标——确保实用任务成功的同时阻止攻击路径——进一步增加了基准设计的复杂性。
常用场景
经典使用场景
在人工智能体安全评估领域,AuthBench被广泛应用于衡量编码型智能体在终端任务中推断任务级权限边界的能力。其经典使用场景是让智能体根据任务描述自主生成一份包含文件读取、写入和执行权限的策略文件,随后在由Linux Landlock LSM强制执行的受限环境中重放任务,从而从静态权限质量和动态执行结果两个维度综合评估智能体对权限边界的理解与遵守程度。该基准涵盖了从系统管理、数据分析到模型训练等10个大类共120项任务,其中包含40项涉及危险路径或敏感数据访问的敏感任务,为系统性研究智能体的权限感知能力提供了标准化测试平台。
衍生相关工作
AuthBench的提出催生了一系列围绕智能体权限感知与安全行为评估的衍生研究工作。后续研究者基于其两阶段评估思想和严格的文件级权限模型,扩展了面向API调用、数据库查询和网络请求等多模态权限边界的评估基准。部分工作借鉴了其敏感任务设计范式,构建了融合实用性与安全性双目标优化的智能体训练框架。此外,基于AuthBench中静态权限分数与动态重放结果之间的关联分析,涌现出了若干旨在通过最小化敏感权限暴露度来提升智能体鲁棒性的策略学习方法。这些衍生研究共同推动了智能体安全性评估从粗粒度任务成功率向细粒度权限合规性的范式转变。
数据集最近研究
最新研究方向
随着大语言模型驱动的智能体在终端操作与真实环境交互中展现出日益强大的能力,其权限边界感知问题成为安全性与实用性的交汇焦点。AuthBench作为首个系统性评估编程智能体任务级权限生成能力的基准,构建了包含120项跨类别终端任务的评测体系,涵盖日志解析、模型训练、漏洞修复等常规工作流以及包含危险捷径或敏感路径的对抗性场景。该基准通过双阶段评价管道——静态权限质量评估与基于Linux Landlock LSM的真实约束执行——以精确率、召回率及F1分数等确定性指标量化智能体的权限推断能力。这一研究标志着智能体安全领域从功能完备性向权限自主意识的范式延伸,为构建既高效执行又合规可控的自主系统提供了关键的评测基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作