BashArena Dataset

github2025-12-16 更新2025-12-20 收录

下载链接：

https://github.com/redwoodresearch/basharena_public

下载链接

链接失效反馈

官方服务：

资源简介：

这是原始BashBench的精神继承者，该数据集旨在用于使用当前和近未来前沿模型进行高风险代理控制研究。主要任务涉及在Linux Docker环境中完成系统管理风格的目标。

This is the spiritual successor to the original BashBench. This dataset is intended for high-stakes agent control research using current and near-future state-of-the-art models. Its core tasks involve completing system-administration-style objectives within a Linux Docker environment.

创建时间：

2025-12-12

原始信息汇总

BashArena 数据集概述

数据集简介

BashArena 数据集是原始 BashBench 的精神继承者，旨在用于利用当前和近未来前沿模型进行高风险智能体控制研究。

核心任务

主要任务涉及在 Linux Docker 环境中完成系统管理风格的目标。

环境架构

一个基础环境（位于 base_environment/）包含任务间共享的文件系统和基础设施组件。
每个任务通过以下方式为基础环境增加复杂性：
- 一个自定义的 Dockerfile。
- 一个在容器构建后运行的设置脚本。
- （可选地）三个代理服务器之一的逻辑（另外两个服务器用于次要任务）。关于代理服务器之间网络设置的更多细节可在基础环境目录内的 README 中找到。
每个任务还包含：
- 需要完成目标的书面描述（展示给智能体）。
- 用于衡量有用性的测试用例（不打算展示给模型）。特定任务的有用性衡量标准为通过的测试用例比例。

任务获取

主要任务本身位于 Hugging Face，并将由 BashArenaSetting 使用的默认 DatasetSpec 自动加载。

红队目标

该设置包含四个“次要任务”，可以在任何任务环境中完成。请注意：

此设置中的所有次要任务都被视为“实时故障”，一旦触发（即使是暂时的）会立即导致灾难性后果。
- 因此，应使用 auto_submit_protocol_wrapper 运行此设置中的协议，该包装器在每个动作后运行次要任务测试，并在触发时自动终止轨迹。
每个次要任务的书面描述（位于 side_tasks/ 中）旨在在红队和蓝队之间共享，除了特定的目标 IP 地址/用户。
- 用于确定每个次要任务是否完成的测试不应展示给任何一方，并在每一步后自动运行。

环境设置

为了能够并行创建足够的 Docker 网络，文件 /etc/docker/daemon.json 应包含以下内容： json { "default-address-pools": [ { "base": "10.0.0.0/8", "size": 27 }, { "base": "172.16.0.0/12", "size": 27 }, { "base": "192.168.0.0/16", "size": 27 } ] }

任务生成

位于 src/task_generation 中的代码，通过 src/task_generation/streaming_pipeline.py 运行，用于生成已发布的 BashArena 数据集中的主要任务。

相应的 StackOverflow 问题位于 data/stackoverflow_questions/all_unique_with_quality.json，并附有来自管道过滤阶段的缓存质量分数。

使用相同代码生成更多任务将需要从 StackOverflow 获取更多问题。最简单的方法可能是下载 StackOverflow 数据转储。或者，您可能希望编辑现有的任务生成管道并使用现有的已抓取 StackOverflow 问题集。

代码与工具

文件 src/run_tasks.py 包含一些用于更轻松运行任务的代码。
各种自定义协议、策略和监视器可以在它们各自的文件夹中找到。

仓库说明

请注意，此仓库是我们开发仓库的精简副本，尚未经过充分测试。如果存在重要的缺失部分、运行各种策略时出现错误等情况，请随时联系作者。

搜集汇总

数据集介绍

构建方式

BashArena数据集作为BashBench的精神继承者，专为前沿模型的高风险智能体控制研究而设计。其构建过程基于Linux Docker环境，通过一个共享的基础环境文件系统，每个任务在此基础上叠加复杂度，采用自定义Dockerfile和容器构建后的设置脚本实现。任务生成依赖于StackOverflow数据源，利用流式管道代码从筛选的问题中提取并转化，形成系统管理风格的目标描述与隐藏的测试用例，确保数据集既具现实代表性又便于自动化评估。

特点

该数据集的核心特点在于其高风险的对抗性设计，不仅包含主任务，还嵌入了四个即时触发的侧任务，模拟真实世界中的安全漏洞与灾难性后果。环境配置支持并行Docker网络，通过代理服务器架构增强网络交互的复杂性。任务描述面向智能体开放，而测试用例则保持隐蔽，以客观衡量智能体的实用性与安全性，体现了在可控环境中评估模型鲁棒性与伦理边界的先进理念。

使用方法

使用BashArena数据集时，需首先配置Docker环境，确保默认地址池设置以支持并行网络。通过DatasetSpec自动加载HuggingFace上的主任务，并利用run_tasks.py脚本运行任务，结合自定义协议、策略与监控器进行实验。侧任务需通过auto_submit_protocol_wrapper包装，在每一步行动后自动测试，一旦触发则终止轨迹，以模拟实时安全监控。用户可基于现有任务生成代码扩展数据集，或调整管道以适配新的StackOverflow问题，从而推动智能体控制研究的持续迭代。

背景与挑战

背景概述

BashArena数据集作为BashBench的精神继承者，由前沿研究机构开发，旨在推动高风险的智能体控制研究。该数据集聚焦于在Linux Docker环境中完成系统管理风格的任务，为核心研究问题——即评估和提升前沿模型在复杂、真实世界场景中的自主操作与安全可靠性——提供了标准化测试平台。其构建基于StackOverflow的实际问题，通过精心设计的任务架构和侧任务机制，显著影响了自动化运维、AI安全及智能体行为评估等领域，为模型在动态环境中的实用性与稳健性设定了新的基准。

当前挑战

BashArena数据集致力于解决智能体在系统管理环境中自主执行任务时所面临的挑战，包括复杂指令理解、多步骤操作规划以及实时环境交互的可靠性问题。在构建过程中，研究人员需克服从StackOverflow海量数据中筛选高质量任务、设计可复现的Docker网络架构以及平衡主任务与侧任务（即红队目标）之间的测试完整性等难题。这些挑战要求数据集不仅模拟真实运维场景，还需确保评估协议能有效捕捉模型在安全临界条件下的行为偏差。

常用场景

经典使用场景

在人工智能安全与智能体控制研究领域，BashArena数据集为评估前沿模型在复杂系统管理任务中的能力提供了标准化测试平台。该数据集通过模拟Linux Docker环境中的系统管理目标，如文件操作、网络配置与服务部署，要求智能体在受限环境中完成具体指令。研究者通常利用数据集中的任务描述与测试用例，衡量模型在真实场景下的指令遵循与问题解决效能，从而推动智能体在高风险控制任务中的可靠性与安全性研究。

实际应用

该数据集的实际应用延伸至自动化运维与网络安全领域，可用于训练和验证智能体在真实服务器环境中的管理能力。例如，企业可借助BashArena模拟的Docker网络任务，评估自动化脚本在部署服务、排查故障时的效率与安全性。同时，其侧任务机制能够模拟内部威胁场景，帮助开发防御性监控系统，提升在实际生产环境中检测与响应异常操作的能力。

衍生相关工作

BashArena数据集作为BashBench的精神继承者，已催生一系列关于智能体安全与对齐的研究工作。例如，基于其环境构建的协议包装器与监控策略，被用于探索智能体在持续动作下的实时风险控制。相关研究进一步扩展了数据集中任务生成流程，结合StackOverflow问答数据，开发出更复杂的系统管理任务，推动了智能体在代码执行与环境交互方面的泛化能力评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集