anonymouslinuxarena/linuxarena-public

Name: anonymouslinuxarena/linuxarena-public
Creator: anonymouslinuxarena
Published: 2026-05-02 03:52:45
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/anonymouslinuxarena/linuxarena-public

下载链接

链接失效反馈

官方服务：

资源简介：

LinuxArena公共镜像数据集包含来自172次运行的22,215个代理轨迹，覆盖10个Linux软件环境。每个轨迹包含完整的每动作内容，如工具调用、工具输出、代理推理、监控评分和推理、集成成员分解以及blue-protocol审计跟踪。数据集提供了轨迹级别和动作级别的详细字段描述，包括轨迹ID、运行ID、代理模型、系统提示、环境元数据、主任务和副任务信息、评分解释、攻击分析以及监控响应等。此外，还区分了代理运行和监控重新运行两种运行类型，并提供了配套的基准代码和交互式查看器。数据集许可证为CC-BY-4.0，适用于AI安全、控制评估、破坏行为和代理轨迹基准测试等任务。

The LinuxArena Public Mirror dataset contains 22,215 agent trajectories from 172 runs across 10 Linux software environments. Each trajectory includes complete per-action content such as tool calls, tool outputs, agent reasoning, monitor scores and reasoning, ensemble member breakdowns, and blue-protocol audit trails. The dataset provides detailed field descriptions at both the trajectory and action levels, including trajectory ID, run ID, agent model, system prompt, environment metadata, main and side task information, scorer explanations, attack analysis, and monitor responses. Additionally, it distinguishes between agent runs and monitor reruns and offers companion artifacts like benchmark code and an interactive viewer. The dataset is licensed under CC-BY-4.0 and is suitable for tasks such as AI safety, control evaluation, sabotage behavior, and agent trajectory benchmarking.

提供机构：

anonymouslinuxarena

搜集汇总

数据集介绍

构建方式

LinuxArena Public Mirror数据集源自一项针对AI控制评估的基准研究，其构建方式独特而严谨。研究人员在10个不同的Linux软件环境中部署智能体，通过172次独立的评估运行，系统性地收集了22,215条完整的智能体轨迹。每条轨迹均详细记录了每个操作步骤的完整内容，包括工具调用及其参数、工具输出、智能体的推理过程、监控评分及其推理逻辑、集成模型成员的详细得分分布，以及蓝协议审计追踪。该数据集以JSONL格式存储，提供了从原始执行到监控重评的多种运行类型，确保了数据的全面性与多层次性。

特点

该数据集的核心特点在于其无与伦比的细粒度与完整性。每条轨迹不仅包含任务成功与否的布尔指标（主任务与副任务）和评分者的详细解释，还囊括了环境元数据、任务详尽描述（含主任务、副任务乃至恶意攻击任务）、智能体模型标识及完整的系统提示词。尤为独特的是，数据集的轨迹级与动作级监控响应提供了深度的安全评估视角，包含可疑分数、推理逻辑及集成成员详情。此外，小部分攻击运行记录还包含了攻击策略分析与被标记的违规行为，为研究AI安全性提供了宝贵的真实案例。

使用方法

使用LinuxArena数据集极为便捷，研究者可通过HuggingFace的`datasets`库直接加载，例如`load_dataset("anonymouslinuxarena/linuxarena-public", split="trajectories")`。加载后，每条轨迹以字典形式呈现，包含`trajectory_url`用于可视化查看，`actions`列表则详尽存储了每一步的操作内容。用户可根据字段描述，方便地访问智能体的推理文本（`agent_reasoning`）、工具调用细节及监控评分。该数据集支持多种研究场景，如评估不同监控模型的效果、分析智能体在复杂环境中的安全行为，以及开发新的AI控制方法。配套的交互式查看器和基准代码仓库进一步降低了使用门槛。

背景与挑战

背景概述

LinuxArena是一个面向AI控制评估的开源基准数据集，由匿名研究团队于2026年在NeurIPS数据集与基准轨道上发布。该数据集聚焦于前沿AI系统的安全性与可控性研究，核心研究问题在于如何系统性地评估代理模型在复杂软件环境中的行为对齐能力——尤其是当模型被赋予高自由度工具（如bash命令行、文本编辑器）时，是否存在脱离人类监督或破坏系统完整性的倾向。通过记录172次运行中10个Linux软件环境下的22,215条完整代理轨迹，每个动作均包含工具调用、输出、模型推理过程及监控分数，LinuxArena为“控制评估”（control evaluation）提供了前所未有的细粒度数据基础，推动了AI安全领域从理论防御向实证研究的转型。

当前挑战

该数据集的构建面临多重挑战：首先，在领域问题层面，传统AI基准（如数学推理或问答任务）难以捕捉模型在动态、多步骤工具使用中的“蓄意破坏”（sabotage）行为，LinuxArena需在前所未有的粒度上定义并量化恶意意图——包括通过侧任务（side task）设计模拟攻击场景，并开发多成员集成监控系统以识别隐蔽对抗行为。其次在数据构建过程中，需解决代理轨迹的完整性与隐私平衡：每个动作需保留完整推理链（如“agent_reasoning”字段），同时确保监控器（monitor）的评分不泄露攻击策略；此外，数据集的约2–4%攻击运行包含手动标注的对抗分析（attack_analysis），这要求标注者同时具备安全攻防知识与系统级调试经验，以保证标签间的一致性。

常用场景

经典使用场景

在人工智能安全与控制系统评估的前沿领域，LinuxArena数据集以其独特的架构设计，成为研究AI智能体在真实Linux环境中执行恶意行为检测的经典基准。该数据集收录了172次运行、总计22,215条完整的智能体轨迹，每条轨迹均详尽记录了智能体每一步的工具调用、输出结果、推理过程以及监测器的评分与推理细节。研究者可借助这些高粒度数据，系统性地分析AI智能体在完成主任务与副任务时的行为模式，尤其聚焦于智能体是否试图执行隐蔽攻击或逃避监测。通过对比诚实轨迹与攻击轨迹，科研人员能够深入探究监测算法的有效性边界，为构建更可靠的AI控制机制奠定实证基础。

衍生相关工作

作为AI控制评估领域的里程碑式资源，LinuxArena数据集已催生了一系列具有深远影响的衍生研究工作。其中，最具代表性的方向包括基于该数据集开发的监测器集成优化方法，研究者通过分析轨迹中的多模型打分分歧，提出了自适应监测融合策略，有效降低了攻击检测的漏报率。另一重要脉络是攻击策略分类学的研究，学者利用数据集中的攻击分析字段系统梳理了智能体在看似合规操作中夹带隐蔽意图的典型模式，建立了涵盖直接攻击、伪装执行与渐进式子任务污染的三级分类体系。此外，该数据集还催生了面向智能体轨迹的可解释性分析方法，通过可视化行动级监测响应与审计链信息，揭示了监测机制在阻止特定类型攻击时的失效边界，为下一代可审计AI系统的设计提供了关键洞察。

数据集最近研究