code-agent-v0.1

github2026-03-11 更新2026-03-10 收录

下载链接：

https://github.com/serkanaltuntas/AgentSafety

下载链接

链接失效反馈

官方服务：

资源简介：

AgentSafety基准测试数据集用于评估自主代码代理是否做出安全决策，包括允许、询问或拒绝。数据集测试代理针对多种风险向量，如提示注入、工具滥用、秘密暴露、任意代码执行等。

The AgentSafety benchmark dataset is designed to evaluate whether autonomous code agents make secure decisions, including allowing, querying, or refusing. The dataset tests agents against multiple risk vectors, such as prompt injection, tool abuse, secret exposure, arbitrary code execution, and more.

创建时间：

2026-03-08

原始信息汇总

AgentSafety 数据集概述

数据集基本信息

数据集名称: AgentSafety
核心定位: 一个用于评估自主代码代理是否做出安全决策的开放基准。
评估框架: 采用一个具体、可操作的决策框架，而非追求广义的“安全超级智能”。
创建与维护者: Serkan Altuntas
许可证: Apache 2.0 License

评估目标与标签

评估核心: 衡量代码执行代理的安全姿态，而非仅关注任务是否完成。
安全决策标签:
- allow: 行动安全，可在定义的边界内自动执行。
- ask: 行动可能合法，但需要澄清或明确批准。
- refuse: 行动跨越明确的安全边界，不应执行。

数据集内容与风险向量

活动基准数据集文件: datasets/code-agent-v0.1.jsonl (版本 0.1)
测试的风险向量:
- 提示注入及上传文档中的隐藏指令
- 工具滥用和破坏性文件操作
- 秘密泄露和凭证访问
- 任意代码执行
- 在工作空间边界外写入
- 修改关键系统配置文件
- 模糊的用户意图
- 执行不受信任的依赖项

数据集结构

数据集模式定义: schemas/case.schema.json (基准案例的 JSON 模式)
评估报告:
- 元比较报告: reports/meta-report.md
- 报告模板: reports/report-v0.1-template.md
模型评估跟踪: MODEL_EVALUATION_TRACKER.md (供应商/模型覆盖清单)
安全策略基线: policy.md (安全边界与决策模型)

使用与运行

评估包装器: 使用 PydanticAI 作为评估包装器，支持集成主要 LLM 提供商。
运行脚本: runner/main.py (基准执行脚本)
元报告生成脚本: runner/meta_report.py (将保存的结果 JSON 聚合为元标记报告)
支持测试的模型示例:
- OpenAI (如 openai:gpt-5.4)
- Anthropic (如 anthropic:claude-sonnet-4-6)
- Google Gemini (如 google-gla:gemini-3.1-pro-preview)
- 通过 Ollama 的本地模型 (如 ollama:llama3.1)
运行输出: 每次运行自动在 reports/ 目录下生成三个带时间戳的文件（原始数据、结果、报告）。

贡献指南

贡献重点: 寻求高质量、真实的代码执行代理风险场景，重质优于重量。
贡献指南文件: CONTRIBUTING.md (包含项目理念和提交新基准挑战的指南)。

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，构建高质量基准数据集是衡量自主代码代理安全决策能力的关键。code-agent-v0.1数据集通过系统化收集与标注真实世界中的风险场景而构建，其设计遵循严谨的安全策略框架，涵盖提示注入、工具滥用、凭证暴露及任意代码执行等核心风险向量。每个测试案例均基于JSON Schema进行结构化定义，确保评估的一致性与可重复性，数据集以JSON Lines格式发布，便于集成与扩展。

特点

该数据集聚焦于评估自主代码代理在面临潜在危险操作时的安全姿态，其核心特征在于采用三元分类框架——允许、询问与拒绝，以此量化代理的安全决策准确性。数据集覆盖了从文件操作越界到系统配置篡改等多种风险场景，案例设计强调现实性与针对性，而非单纯追求数量规模。此外，数据集与PydanticAI评估框架深度集成，支持主流大语言模型的即插即用测试，并自动生成时间戳标记的详细评估报告，为安全性能的纵向对比提供了可靠基础。

使用方法

使用该数据集进行安全基准测试需在Python 3.10及以上环境中，通过uv工具管理依赖并配置相应的API密钥。运行评估时，可通过命令行指定数据集路径与目标模型，例如调用OpenAI、Anthropic或本地Ollama服务等不同供应商的模型。评估过程将自动生成包含原始数据、结果与分析报告的三种时间戳文件，支持对多轮测试结果进行元报告聚合与新鲜度检查，从而系统化地追踪模型在安全决策上的表现演变。

背景与挑战

背景概述

随着人工智能代理在代码生成与执行领域的广泛应用，其自主决策的安全性评估成为亟待解决的关键问题。AgentSafety项目由Serkan Altuntas创建并维护，旨在构建一个开放的基准测试框架，专门用于评估自主代码代理在面对潜在风险时的安全决策能力。该框架摒弃了对抽象“安全超级智能”的追求，转而聚焦于一个具体且可操作的研究问题：如何量化代理在复杂指令环境下的安全姿态，即判断其应选择“允许”、“询问”还是“拒绝”执行。通过提供公开的决策基线、可复现的失败报告以及标准化的评估流程，该项目为代码执行代理的安全性能度量奠定了实证基础，推动了人机协作环境中可信赖自主系统的研究进展。

当前挑战

该数据集旨在解决代码执行代理安全决策评估这一领域核心挑战，其难点在于如何精准界定代理在复杂、模糊情境下的安全边界，并设计出能够全面覆盖现实风险场景的测试用例。具体而言，挑战包括：系统性地建模并测试代理对提示注入、工具滥用、凭证泄露、任意代码执行及越界文件操作等多维度风险向量的响应能力；在构建过程中，需确保测试案例兼具高度真实性与可重复性，避免因场景设计偏差导致评估失真，同时平衡案例的多样性与评估框架的通用性，以支持对不同模型架构与供应商的公平、一致性评测。

常用场景

经典使用场景

在人工智能驱动的代码执行代理领域，AgentSafety数据集为评估自主代理的安全性决策提供了标准化基准。该数据集通过模拟真实世界中的风险场景，如提示注入、工具滥用和文件破坏性操作，要求代理在‘允许’、‘询问’或‘拒绝’三种安全姿态中做出选择。研究人员利用这一框架，能够系统性地测试代理在面对潜在威胁时的反应，从而衡量其安全边界与决策可靠性。

解决学术问题

该数据集解决了人工智能安全研究中一个关键问题：如何量化评估代码执行代理的安全姿态。传统评估往往聚焦于任务完成度，而忽视了代理在复杂风险环境中的决策安全性。AgentSafety通过引入明确的安全策略基线，为学术界提供了可复现的失败报告和公共基准，促进了安全评估从抽象理论向具体操作框架的转变，推动了AI安全领域的实证研究进展。

衍生相关工作

围绕AgentSafety数据集，衍生出了一系列专注于AI代理安全性的经典研究工作。这些工作扩展了原始基准的评估维度，例如针对特定领域（如云基础设施或DevOps流水线）定制风险案例，或开发更精细的安全策略模型。同时，该数据集也激励了开源社区构建互补工具链，包括安全沙箱集成与多模型对比分析平台，共同丰富了自主代理安全生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集