brin

github2026-03-17 更新2026-03-19 收录

下载链接：

https://github.com/superagent-ai/brin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自brin评分管道的开源威胁扫描记录，免费用于研究、红队和模型训练。

This dataset contains open-source threat scanning records from the Brin Scoring Pipeline, and is freely available for research, red teaming, and model training.

创建时间：

2026-03-04

原始信息汇总

brin 数据集概述

数据集简介

brin 是一个用于评估 AI 代理所消费上下文安全性的信用评分数据集。该数据集包含来自 brin 评分管道的开源威胁扫描记录，可用于研究、红队测试和模型训练。

核心内容

目的：在 AI 代理行动前，对每一份上下文进行安全评分，以检测恶意软件、提示注入、网络钓鱼和供应链攻击。
覆盖范围：涵盖软件包、代码仓库、MCP 服务器、技能和 URL。

数据模式

每条记录代表一次 brin 扫描结果，包含以下字段：

字段	类型	描述
`origin`	字符串	来源类型，如 `npm`、`pypi`、`crate`、`domain`、`page`、`repo`、`skill`、`mcp`、`contributor`
`identifier`	字符串	来源内的标识符（例如 `express`、`example.com`）
`version`	字符串	版本或引用（可选）
`score`	整数	0–100 的安全评分，分数越高越安全
`confidence`	字符串	置信度：`low`、`medium` 或 `high`
`verdict`	字符串	判定结果：`safe`、`caution`、`suspicious` 或 `malicious`
`sub_scores`	对象	四个维度的细分评分（见下文）
`threats`	数组	检测到的威胁信号，包含类型和描述（若无则省略）
`scanned_at`	字符串	扫描执行时间的 ISO 8601 时间戳

细分评分维度

维度	描述
`identity`	发布者声誉、域名年龄、所有权信号
`behavior`	运行时行为、网络调用、安装脚本
`content`	源代码、提示内容、指令分析
`graph`	依赖关系图、传递性风险、维护者重叠

数据覆盖范围

来源	评分对象	检测的威胁
`npm` / `pypi` / `crate`	开源软件包	安装时攻击、凭据窃取、域名抢注
`domain` / `page`	网站和网页	提示注入、网络钓鱼、伪装、通过隐藏内容进行数据窃取
`repo`	GitHub 仓库	代理配置注入、恶意提交、被破坏的依赖项
`skill`	代理技能	描述注入、输出污染、指令覆盖
`mcp`	MCP 服务器	工具影子、模式滥用、静默能力升级
`contributor`	GitHub 贡献者	冒充、域名抢注、可疑提交模式

数据格式与组织

格式：数据以 JSONL（换行符分隔的 JSON）格式存储，每行一条记录。
组织：文件按来源组织在 data/ 目录下，包含 npm.jsonl、pypi.jsonl、crate.jsonl、domain.jsonl、page.jsonl、repo.jsonl、skill.jsonl、mcp.jsonl、contributor.jsonl。

许可证

MIT 许可证

相关资源

文档：https://brin.sh/docs
CLI 工具：https://github.com/superagent-ai/brin-cli
Cursor 插件：位于本仓库的 plugins/cursor 目录中

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，确保智能体所处理上下文的可靠性至关重要。Brin数据集通过其自动化扫描管道构建而成，该管道对多种来源的实体进行安全评估，包括开源软件包、网页、代码仓库及AI技能等。扫描过程系统性地收集每个实体的安全评分、置信度及威胁信号，并将结果以结构化记录形式保存，形成覆盖广泛威胁类型的综合性安全数据集。

特点

Brin数据集的核心特征在于其多维度的安全评估体系。每条记录不仅提供从0到100的总体安全评分及定性裁决，还通过身份、行为、内容和依赖图四个子维度进行细粒度剖析。数据集涵盖npm、PyPI、Crate等九类来源，能够检测恶意软件、提示注入、网络钓鱼及供应链攻击等多种威胁，并以JSONL格式组织，确保了数据的可流式处理与高效解析。

使用方法

研究人员和安全工程师可利用Brin数据集进行威胁情报分析、红队测试及模型训练。数据集按来源分文件存储，用户可通过解析JSONL格式逐行读取记录，无需一次性加载全部数据。每条记录包含的评分、子维度得分及威胁描述，为构建或评估AI智能体的安全过滤机制、开发风险检测模型提供了详实的实证基础。

背景与挑战

背景概述

在人工智能代理（AI Agents）日益普及的背景下，其安全性高度依赖于所处理上下文的可靠性。Brin数据集由Superagent公司创建，并得到Y Combinator的支持，旨在为AI代理提供上下文安全评分。该数据集通过系统化扫描开源威胁记录，评估包括npm、PyPI、Crate等软件包，以及域名、仓库、技能和MCP服务器等多种来源的安全性。其核心研究问题聚焦于检测恶意软件、提示注入、网络钓鱼和供应链攻击等多元威胁，从而增强AI代理在复杂环境中的鲁棒性与信任度。Brin的推出标志着AI安全领域从传统防御向主动风险评估的范式转变，为研究社区和产业界提供了宝贵的基准资源。

当前挑战

Brin数据集致力于解决AI代理上下文安全评估这一新兴领域的核心挑战，即如何准确量化异构数据源中的潜在风险。具体挑战包括：在领域问题层面，需应对威胁形态的快速演化，如提示注入和供应链攻击的隐蔽性，以及跨不同来源（如代码仓库与网页内容）的统一评分标准制定。在构建过程中，数据集面临数据采集的规模与时效性平衡、多维度评分（身份、行为、内容、图谱）的权重校准，以及确保扫描结果置信度评估的客观性等难题。这些挑战共同指向了构建动态、可解释安全评分体系的复杂性。

常用场景

经典使用场景

在人工智能代理安全领域，brin数据集为评估上下文输入的安全性提供了基准。该数据集通过扫描开源威胁记录，广泛应用于代理系统在行动前对上下文内容进行安全评分，典型场景包括检测npm、PyPI等软件包中的恶意代码、网页中的钓鱼攻击，以及GitHub仓库中的配置注入风险。研究人员和开发者利用这些评分数据，构建自动化安全检测流程，确保代理仅消费可信的上下文，从而提升整体系统的鲁棒性。

解决学术问题

brin数据集针对人工智能代理安全中的关键挑战，解决了上下文可信度量化这一核心学术问题。传统方法往往缺乏系统性的威胁评估框架，而该数据集通过多维评分体系（如身份、行为、内容和图分析），为检测恶意软件、提示注入和供应链攻击提供了标准化数据基础。其意义在于推动了代理安全领域的实证研究，使学者能够基于真实威胁信号开发更精准的检测模型，降低了代理系统因上下文污染而导致的安全风险。

衍生相关工作

围绕brin数据集，衍生出多项经典研究工作，主要集中在代理安全增强和威胁检测算法优化。例如，基于其多维子评分数据，研究者开发了图神经网络模型以分析依赖图中的传播风险；另有工作结合行为评分特征，构建了动态运行时监控系统。这些成果不仅扩展了数据集的学术价值，还推动了开源生态安全工具的演进，如自动化红队测试框架和轻量级代理防护插件的开发。

以上内容由遇见数据集搜集并总结生成