brin
收藏github2026-03-17 更新2026-03-19 收录
下载链接:
https://github.com/superagent-ai/brin
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自brin评分管道的开源威胁扫描记录,免费用于研究、红队和模型训练。
This dataset contains open-source threat scanning records from the Brin Scoring Pipeline, and is freely available for research, red teaming, and model training.
创建时间:
2026-03-04
原始信息汇总
brin 数据集概述
数据集简介
brin 是一个用于评估 AI 代理所消费上下文安全性的信用评分数据集。该数据集包含来自 brin 评分管道的开源威胁扫描记录,可用于研究、红队测试和模型训练。
核心内容
- 目的:在 AI 代理行动前,对每一份上下文进行安全评分,以检测恶意软件、提示注入、网络钓鱼和供应链攻击。
- 覆盖范围:涵盖软件包、代码仓库、MCP 服务器、技能和 URL。
数据模式
每条记录代表一次 brin 扫描结果,包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
origin |
字符串 | 来源类型,如 npm、pypi、crate、domain、page、repo、skill、mcp、contributor |
identifier |
字符串 | 来源内的标识符(例如 express、example.com) |
version |
字符串 | 版本或引用(可选) |
score |
整数 | 0–100 的安全评分,分数越高越安全 |
confidence |
字符串 | 置信度:low、medium 或 high |
verdict |
字符串 | 判定结果:safe、caution、suspicious 或 malicious |
sub_scores |
对象 | 四个维度的细分评分(见下文) |
threats |
数组 | 检测到的威胁信号,包含类型和描述(若无则省略) |
scanned_at |
字符串 | 扫描执行时间的 ISO 8601 时间戳 |
细分评分维度
| 维度 | 描述 |
|---|---|
identity |
发布者声誉、域名年龄、所有权信号 |
behavior |
运行时行为、网络调用、安装脚本 |
content |
源代码、提示内容、指令分析 |
graph |
依赖关系图、传递性风险、维护者重叠 |
数据覆盖范围
| 来源 | 评分对象 | 检测的威胁 |
|---|---|---|
npm / pypi / crate |
开源软件包 | 安装时攻击、凭据窃取、域名抢注 |
domain / page |
网站和网页 | 提示注入、网络钓鱼、伪装、通过隐藏内容进行数据窃取 |
repo |
GitHub 仓库 | 代理配置注入、恶意提交、被破坏的依赖项 |
skill |
代理技能 | 描述注入、输出污染、指令覆盖 |
mcp |
MCP 服务器 | 工具影子、模式滥用、静默能力升级 |
contributor |
GitHub 贡献者 | 冒充、域名抢注、可疑提交模式 |
数据格式与组织
- 格式:数据以 JSONL(换行符分隔的 JSON)格式存储,每行一条记录。
- 组织:文件按来源组织在
data/目录下,包含npm.jsonl、pypi.jsonl、crate.jsonl、domain.jsonl、page.jsonl、repo.jsonl、skill.jsonl、mcp.jsonl、contributor.jsonl。
许可证
MIT 许可证
相关资源
- 文档:https://brin.sh/docs
- CLI 工具:https://github.com/superagent-ai/brin-cli
- Cursor 插件:位于本仓库的
plugins/cursor目录中
搜集汇总
数据集介绍

构建方式
在人工智能安全领域,确保智能体所处理上下文的可靠性至关重要。Brin数据集通过其自动化扫描管道构建而成,该管道对多种来源的实体进行安全评估,包括开源软件包、网页、代码仓库及AI技能等。扫描过程系统性地收集每个实体的安全评分、置信度及威胁信号,并将结果以结构化记录形式保存,形成覆盖广泛威胁类型的综合性安全数据集。
特点
Brin数据集的核心特征在于其多维度的安全评估体系。每条记录不仅提供从0到100的总体安全评分及定性裁决,还通过身份、行为、内容和依赖图四个子维度进行细粒度剖析。数据集涵盖npm、PyPI、Crate等九类来源,能够检测恶意软件、提示注入、网络钓鱼及供应链攻击等多种威胁,并以JSONL格式组织,确保了数据的可流式处理与高效解析。
使用方法
研究人员和安全工程师可利用Brin数据集进行威胁情报分析、红队测试及模型训练。数据集按来源分文件存储,用户可通过解析JSONL格式逐行读取记录,无需一次性加载全部数据。每条记录包含的评分、子维度得分及威胁描述,为构建或评估AI智能体的安全过滤机制、开发风险检测模型提供了详实的实证基础。
背景与挑战
背景概述
在人工智能代理(AI Agents)日益普及的背景下,其安全性高度依赖于所处理上下文的可靠性。Brin数据集由Superagent公司创建,并得到Y Combinator的支持,旨在为AI代理提供上下文安全评分。该数据集通过系统化扫描开源威胁记录,评估包括npm、PyPI、Crate等软件包,以及域名、仓库、技能和MCP服务器等多种来源的安全性。其核心研究问题聚焦于检测恶意软件、提示注入、网络钓鱼和供应链攻击等多元威胁,从而增强AI代理在复杂环境中的鲁棒性与信任度。Brin的推出标志着AI安全领域从传统防御向主动风险评估的范式转变,为研究社区和产业界提供了宝贵的基准资源。
当前挑战
Brin数据集致力于解决AI代理上下文安全评估这一新兴领域的核心挑战,即如何准确量化异构数据源中的潜在风险。具体挑战包括:在领域问题层面,需应对威胁形态的快速演化,如提示注入和供应链攻击的隐蔽性,以及跨不同来源(如代码仓库与网页内容)的统一评分标准制定。在构建过程中,数据集面临数据采集的规模与时效性平衡、多维度评分(身份、行为、内容、图谱)的权重校准,以及确保扫描结果置信度评估的客观性等难题。这些挑战共同指向了构建动态、可解释安全评分体系的复杂性。
常用场景
经典使用场景
在人工智能代理安全领域,brin数据集为评估上下文输入的安全性提供了基准。该数据集通过扫描开源威胁记录,广泛应用于代理系统在行动前对上下文内容进行安全评分,典型场景包括检测npm、PyPI等软件包中的恶意代码、网页中的钓鱼攻击,以及GitHub仓库中的配置注入风险。研究人员和开发者利用这些评分数据,构建自动化安全检测流程,确保代理仅消费可信的上下文,从而提升整体系统的鲁棒性。
解决学术问题
brin数据集针对人工智能代理安全中的关键挑战,解决了上下文可信度量化这一核心学术问题。传统方法往往缺乏系统性的威胁评估框架,而该数据集通过多维评分体系(如身份、行为、内容和图分析),为检测恶意软件、提示注入和供应链攻击提供了标准化数据基础。其意义在于推动了代理安全领域的实证研究,使学者能够基于真实威胁信号开发更精准的检测模型,降低了代理系统因上下文污染而导致的安全风险。
衍生相关工作
围绕brin数据集,衍生出多项经典研究工作,主要集中在代理安全增强和威胁检测算法优化。例如,基于其多维子评分数据,研究者开发了图神经网络模型以分析依赖图中的传播风险;另有工作结合行为评分特征,构建了动态运行时监控系统。这些成果不仅扩展了数据集的学术价值,还推动了开源生态安全工具的演进,如自动化红队测试框架和轻量级代理防护插件的开发。
以上内容由遇见数据集搜集并总结生成



