five

brin

收藏
github2026-03-17 更新2026-03-19 收录
下载链接:
https://github.com/superagent-ai/brin
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自brin评分管道的开源威胁扫描记录,免费用于研究、红队和模型训练。

This dataset contains open-source threat scanning records from the Brin Scoring Pipeline, and is freely available for research, red teaming, and model training.
创建时间:
2026-03-04
原始信息汇总

brin 数据集概述

数据集简介

brin 是一个用于评估 AI 代理所消费上下文安全性的信用评分数据集。该数据集包含来自 brin 评分管道的开源威胁扫描记录,可用于研究、红队测试和模型训练。

核心内容

  • 目的:在 AI 代理行动前,对每一份上下文进行安全评分,以检测恶意软件、提示注入、网络钓鱼和供应链攻击。
  • 覆盖范围:涵盖软件包、代码仓库、MCP 服务器、技能和 URL。

数据模式

每条记录代表一次 brin 扫描结果,包含以下字段:

字段 类型 描述
origin 字符串 来源类型,如 npmpypicratedomainpagereposkillmcpcontributor
identifier 字符串 来源内的标识符(例如 expressexample.com
version 字符串 版本或引用(可选)
score 整数 0–100 的安全评分,分数越高越安全
confidence 字符串 置信度:lowmediumhigh
verdict 字符串 判定结果:safecautionsuspiciousmalicious
sub_scores 对象 四个维度的细分评分(见下文)
threats 数组 检测到的威胁信号,包含类型和描述(若无则省略)
scanned_at 字符串 扫描执行时间的 ISO 8601 时间戳

细分评分维度

维度 描述
identity 发布者声誉、域名年龄、所有权信号
behavior 运行时行为、网络调用、安装脚本
content 源代码、提示内容、指令分析
graph 依赖关系图、传递性风险、维护者重叠

数据覆盖范围

来源 评分对象 检测的威胁
npm / pypi / crate 开源软件包 安装时攻击、凭据窃取、域名抢注
domain / page 网站和网页 提示注入、网络钓鱼、伪装、通过隐藏内容进行数据窃取
repo GitHub 仓库 代理配置注入、恶意提交、被破坏的依赖项
skill 代理技能 描述注入、输出污染、指令覆盖
mcp MCP 服务器 工具影子、模式滥用、静默能力升级
contributor GitHub 贡献者 冒充、域名抢注、可疑提交模式

数据格式与组织

  • 格式:数据以 JSONL(换行符分隔的 JSON)格式存储,每行一条记录。
  • 组织:文件按来源组织在 data/ 目录下,包含 npm.jsonlpypi.jsonlcrate.jsonldomain.jsonlpage.jsonlrepo.jsonlskill.jsonlmcp.jsonlcontributor.jsonl

许可证

MIT 许可证

相关资源

  • 文档:https://brin.sh/docs
  • CLI 工具:https://github.com/superagent-ai/brin-cli
  • Cursor 插件:位于本仓库的 plugins/cursor 目录中
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全领域,确保智能体所处理上下文的可靠性至关重要。Brin数据集通过其自动化扫描管道构建而成,该管道对多种来源的实体进行安全评估,包括开源软件包、网页、代码仓库及AI技能等。扫描过程系统性地收集每个实体的安全评分、置信度及威胁信号,并将结果以结构化记录形式保存,形成覆盖广泛威胁类型的综合性安全数据集。
特点
Brin数据集的核心特征在于其多维度的安全评估体系。每条记录不仅提供从0到100的总体安全评分及定性裁决,还通过身份、行为、内容和依赖图四个子维度进行细粒度剖析。数据集涵盖npm、PyPI、Crate等九类来源,能够检测恶意软件、提示注入、网络钓鱼及供应链攻击等多种威胁,并以JSONL格式组织,确保了数据的可流式处理与高效解析。
使用方法
研究人员和安全工程师可利用Brin数据集进行威胁情报分析、红队测试及模型训练。数据集按来源分文件存储,用户可通过解析JSONL格式逐行读取记录,无需一次性加载全部数据。每条记录包含的评分、子维度得分及威胁描述,为构建或评估AI智能体的安全过滤机制、开发风险检测模型提供了详实的实证基础。
背景与挑战
背景概述
在人工智能代理(AI Agents)日益普及的背景下,其安全性高度依赖于所处理上下文的可靠性。Brin数据集由Superagent公司创建,并得到Y Combinator的支持,旨在为AI代理提供上下文安全评分。该数据集通过系统化扫描开源威胁记录,评估包括npm、PyPI、Crate等软件包,以及域名、仓库、技能和MCP服务器等多种来源的安全性。其核心研究问题聚焦于检测恶意软件、提示注入、网络钓鱼和供应链攻击等多元威胁,从而增强AI代理在复杂环境中的鲁棒性与信任度。Brin的推出标志着AI安全领域从传统防御向主动风险评估的范式转变,为研究社区和产业界提供了宝贵的基准资源。
当前挑战
Brin数据集致力于解决AI代理上下文安全评估这一新兴领域的核心挑战,即如何准确量化异构数据源中的潜在风险。具体挑战包括:在领域问题层面,需应对威胁形态的快速演化,如提示注入和供应链攻击的隐蔽性,以及跨不同来源(如代码仓库与网页内容)的统一评分标准制定。在构建过程中,数据集面临数据采集的规模与时效性平衡、多维度评分(身份、行为、内容、图谱)的权重校准,以及确保扫描结果置信度评估的客观性等难题。这些挑战共同指向了构建动态、可解释安全评分体系的复杂性。
常用场景
经典使用场景
在人工智能代理安全领域,brin数据集为评估上下文输入的安全性提供了基准。该数据集通过扫描开源威胁记录,广泛应用于代理系统在行动前对上下文内容进行安全评分,典型场景包括检测npm、PyPI等软件包中的恶意代码、网页中的钓鱼攻击,以及GitHub仓库中的配置注入风险。研究人员和开发者利用这些评分数据,构建自动化安全检测流程,确保代理仅消费可信的上下文,从而提升整体系统的鲁棒性。
解决学术问题
brin数据集针对人工智能代理安全中的关键挑战,解决了上下文可信度量化这一核心学术问题。传统方法往往缺乏系统性的威胁评估框架,而该数据集通过多维评分体系(如身份、行为、内容和图分析),为检测恶意软件、提示注入和供应链攻击提供了标准化数据基础。其意义在于推动了代理安全领域的实证研究,使学者能够基于真实威胁信号开发更精准的检测模型,降低了代理系统因上下文污染而导致的安全风险。
衍生相关工作
围绕brin数据集,衍生出多项经典研究工作,主要集中在代理安全增强和威胁检测算法优化。例如,基于其多维子评分数据,研究者开发了图神经网络模型以分析依赖图中的传播风险;另有工作结合行为评分特征,构建了动态运行时监控系统。这些成果不仅扩展了数据集的学术价值,还推动了开源生态安全工具的演进,如自动化红队测试框架和轻量级代理防护插件的开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作