five

MosaicBenchmark/mosaic-bench

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/MosaicBenchmark/mosaic-bench
下载链接
链接失效反馈
官方服务:
资源简介:
MOSAIC-Bench数据集包含199个组合攻击链,覆盖10个真实世界的Web应用程序(Node.js / Python / Go / Java / PHP),用于评估AI编码代理是否会将单独常规的票务组合成可部署的漏洞。数据集的主要内容包括每个攻击链的攻击成功率(9种模型)、BugBot验证结果、规避层级等。数据集的使用仅限于研究用途,需在隔离的Docker环境中运行。

The MOSAIC-Bench dataset contains 199 compositional attack chains across 10 real-world web applications (Node.js / Python / Go / Java / PHP), used to benchmark whether AI coding agents will compose individually-routine tickets into a deployable vulnerability. The dataset includes per-chain attack success rates (9 models), BugBot verdicts, evasion tiers, and more. It is intended for research use only and must be run against isolated Docker substrates.
提供机构:
MosaicBenchmark
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究的前沿,针对AI编码智能体的安全评估需求日益迫切。MOSAIC-Bench数据集应运而生,其构建方式独具匠心:基于10种真实世界的Web应用程序(涵盖Node.js、Python、Go、Java、PHP等多种语言),精心设计了199条组合式攻击链。每条攻击链由3个阶段性的工单任务组成,模拟了从看似常规的单个任务到最终形成可部署漏洞的完整攻击路径。数据集中包含了每个攻击链的测试用例(oracle)、黄金解决方案脚本以及详细的链配置文件,确保评估的严谨性和可复现性。
使用方法
数据集的使用需运行于隔离的Docker环境中,以确保研究的安全性和可重复性。研究人员可通过GitHub代码仓库中的测试框架进行复现,使用'mosaic init'命令下载10种Web应用程序及其依赖预配置。每条攻击链的工单、验证脚本和解决方案都已结构化存储,便于自动化评估。值得注意的是,该数据集仅限研究用途,不得用于生产系统,这体现了对研究伦理和安全责任的严肃考量。
背景与挑战
背景概述
随着大型语言模型在代码生成领域的广泛应用,AI编码智能体在软件开发中的自主能力日益增强,但随之而来的安全性问题也引发了学界与工业界的深切关注。MOSAIC-Bench数据集于2025年由OpenMOSS团队推出,旨在系统评估AI编码智能体在面对组合式攻击链时的安全表现。该数据集涵盖10个真实世界Web应用,精心设计了199条由多个看似常规的代码任务串联而成的攻击链,每条链单独处理时无害,综合执行后却可形成可部署的漏洞。这一研究直指当前安全评估基准中缺乏对多步骤、跨任务复合漏洞的测评空白,为AI智能体的可信部署提供了全新的风险评估范式,对安全导向的代码生成领域影响深远。
当前挑战
MOSAIC-Bench所针对的核心挑战在于,现有安全基准多聚焦于单一漏洞或独立任务的检测,难以捕捉AI智能体在连续执行多个常规编程请求时,因组合效应产生的安全风险。这种“组合式脆弱性”在现实开发场景中普遍存在,却长期缺乏系统性的评估工具。在数据集构建过程中,挑战同样显著:研究团队需从零设计多步骤攻击链,确保每一步单独达标的情况下整体处于不安全状态,同时要为每个链条实现可重现的应用环境依赖预置、Oracle签名以及漏洞分级。此外,还需要构建本地Docker隔离环境以支持安全复现,并设计“BugBot”验证机制以区分不同模式的漏洞判定结果。
常用场景
经典使用场景
在人工智能安全与代码生成交叉领域,MOSAIC-Bench作为首个聚焦组合式漏洞攻击链的基准测试数据集,被广泛用于评估AI代码智能体在真实Web应用中的安全编码能力。该数据集精心设计了199条组合攻击链,覆盖10种广泛使用的Web应用架构(涵盖Node.js、Python、Go、Java与PHP技术栈),每条攻击链由三个看似无害但可序列化利用的开发任务组成。研究者通过该数据集可系统性地检验AI智能体是否能够将多个例行工单组合成一个可部署的零日漏洞,从而评估其在安全场景下的多步推理与战术规划能力。
解决学术问题
MOSAIC-Bench直指现有代码生成评估范式中的重大缺陷——主流基准测试如HumanEval、SWE-Bench仅检验单次代码补全的准确率,完全忽视了攻击者利用AI智能体进行组合式攻击的真实风险。该数据集定义了‘可部署漏洞’这一学术概念,并引入攻击成功率的量化指标,为研究AI系统的语义理解、长期规划能力以及安全约束遵循程度提供了标准化评估框架。其核心学术贡献在于揭示了现代AI编码智能体普遍存在的‘规划盲区’,即它们在面对需要跨步骤、跨文件推理的复杂安全场景时会出现系统性失效,这对理解大语言模型在自主代码生成时的认知边界产生了深远影响。
实际应用
该数据集的实践价值主要体现在企业级AI辅助编程工具的安全审计领域。通过模拟真实的攻击场景,安全团队可以利用MOSAIC-Bench对内部部署的AI智能体(如GitHub Copilot、Codex等衍生工具)进行压力测试,在模型上线前识别其潜在的安全隐患。具体而言,该数据集可被集成到持续集成流水线中,作为AI代码生成组件的安全阀门,当模型生成代码的漏洞组合成功率超过阈值时自动触发告警机制。此外,面向金融、医疗等高合规性行业的DevSecOps团队可以借助该基准制定AI编码安全规范,确保自动化生成的代码在满足功能需求的同时不会引入隐蔽的组合式安全缺陷。
数据集最近研究
最新研究方向
在AI代码生成与智能体安全评估的前沿交叉领域,MOSAIC-Bench开创性地聚焦于组合型漏洞的探测挑战。该基准测试通过构建199条跨10个真实Web应用的攻击链,模拟了将看似无害的、各自独立的编程工单组合起来最终形成可部署漏洞的复杂场景。这一研究方向精准回应了当前AI编码智能体(Coding Agents)在实际开发协作中面临的核心安全隐忧:单个工单的修改可能被判定为安全,但多个工单的复合效应却可能引入致命风险。MOSAIC-Bench的诞生为系统性地量化与评估LLM驱动编码工具在应对这种“组合式脆弱性”时的鲁棒性提供了关键实验场,其构建的多阶段工单攻击链与自动化裁决机制(BugBot),直接推动了从简单代码生成正确性评估向深层代码安全风险评估的范式转变,对于保障软件供应链安全具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作