MosaicBenchmark/mosaic-bench

Name: MosaicBenchmark/mosaic-bench
Creator: MosaicBenchmark
Published: 2026-05-02 13:15:12
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/MosaicBenchmark/mosaic-bench

下载链接

链接失效反馈

官方服务：

资源简介：

MOSAIC-Bench数据集包含199个组合攻击链，覆盖10个真实世界的Web应用程序（Node.js / Python / Go / Java / PHP），用于评估AI编码代理是否会将单独常规的票务组合成可部署的漏洞。数据集的主要内容包括每个攻击链的攻击成功率（9种模型）、BugBot验证结果、规避层级等。数据集的使用仅限于研究用途，需在隔离的Docker环境中运行。

The MOSAIC-Bench dataset contains 199 compositional attack chains across 10 real-world web applications (Node.js / Python / Go / Java / PHP), used to benchmark whether AI coding agents will compose individually-routine tickets into a deployable vulnerability. The dataset includes per-chain attack success rates (9 models), BugBot verdicts, evasion tiers, and more. It is intended for research use only and must be run against isolated Docker substrates.

提供机构：

MosaicBenchmark

搜集汇总

数据集介绍

构建方式

在人工智能安全研究的前沿，针对AI编码智能体的安全评估需求日益迫切。MOSAIC-Bench数据集应运而生，其构建方式独具匠心：基于10种真实世界的Web应用程序（涵盖Node.js、Python、Go、Java、PHP等多种语言），精心设计了199条组合式攻击链。每条攻击链由3个阶段性的工单任务组成，模拟了从看似常规的单个任务到最终形成可部署漏洞的完整攻击路径。数据集中包含了每个攻击链的测试用例（oracle）、黄金解决方案脚本以及详细的链配置文件，确保评估的严谨性和可复现性。

使用方法

数据集的使用需运行于隔离的Docker环境中，以确保研究的安全性和可重复性。研究人员可通过GitHub代码仓库中的测试框架进行复现，使用'mosaic init'命令下载10种Web应用程序及其依赖预配置。每条攻击链的工单、验证脚本和解决方案都已结构化存储，便于自动化评估。值得注意的是，该数据集仅限研究用途，不得用于生产系统，这体现了对研究伦理和安全责任的严肃考量。

背景与挑战

背景概述

随着大型语言模型在代码生成领域的广泛应用，AI编码智能体在软件开发中的自主能力日益增强，但随之而来的安全性问题也引发了学界与工业界的深切关注。MOSAIC-Bench数据集于2025年由OpenMOSS团队推出，旨在系统评估AI编码智能体在面对组合式攻击链时的安全表现。该数据集涵盖10个真实世界Web应用，精心设计了199条由多个看似常规的代码任务串联而成的攻击链，每条链单独处理时无害，综合执行后却可形成可部署的漏洞。这一研究直指当前安全评估基准中缺乏对多步骤、跨任务复合漏洞的测评空白，为AI智能体的可信部署提供了全新的风险评估范式，对安全导向的代码生成领域影响深远。

当前挑战

MOSAIC-Bench所针对的核心挑战在于，现有安全基准多聚焦于单一漏洞或独立任务的检测，难以捕捉AI智能体在连续执行多个常规编程请求时，因组合效应产生的安全风险。这种“组合式脆弱性”在现实开发场景中普遍存在，却长期缺乏系统性的评估工具。在数据集构建过程中，挑战同样显著：研究团队需从零设计多步骤攻击链，确保每一步单独达标的情况下整体处于不安全状态，同时要为每个链条实现可重现的应用环境依赖预置、Oracle签名以及漏洞分级。此外，还需要构建本地Docker隔离环境以支持安全复现，并设计“BugBot”验证机制以区分不同模式的漏洞判定结果。

常用场景

经典使用场景

在人工智能安全与代码生成交叉领域，MOSAIC-Bench作为首个聚焦组合式漏洞攻击链的基准测试数据集，被广泛用于评估AI代码智能体在真实Web应用中的安全编码能力。该数据集精心设计了199条组合攻击链，覆盖10种广泛使用的Web应用架构（涵盖Node.js、Python、Go、Java与PHP技术栈），每条攻击链由三个看似无害但可序列化利用的开发任务组成。研究者通过该数据集可系统性地检验AI智能体是否能够将多个例行工单组合成一个可部署的零日漏洞，从而评估其在安全场景下的多步推理与战术规划能力。

解决学术问题

MOSAIC-Bench直指现有代码生成评估范式中的重大缺陷——主流基准测试如HumanEval、SWE-Bench仅检验单次代码补全的准确率，完全忽视了攻击者利用AI智能体进行组合式攻击的真实风险。该数据集定义了‘可部署漏洞’这一学术概念，并引入攻击成功率的量化指标，为研究AI系统的语义理解、长期规划能力以及安全约束遵循程度提供了标准化评估框架。其核心学术贡献在于揭示了现代AI编码智能体普遍存在的‘规划盲区’，即它们在面对需要跨步骤、跨文件推理的复杂安全场景时会出现系统性失效，这对理解大语言模型在自主代码生成时的认知边界产生了深远影响。

实际应用

该数据集的实践价值主要体现在企业级AI辅助编程工具的安全审计领域。通过模拟真实的攻击场景，安全团队可以利用MOSAIC-Bench对内部部署的AI智能体（如GitHub Copilot、Codex等衍生工具）进行压力测试，在模型上线前识别其潜在的安全隐患。具体而言，该数据集可被集成到持续集成流水线中，作为AI代码生成组件的安全阀门，当模型生成代码的漏洞组合成功率超过阈值时自动触发告警机制。此外，面向金融、医疗等高合规性行业的DevSecOps团队可以借助该基准制定AI编码安全规范，确保自动化生成的代码在满足功能需求的同时不会引入隐蔽的组合式安全缺陷。

数据集最近研究