SMUGGLEBENCH

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/zhihengli-casia/smugglebench

下载链接

链接失效反馈

官方服务：

资源简介：

SMUGGLEBENCH是一个专门设计的基准测试，用于评估对抗性走私攻击下的多模态内容审核。公共发布包含1,700个基准实例，涵盖2种攻击路径和9种走私技术。

SMUGGLEBENCH is a purpose-built benchmark designed to evaluate multimodal content moderation under adversarial smuggling attacks. The public release includes 1,700 benchmark instances, covering 2 attack vectors and 9 smuggling techniques.

创建时间：

2026-04-08

原始信息汇总

SMUGGLEBENCH 数据集概述

基本信息

数据集名称：SMUGGLEBENCH
发布范围：公共基准测试发布
样本总数：1700
攻击路径：2
走私技术：9
存储布局（家族级别）：Perception / AIGC / Reasoning
评估重点：对抗性走私鲁棒性

背景与目的

该数据集源自论文《Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation》，旨在研究针对多模态内容审核的对抗性走私攻击。该攻击模型（ASA）将有害内容隐藏在视觉形式中，这些形式对人类可读，但多模态大模型难以正确感知或解释。

攻击路径

感知盲区：模型在感知阶段失败，无法可靠地从图像中提取有害文本。
推理阻断：模型可以读取文本，但在语义解释过程中无法识别其有害意图。

基准测试分类与技术构成

基准测试涵盖以下论文级别的技术：

攻击路径	技术	样本数量
感知盲区	微小文本	200
感知盲区	遮挡文本	200
感知盲区	低对比度	200
感知盲区	手写风格	200
感知盲区	艺术/扭曲	200
感知盲区	AI幻觉	400
推理阻断	密集文本掩蔽	100
推理阻断	语义伪装	100
推理阻断	视觉谜题	100
总计	-	1700

说明：论文分类包含9种技术，但公开发布版本组织为10个存储子文件夹。这是因为论文级别的“AI幻觉”技术存储为两个发布子集：AIGC/01_Blended_Background 和 AIGC/02_Multi-Picture Camouflage。

发布内容

标注文件：annotations/ 目录下包含公开发布的JSONL格式标注。
代码工具：
- inference.py：用于OpenAI兼容的多模态API的推理入口点。
- evaluation.py：用于计算ASR和TER等指标的评估脚本。
- scripts/build_hf_dataset.py：用于导出Hugging Face数据集包的实用工具。
- scripts/rewrite_annotations.py：用于将标注路径重写为公开发布格式的实用工具。
完整图像数据：发布于Hugging Face平台：https://huggingface.co/datasets/zhihengli-casia/smugglebench

许可协议

本项目采用 CC BY 4.0 许可协议发布。

搜集汇总

数据集介绍

构建方式

在对抗性内容安全研究领域，SMUGGLEBENCH的构建遵循了系统化的威胁建模与数据生成流程。该数据集围绕对抗性走私攻击这一新型威胁模型展开，通过精心设计的攻击路径与具体技术，生成了1700个基准实例。构建过程首先确立了感知盲区与推理阻断两条核心攻击路径，进而细化为九种纸面级别的走私技术，包括微小文本、遮挡文本、低对比度、手写风格、艺术扭曲、AI幻觉、密集文本掩码、语义伪装及视觉谜题。数据生成融合了自动化脚本与人工筛选，确保每个实例在视觉上对人类可读，却对多模态大模型的感知或推理构成挑战，从而为评估内容审核系统的鲁棒性提供了结构化基准。

使用方法

研究者可通过Hugging Face平台获取SMUGGLEBENCH的完整数据与标注，数据集以图像文件与JSONL注解格式提供。使用前需配置Python环境并安装依赖库，将图像置于指定路径以匹配注解中的相对引用。评估流程依托于项目提供的推理与评估脚本，支持对OpenAI兼容的多模态API进行批量测试，计算对抗性攻击成功率等核心指标。用户可依据存储子文件夹的结构，按攻击技术与路径选择特定子集进行针对性实验，或利用内置工具重新格式化注解以适应自定义流程。该数据集的设计便于集成到现有内容审核系统的鲁棒性评估框架中，为模型安全性的量化分析提供直接支持。

背景与挑战

背景概述

随着多模态大语言模型在内容审核领域的广泛应用，其安全性与鲁棒性面临严峻考验。SMUGGLEBENCH数据集由中国科学院自动化研究所等机构的研究团队于2026年创建，旨在系统评估多模态内容审核模型在对抗性走私攻击下的脆弱性。该数据集围绕对抗性走私攻击这一新型威胁模型构建，核心研究问题在于揭示MLLMs在感知与推理阶段可能被恶意规避的机制，为提升多模态内容审核系统的防御能力提供了关键基准。

当前挑战

SMUGGLEBENCH数据集致力于解决多模态内容审核中对抗性攻击的识别难题，其挑战在于模型需同时应对感知盲区与推理阻断两类攻击路径，涵盖微小文本、视觉伪装等九种走私技术。在构建过程中，研究团队面临如何平衡攻击样本的多样性与真实性、确保人类可读性与模型盲区之间的微妙差异，以及大规模标注中语义一致性与技术可行性的协调等挑战。

常用场景

经典使用场景

在人工智能安全领域，多模态大语言模型的内容审核系统正面临新型对抗性威胁的挑战。SMUGGLEBENCH作为专门设计的基准测试集，其经典使用场景在于系统评估多模态内容审核模型在对抗性走私攻击下的鲁棒性。研究人员通过该数据集能够全面测试模型在感知盲区与推理阻断两种攻击路径下的防御能力，涵盖微小文本、遮挡文字、低对比度等九种具体攻击技术，为模型安全评估提供了标准化测试环境。

解决学术问题

该数据集有效解决了多模态内容安全领域的关键学术问题，即如何量化评估模型对隐蔽性对抗攻击的抵御能力。传统对抗攻击研究多集中于单模态场景或显式攻击，而SMUGGLEBENCH首次系统构建了人类可读但模型难辨的视觉攻击范式，填补了多模态对抗鲁棒性评估的空白。其意义在于建立了可复现的攻击分类体系，推动了内容审核安全从被动防御向主动测试的范式转变，为后续防御机制研究奠定了实证基础。

实际应用

在实际应用层面，SMUGGLEBENCH为社交媒体平台、内容审核服务商及AI安全团队提供了至关重要的测试工具。平台开发者可利用该数据集对部署的多模态审核系统进行压力测试，识别模型在真实场景中可能被规避的薄弱环节。特别是在处理用户生成内容时，该基准能帮助发现那些通过视觉伪装传播有害信息的潜在漏洞，从而指导开发更鲁棒的审核算法，保障数字空间的清朗环境。

数据集最近研究