SMUGGLEBENCH

github2026-04-11 更新2026-04-13 收录

下载链接：

https://github.com/zhihengli-casia/Smugglebench

下载链接

链接失效反馈

官方服务：

资源简介：

SMUGGLEBENCH是一个专门设计用于评估对抗性走私攻击下多模态内容审核的基准数据集。公共发布包含1700个基准实例，涵盖2种攻击路径和9种纸张级走私技术。数据集分为感知、AIGC和推理三个家族级存储布局，评估重点是对抗性走私鲁棒性。

SMUGGLEBENCH is a benchmark dataset specifically designed to evaluate multimodal content moderation under adversarial smuggling attacks. The public release includes 1,700 benchmark instances, covering 2 attack pathways and 9 paper-level smuggling techniques. The dataset is categorized into three family-level storage partitions: Perception, AIGC, and Reasoning, with the core evaluation focus being adversarial smuggling robustness.

创建时间：

2026-04-08

搜集汇总

数据集介绍

构建方式

在对抗性内容安全研究领域，SMUGGLEBENCH 的构建遵循了严谨的威胁建模与数据策展流程。该数据集围绕“对抗性走私攻击”这一新型威胁模型展开，通过系统性地设计两种攻击路径——感知盲区与推理阻断，并细化为九种具体的走私技术来生成样本。构建过程首先定义了人类可读但多模态大模型难以正确感知或解释的视觉形式，随后基于此标准，人工合成与精心设计了共计1700个基准实例，确保了攻击场景的多样性与代表性。数据以家族级存储布局进行组织，涵盖了感知、AIGC与推理三大类别，为评估多模态内容审核的鲁棒性提供了结构化基础。

特点

SMUGGLEBENCH 的核心特点在于其针对多模态内容审核系统脆弱性的深度聚焦与系统性覆盖。数据集不仅规模适中、标注清晰，更关键的是其攻击路径与技术的多样性：它囊括了从微小文本、遮挡文字、低对比度等感知层干扰，到密集文本掩码、语义伪装、视觉谜题等推理层规避策略，全面模拟了现实世界中可能出现的对抗性走私手段。尤为突出的是，数据集包含了利用AI生成内容进行背景融合或多图伪装的先进技术实例，反映了当前生成式AI发展带来的新型安全挑战。这种基于攻击路径与技术细分的分类体系，使得该基准能够精准诊断模型在感知与推理不同阶段的失效模式。

使用方法

研究者可通过 Hugging Face 平台便捷获取 SMUGGLEBENCH 的完整图像数据与 JSONL 格式的标注文件。数据集的使用旨在评估多模态大模型在对抗性走私攻击下的内容审核鲁棒性。典型工作流程包括：首先，按照标注文件中的路径指引加载对应的对抗性图像样本；随后，利用配套提供的推理脚本与评估脚本，将待测模型（通常是支持多模态输入的API）在数据集上进行测试；最终，计算攻击成功率与任务错误率等关键指标，以量化模型在面对不同走私技术时的脆弱性。该基准为系统性地衡量、比较并提升多模态内容安全系统的防御能力提供了标准化测试环境。

背景与挑战

背景概述

随着多模态大语言模型在内容审核领域的广泛应用，其安全性与鲁棒性面临严峻考验。SMUGGLEBENCH数据集由中国科学院自动化研究所等机构的研究团队于2026年创建，旨在系统评估对抗性走私攻击对多模态内容审核的影响。该数据集围绕对抗性走私攻击这一新型威胁模型展开，核心研究问题在于探究如何通过视觉形式隐藏有害信息，使其对人类可读但对模型难以感知或解释。这一工作不仅揭示了多模态模型在内容审核中的潜在盲点，也为后续防御机制的设计提供了关键基准，推动了人工智能安全领域的前沿探索。

当前挑战

SMUGGLEBENCH数据集致力于解决多模态内容审核中对抗性攻击的挑战，具体涉及模型在感知与推理两阶段的脆弱性。在领域问题层面，挑战体现为模型对视觉文本的提取能力不足，以及语义理解时对有害意图的误判，这导致传统审核系统易被精心设计的走私样本绕过。构建过程中的挑战则集中于攻击技术的多样性与数据真实性平衡，需涵盖微小文本、遮挡文本、低对比度等九类技术，同时确保样本在人类可读性与模型欺骗性之间保持精确的权衡，以构建具有代表性与可扩展性的评估基准。

常用场景

经典使用场景

在人工智能安全领域，对抗性攻击研究日益受到关注，SMUGGLEBENCH数据集为评估多模态大语言模型在内容审核中的鲁棒性提供了标准化的测试平台。该数据集通过模拟对抗性走私攻击，即利用人类可读但模型难以感知或解释的视觉形式隐藏有害内容，系统性地检验模型在感知盲区与推理阻断两种攻击路径下的表现。研究人员可借助该数据集，量化分析模型在面对微小文本、遮挡文字、低对比度、手写风格、艺术变形、AI幻觉、密集文本掩码、语义伪装及视觉谜题等九类走私技术时的脆弱性，从而推动更安全的模型设计。

实际应用

随着多模态模型在社交媒体、内容平台及在线服务中的广泛应用，确保其内容审核系统的可靠性成为关键需求。SMUGGLEBENCH数据集的实际价值在于，它能够帮助企业和开发者识别现有审核系统的盲点，例如模型可能无法有效检测经过视觉伪装的有害文本信息。通过在该数据集上进行压力测试，工程团队可以针对性优化模型的视觉感知模块与语义理解管道，从而在实际部署中降低恶意内容绕过审核的风险，提升平台的内容安全治理水平。

衍生相关工作

SMUGGLEBENCH的发布催生了一系列围绕多模态对抗鲁棒性的衍生研究。基于其提出的攻击分类与评估框架，后续工作深入探索了针对感知盲区的防御增强技术，例如改进光学字符识别在低质量图像上的性能。同时，在推理阻断路径上，研究者发展了结合上下文理解与意图分析的混合审核方法。该数据集也促进了更广泛的基准构建，激励了社区开发涵盖更多攻击向量与模态的扩展测试集，共同推动了多模态安全评估体系的完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集