five

SMUGGLEBENCH

收藏
github2026-04-09 更新2026-04-10 收录
下载链接:
https://github.com/zhihengli-casia/smugglebench
下载链接
链接失效反馈
官方服务:
资源简介:
SMUGGLEBENCH是一个专门设计的基准测试,用于评估对抗性走私攻击下的多模态内容审核。公共发布包含1,700个基准实例,涵盖2种攻击路径和9种走私技术。

SMUGGLEBENCH is a purpose-built benchmark designed to evaluate multimodal content moderation under adversarial smuggling attacks. The public release includes 1,700 benchmark instances, covering 2 attack vectors and 9 smuggling techniques.
创建时间:
2026-04-08
原始信息汇总

SMUGGLEBENCH 数据集概述

基本信息

  • 数据集名称:SMUGGLEBENCH
  • 发布范围:公共基准测试发布
  • 样本总数:1700
  • 攻击路径:2
  • 走私技术:9
  • 存储布局(家族级别):Perception / AIGC / Reasoning
  • 评估重点:对抗性走私鲁棒性

背景与目的

该数据集源自论文《Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation》,旨在研究针对多模态内容审核的对抗性走私攻击。该攻击模型(ASA)将有害内容隐藏在视觉形式中,这些形式对人类可读,但多模态大模型难以正确感知或解释。

攻击路径

  • 感知盲区:模型在感知阶段失败,无法可靠地从图像中提取有害文本。
  • 推理阻断:模型可以读取文本,但在语义解释过程中无法识别其有害意图。

基准测试分类与技术构成

基准测试涵盖以下论文级别的技术:

攻击路径 技术 样本数量
感知盲区 微小文本 200
感知盲区 遮挡文本 200
感知盲区 低对比度 200
感知盲区 手写风格 200
感知盲区 艺术/扭曲 200
感知盲区 AI幻觉 400
推理阻断 密集文本掩蔽 100
推理阻断 语义伪装 100
推理阻断 视觉谜题 100
总计 - 1700

说明:论文分类包含9种技术,但公开发布版本组织为10个存储子文件夹。这是因为论文级别的“AI幻觉”技术存储为两个发布子集:AIGC/01_Blended_BackgroundAIGC/02_Multi-Picture Camouflage

发布内容

  • 标注文件annotations/ 目录下包含公开发布的JSONL格式标注。
  • 代码工具
    • inference.py:用于OpenAI兼容的多模态API的推理入口点。
    • evaluation.py:用于计算ASR和TER等指标的评估脚本。
    • scripts/build_hf_dataset.py:用于导出Hugging Face数据集包的实用工具。
    • scripts/rewrite_annotations.py:用于将标注路径重写为公开发布格式的实用工具。
  • 完整图像数据:发布于Hugging Face平台:https://huggingface.co/datasets/zhihengli-casia/smugglebench

相关资源

  • 论文:https://arxiv.org/abs/2604.06950
  • 项目主页:https://zhihengli-casia.github.io/smugglebench/
  • GitHub仓库:https://github.com/zhihengli-casia/smugglebench

许可协议

本项目采用 CC BY 4.0 许可协议发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在对抗性内容安全研究领域,SMUGGLEBENCH的构建遵循了系统化的威胁建模与数据生成流程。该数据集围绕对抗性走私攻击这一新型威胁模型展开,通过精心设计的攻击路径与具体技术,生成了1700个基准实例。构建过程首先确立了感知盲区与推理阻断两条核心攻击路径,进而细化为九种纸面级别的走私技术,包括微小文本、遮挡文本、低对比度、手写风格、艺术扭曲、AI幻觉、密集文本掩码、语义伪装及视觉谜题。数据生成融合了自动化脚本与人工筛选,确保每个实例在视觉上对人类可读,却对多模态大模型的感知或推理构成挑战,从而为评估内容审核系统的鲁棒性提供了结构化基准。
使用方法
研究者可通过Hugging Face平台获取SMUGGLEBENCH的完整数据与标注,数据集以图像文件与JSONL注解格式提供。使用前需配置Python环境并安装依赖库,将图像置于指定路径以匹配注解中的相对引用。评估流程依托于项目提供的推理与评估脚本,支持对OpenAI兼容的多模态API进行批量测试,计算对抗性攻击成功率等核心指标。用户可依据存储子文件夹的结构,按攻击技术与路径选择特定子集进行针对性实验,或利用内置工具重新格式化注解以适应自定义流程。该数据集的设计便于集成到现有内容审核系统的鲁棒性评估框架中,为模型安全性的量化分析提供直接支持。
背景与挑战
背景概述
随着多模态大语言模型在内容审核领域的广泛应用,其安全性与鲁棒性面临严峻考验。SMUGGLEBENCH数据集由中国科学院自动化研究所等机构的研究团队于2026年创建,旨在系统评估多模态内容审核模型在对抗性走私攻击下的脆弱性。该数据集围绕对抗性走私攻击这一新型威胁模型构建,核心研究问题在于揭示MLLMs在感知与推理阶段可能被恶意规避的机制,为提升多模态内容审核系统的防御能力提供了关键基准。
当前挑战
SMUGGLEBENCH数据集致力于解决多模态内容审核中对抗性攻击的识别难题,其挑战在于模型需同时应对感知盲区与推理阻断两类攻击路径,涵盖微小文本、视觉伪装等九种走私技术。在构建过程中,研究团队面临如何平衡攻击样本的多样性与真实性、确保人类可读性与模型盲区之间的微妙差异,以及大规模标注中语义一致性与技术可行性的协调等挑战。
常用场景
经典使用场景
在人工智能安全领域,多模态大语言模型的内容审核系统正面临新型对抗性威胁的挑战。SMUGGLEBENCH作为专门设计的基准测试集,其经典使用场景在于系统评估多模态内容审核模型在对抗性走私攻击下的鲁棒性。研究人员通过该数据集能够全面测试模型在感知盲区与推理阻断两种攻击路径下的防御能力,涵盖微小文本、遮挡文字、低对比度等九种具体攻击技术,为模型安全评估提供了标准化测试环境。
解决学术问题
该数据集有效解决了多模态内容安全领域的关键学术问题,即如何量化评估模型对隐蔽性对抗攻击的抵御能力。传统对抗攻击研究多集中于单模态场景或显式攻击,而SMUGGLEBENCH首次系统构建了人类可读但模型难辨的视觉攻击范式,填补了多模态对抗鲁棒性评估的空白。其意义在于建立了可复现的攻击分类体系,推动了内容审核安全从被动防御向主动测试的范式转变,为后续防御机制研究奠定了实证基础。
实际应用
在实际应用层面,SMUGGLEBENCH为社交媒体平台、内容审核服务商及AI安全团队提供了至关重要的测试工具。平台开发者可利用该数据集对部署的多模态审核系统进行压力测试,识别模型在真实场景中可能被规避的薄弱环节。特别是在处理用户生成内容时,该基准能帮助发现那些通过视觉伪装传播有害信息的潜在漏洞,从而指导开发更鲁棒的审核算法,保障数字空间的清朗环境。
数据集最近研究
最新研究方向
在人工智能安全领域,多模态大语言模型的内容审核机制正面临新型对抗性攻击的严峻挑战。SMUGGLEBENCH数据集聚焦于对抗性走私攻击这一前沿威胁模型,通过构建包含1700个样本的基准测试,系统评估模型在感知盲区与推理阻断两类攻击路径下的脆弱性。该研究揭示了恶意内容如何借助微小文本、视觉伪装等九种技术,以人类可读但模型难辨的形式绕过审核,相关成果已发表于ACL 2026,为提升多模态系统的安全鲁棒性提供了关键实证基础,并推动了对抗样本防御技术在内容治理场景中的深化应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作