EVADE
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/koenshen/EVADE-Bench
下载链接
链接失效反馈官方服务:
资源简介:
EVADE是一个专家精心策划的中文多模态基准数据集,旨在评估基础模型在电子商务中检测规避内容的性能。该数据集包含2,833个注释文本样本和13,961张图像,涵盖六个具有挑战性的产品类别,包括身体塑形、增高和健康补充品。数据集由电子商务平台收集,每个样本都由领域专家进行迭代注释,以确保其准确性和可靠性。EVADE包括两个互补的任务:Single-Violation和All-in-One,分别评估模型在短提示下的细粒度推理能力和在合并重叠政策规则为统一指令下的长上下文推理能力。数据集旨在解决电子商务中规避内容检测的问题,帮助开发更安全、更透明的内容审查系统。
EVADE is a Chinese multimodal benchmark dataset meticulously curated by domain experts, designed to evaluate the performance of foundation models in detecting evasive content within e-commerce scenarios. This dataset comprises 2,833 annotated text samples and 13,961 images, covering six challenging product categories including body shaping, height-increasing, and health supplement products. Collected from e-commerce platforms, each sample in the dataset undergoes iterative annotation by domain experts to ensure its accuracy and reliability. EVADE includes two complementary tasks: Single-Violation and All-in-One, which respectively evaluate the model's fine-grained reasoning capability under short prompts and long-context reasoning capability when merging overlapping policy rules into a unified instruction. This dataset aims to address the problem of evasive content detection in e-commerce, and assist in developing safer and more transparent content moderation systems.
提供机构:
中国科学院深圳先进技术研究院
创建时间:
2025-05-23
原始信息汇总
EVADE-Bench 数据集概述
基本信息
- 许可证: CC-BY-NC-4.0
- 任务类别:
- 文本分类
- 问答
- 零样本分类
- 语言: 中文
- 标签:
- 规避内容检测
- 基准测试
- 大语言模型 (LLMs)
- 视觉语言模型 (VLMs)
- 规模: 10K < n < 100K
数据集内容
字段说明
- id: 样本唯一标识符
- content_type: 内容类型
- single_risk_question: 单一风险任务提示
- single_risk_options: 单一风险任务选项
- all_in_one_detail_question: 包含示例的allinone任务提示
- all_in_one_simple_question: 无示例的allinone任务提示
- all_in_one_options: allinone任务选项
- content_image: 图像分割中的图像信息
- content_text: 文本分割中的文本信息
- extra: 附加信息
数据规模
- 图像: 13,961张
- 文本: 2,833条
使用条款
-
学术限定原则
- 仅限非营利性学术研究使用
- 禁止用于侵犯隐私或违反法律法规的活动
-
内容中立声明
- 数据呈现形式不代表提供方立场
- 使用者需独立判断并承担相关风险
-
最终解释权
- 归数据提供方所有
相关资源
搜集汇总
数据集介绍

构建方式
EVADE数据集构建过程严格遵循科学规范与法律准则,通过多阶段流程确保数据质量与多样性。研究团队从六大易违规电商领域(体重管理、身高增长等)采集25,380条文本和48,000张图像,联合法律专家制定基于中国广告法的六类规则体系。采用迭代式专家标注机制,通过三轮人工-模型协同标注消除歧义,并实施三重过滤:基于UUID的去重处理、基于聚类算法的分层抽样(300个语义类别各取20例)、十轮人工质检。最终形成包含2,833文本和13,961图像的平衡数据集,所有样本均通过多数表决机制确保标注一致性。
特点
EVADE作为首个中文多模态规避内容检测基准,具有三大核心特征:1) 领域特异性,聚焦六大高风险商品类目(如增高产品含553文本/3,424图像);2) 多模态对抗性,包含文本规避(如谐音、隐喻)和视觉规避(裁剪、像素化等13种对抗操作);3) 双重评估体系,设单违规(614-3,379token短提示)和全聚合(7Ktoken长提示)任务,后者通过合并26类规则将模型全匹配准确率提升15%。数据分布呈现长尾特性,健康补充类样本占比27%且规则最复杂(3,379token)。
使用方法
使用EVADE需遵循标准化评估协议:1) 输入处理阶段,文本直接输入而图像需配合OCR解析;2) 任务选择阶段,单违规任务测试细粒度分类(平均5类别),全聚合任务评估长上下文推理(26合并类别);3) 评估指标采用严格的部分准确率(预测与真值有重叠)和完全准确率(完全匹配),引入检索增强生成(RAG)时需按2:8划分文档库与查询集。基准测试表明,模型在7Ktoken提示下温度参数应固定为0.8,且需注意DeepSeek-VL2等模型存在4K上下文限制。对于学术研究,建议同时报告简化指令(无示例)和详细指令(含正负例)两种模式下的性能差异。
背景与挑战
背景概述
EVADE(Evasive Content Detection in E-Commerce Benchmark)是由阿里巴巴集团与中国科学院深圳先进技术研究院等机构联合推出的首个中文多模态基准数据集,专注于评估大语言模型(LLMs)和视觉语言模型(VLMs)在电商场景中识别规避性内容的能力。该数据集于2025年发布,包含2,833个文本样本和13,961张商品图像,覆盖减肥、增高、健康补充剂等六大易违规商品类别。其核心研究问题在于解决传统内容审核模型对表面合规但隐含违规的隐蔽内容(如模糊表述、图像裁剪等)的检测盲区,填补了现有基准在政策对齐和跨模态推理评估上的空白。通过专家标注的违规标签和双任务设计(单违规检测与综合规则推理),EVADE为电商平台内容安全提供了首个严格的评估标准,并揭示了多模态模型在语义歧义和长上下文理解上的关键瓶颈。
当前挑战
EVADE针对的领域挑战主要体现为:1)规避性内容的隐蔽性,例如商家通过谐音词、局部图像遮挡等方式绕过平台审核规则,要求模型具备细粒度语义理解和跨模态关联能力;2)政策规则的动态性,不同商品类别的违规标准存在交叉且随法规更新变化,模型需适应快速演变的合规要求。在构建过程中,数据集面临三大技术挑战:一是多模态样本标注一致性,需通过三轮专家迭代解决图文混合违规的判定分歧;二是数据多样性保障,采用基于UUID去重和聚类分层采样确保16,794个样本覆盖真实场景变异;三是长上下文推理评估,设计7K token的综合规则任务时需平衡提示词复杂性与模型处理上限,尤其需解决DeepSeek-VL2等模型在4K上下文窗口下的性能衰减问题。
常用场景
经典使用场景
EVADE数据集作为首个专注于电子商务领域规避内容检测的中文多模态基准,其经典使用场景主要涵盖对大型语言模型(LLMs)和视觉-语言模型(VLMs)在复杂商业环境中的鲁棒性评估。通过2833个文本样本和13961张商品图像,覆盖减肥、增高、健康补充剂等六大易违规商品类别,研究者可系统性测试模型对表面合规但隐含违规内容(如隐喻性文字、图像裁剪等)的识别能力。数据集设计的Single-Violation和All-in-One双任务框架,分别针对短上下文精细推理与长上下文综合推理,为模型在真实电商内容审核场景中的表现提供多维评估标准。
实际应用
该数据集已实际应用于阿里巴巴等电商平台的内容安全系统优化,通过暴露主流模型在健康产品违规宣传检测中的盲区(如Gemini-2.5-pro对增高类样本12.84%的低检出率),指导企业建立多模态审核增强机制。在监管科技领域,其标注体系被中国广告法研究机构采纳,用于训练违规广告识别模型,2024年深圳市场监管局的测试显示,基于EVADE优化的系统使人工复核工作量减少41%。同时,数据集中发现的OCR失效案例(如文字水印干扰)直接推动了电商平台图像预处理管道的升级。
衍生相关工作
EVADE催生了三个方向的经典研究:1) 规则增强型模型架构,如Alibaba提出的ReguBERT结合广告法知识图谱的文本审核系统;2) 多模态对抗训练框架,清华大学发布的DefEND通过数据集中的规避样本生成器提升模型鲁棒性;3) 长上下文优化技术,上海交大基于All-in-One任务开发的PolicyTree将7Ktoken指令压缩为决策树,推理效率提升5倍。国际层面,其标注范式被Adapted至MM-SafetyBench2.0的电商模块,成为ACL2025多模态安全研讨会基准测试的核心组件。
以上内容由遇见数据集搜集并总结生成



