EVADE-Bench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/koenshen/EVADE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

EVADE是一个面向电子商务应用中隐蔽内容检测的多模态基准数据集，包含13961张图片和2833条文本信息。它旨在为文本分类、问题回答和零样本分类等任务提供支持，并包含多个字段，如样本唯一标识符、内容类型、任务提示、选项、图像和文本信息以及附加信息。该数据集仅限于非商业性学术研究使用，并要求用户遵守相关隐私权和法律法规。

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

在电子商务内容安全研究领域，EVADE-Bench通过专家标注构建了多模态基准数据集。该数据集涵盖六大高风险商品类别，包括塑身产品与增高保健等，通过人工筛选与专业标注相结合的方式，收集了13,961张图像与2,833条文本样本。构建过程中采用双任务框架设计，既包含针对细粒度推理的单一风险任务，也设置了融合多重政策规则的全能任务，确保数据在语义模糊性与政策规避特性上的专业表征。

特点

作为首个专注于中文电子商务场景的规避内容检测基准，EVADE-Bench展现出鲜明的多模态特性。数据集同时包含图像与文本两种模态，其中图像样本通过视觉语义传递规避信息，文本样本则运用隐喻表达与谐音替换等语言策略。其任务设计独具匠心，通过对比单一风险与全能任务的性能差异，揭示了模型在长上下文推理与精细规则理解方面的能力边界，为研究多模态模型的语义理解盲区提供了重要窗口。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用预设的图像与文本分割进行模型评估。针对单一风险任务，可使用single_risk_question字段的提示词与对应选项进行细粒度推理测试；对于全能任务，则可通过all_in_one_detail_question实现长上下文策略验证。数据集提供的训练测试分割支持模型微调与基准测试，特别适合用于探究多模态模型在复杂商业场景中的鲁棒性表现与改进策略。

背景与挑战

背景概述

随着电子商务平台对内容安全需求的日益增长，EVADE-Bench数据集应运而生，成为首个针对中文多模态规避内容检测的专家标注基准。该数据集由研究团队于2025年构建，聚焦于大语言模型与视觉语言模型在电商场景中的脆弱性，专门涵盖形体塑造、身高增长及健康补充剂等六大高风险商品类别。其核心研究问题在于揭示模型对表面合规却隐含违规信息的文本与图像的识别盲区，通过设计单一风险与全场景推理双任务框架，为内容审核系统的可靠性评估提供了重要范式。

当前挑战

在规避内容检测领域，模型需应对隐喻表达、谐音替换等语义迂回策略，以及视觉文本识别中的光学字符解析瓶颈。数据集构建过程中，专家标注面临多模态数据对齐的复杂性，需平衡图像隐含信息与文本歧义性标注的一致性。同时，长上下文推理任务要求融合分散的政策规则，而样本跨模态表征的异构性进一步增加了质量控制的难度。

常用场景

经典使用场景

在电子商务内容安全领域，EVADE-Bench作为首个中文多模态基准数据集，专门用于评估大语言模型和视觉语言模型对规避性内容的检测能力。该数据集通过单一风险任务和一体化任务两种评估框架，系统测试模型在细粒度推理和长上下文理解中的表现，涵盖身体塑形、身高增长等六大高风险商品类别，为模型鲁棒性研究提供标准化测试环境。

实际应用

在电子商务平台的内容审核系统中，EVADE-Bench可直接应用于提升违规商品检测的精准度。其多模态特性支持对图文混合违规内容的识别，如通过OCR技术解析图像中的规避性文字，或识别经过视觉伪装的违禁商品。基于检索增强生成的技术路径更展现出在长上下文场景中强化模型决策能力的应用潜力。

衍生相关工作

该数据集催生了多模态推理领域的系列创新研究，包括基于检索增强生成的上下文优化方法，以及针对谐音变异和隐喻理解的专项检测模型。其构建的26个主流模型基准测试体系，为后续研究提供了可复现的评估标准，推动了视觉语言模型在语义连贯性和跨模态对齐方面的算法演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集