HatefulIllusion_Dataset

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/yiting/HatefulIllusion_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions》(ICCV 2025)，包含2160个由AI生成的有害光学幻觉图像，这些图像隐藏了三种类型的消息：数字（10条消息，300个图像）、仇恨俚语（23条消息，690个图像）和仇恨符号（39条消息，1170个图像）。每个图像都经过研究团队的仔细注释，分为不可见（0）、低可见性（1）和高可见性（2）三个类别。数据集的结构包括图像路径、条件图像路径、消息文本、生成提示和可见性评分。

This dataset is presented in the paper *Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions* (ICCV 2025). It contains 2160 AI-generated harmful optical illusion images that hide three types of messages: numbers (10 messages, 300 images), hate slurs (23 messages, 690 images), and hate symbols (39 messages, 1170 images). Each image has been meticulously annotated by the research team and categorized into three visibility levels: invisible (0), low visibility (1), and high visibility (2). The dataset structure includes image path, conditional image path, message text, generation prompt, and visibility score.

创建时间：

2025-12-05

原始信息汇总

HatefulIllusion_Dataset 数据集概述

数据集基本信息

数据集名称: HatefulIllusion_Dataset
发布者/维护者: yiting
许可证: MIT
标签: Hateful, Unsafe, AI-generated, Optical_Illusions
数据集卡片联系人: yiting.qu@cispa.de

数据集来源与目的

本数据集生成并用于论文: Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions (ICCV 2025)
论文链接: https://arxiv.org/pdf/2507.22617
重要声明: 本数据集包含有害内容，仅可用于研究或教育目的。

数据集内容与规模

数据集包含 2,160 张（仇恨性）AI生成的光学错觉图像，这些图像隐藏了三种类型的消息：
1. digits (数字): 10条消息，300张AI生成的错觉图像。
2. hate slangs (仇恨俚语/仇恨言论): 23条消息，690张AI生成的错觉图像。
3. hate symbols (仇恨符号): 39条消息，1,170张AI生成的错觉图像。
每张图像均由研究团队仔细标注为以下三个可见性类别之一：
- 无可见性 (0): 隐藏信息完全不可见。
- 低可见性 (1): 隐藏信息隐约可见。
- 高可见性 (2): 隐藏信息清晰易见。

数据集结构

数据集包含三个配置（子集），通过 config_name 指定：

digits (默认配置): 数据文件位于 digits/metadata.jsonl
hate_slangs: 数据文件位于 hate_slangs/metadata.jsonl
hate_symbols: 数据文件位于 hate_symbols/metadata.jsonl

数据字段说明

每个数据样本包含以下字段：

字段名	类型	描述
image	`string`	主光学错觉图像文件的相对路径（例如：`"images/img_001.png"`）。
condition_image	`string`	辅助条件图像文件的相对路径（例如：`"messages/cond_001.png"`）。
message	`string`	描述嵌入目标概念（数字、俚语、符号等）的文本。
prompt	`string`	用于生成光学错觉的提示词。
visibility	`int` (0,1,2)	表示隐藏内容可检测程度的可见性分数。0->无可见性；1->低可见性；2->高可见性。

使用方法

加载数据集的示例代码如下： python from datasets import load_dataset from huggingface_hub import snapshot_download

repo_id = "yiting/HatefulIllusion_Dataset" local_dir = "data/HatefulIllusion_Dataset"

snapshot_download(repo_id, repo_type="dataset", local_dir=local_dir)

subset = "digits" # 可替换为 "hate_slangs" 或 "hate_symbols" dataset = load_dataset(local_dir, subset)["train"] print(dataset[0])

引用信息

如需引用本数据集，请使用以下BibTeX格式：

@inproceedings{QYMBZ25, author = {Yiting Qu and Ziqing Yang and Yihan Ma and Michael Backes and Yang Zhang}, title = {{Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions}}, booktitle = {{IEEE International Conference on Computer Vision (ICCV)}}, publisher = {ICCV}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在数字媒体与人工智能生成内容的研究领域，HatefulIllusion_Dataset的构建聚焦于探索隐蔽有害信息的视觉表现形式。该数据集通过精心设计的提示词，利用生成式人工智能技术创作了2160幅光学幻觉图像，这些图像中嵌入了三类潜在有害信息：数字、仇恨言论俚语以及仇恨符号。每幅图像均由研究团队进行细致的标注，依据隐藏信息的可见程度划分为“不可见”、“低可见性”和“高可见性”三个等级，从而为后续的检测与审核研究提供了结构化的基准数据。

特点

该数据集的核心特征在于其独特的双重属性：一方面，它呈现为一系列复杂而精巧的光学幻觉图像，具有视觉上的迷惑性；另一方面，这些图像中系统地嵌入了具有社会危害性的数字、俚语或符号信息。数据集按照信息类型划分为三个独立的子集，每个子集包含不同数量的样本，并配备了详尽的元数据，如生成提示词、条件图像路径及人工标注的可见性分数。这种设计使得数据集不仅能够用于评估内容审核系统对隐蔽有害信息的识别能力，也为研究幻觉生成技术与信息隐蔽性的关系提供了宝贵资源。

使用方法

研究人员可通过Hugging Face平台获取该数据集，并利用`datasets`库进行加载。使用前需明确其仅限用于研究或教育目的，并需妥善处理其中包含的有害内容。加载时，用户需指定目标子集（如`digits`、`hate_slangs`或`hate_symbols`），随后即可访问包含图像路径、提示词、隐藏信息文本及可见性标签的结构化数据。通过结合图像处理库（如PIL），研究者可以直观查看幻觉图像，进而开展关于AI生成内容安全、隐蔽信息检测或计算机视觉模型鲁棒性等方面的实证分析。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，AI生成内容的安全性与伦理问题日益凸显。HatefulIllusion_Dataset由Yiting Qu、Ziqing Yang等研究人员于2025年构建，并在ICCV会议上发表相关研究。该数据集聚焦于AI生成的光学幻觉图像中隐藏的仇恨内容，涵盖数字、仇恨俚语及仇恨符号三类信息，旨在揭示生成式模型可能被滥用于创建隐蔽有害内容的潜在风险。其核心研究问题在于探索如何有效检测与防范这类视觉欺骗性内容，为内容审核与人工智能安全领域提供了重要的实证基础。

当前挑战

该数据集致力于应对AI生成仇恨内容检测这一新兴领域的关键挑战。具体而言，光学幻觉图像中隐藏信息的视觉隐蔽性构成了首要难题，模型需在保持图像表观自然的同时识别细微的语义嵌入。构建过程中，研究人员面临生成高质量且具有可控可见度幻觉图像的技术复杂性，以及为每幅图像精确标注可见性等级的标注一致性挑战。此外，数据集涉及敏感有害内容，在伦理审查与安全使用规范方面也需严谨考量。

常用场景

经典使用场景

在计算机视觉与内容安全领域，HatefulIllusion_Dataset为研究AI生成图像中的隐蔽有害内容提供了关键资源。该数据集通过2160个包含仇恨言论与符号的光学幻觉图像，构建了多模态对抗样本的评估基准。研究人员利用其标注的可见性分数，系统评估现有内容审核模型在检测隐蔽仇恨信息时的鲁棒性与盲点，从而推动视觉安全技术的演进。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究工作。例如，基于其构建的基准测试被用于评估视觉-语言模型的对抗鲁棒性；部分研究探索了生成对抗网络在创建与防御光学幻觉攻击中的作用；还有工作结合心理学实验，分析人类与机器在感知隐藏信息时的差异，推动了跨学科的内容安全解决方案发展。

数据集最近研究