hatred_image_dataset_v2

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/irene93/hatred_image_dataset_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含图像及其对应的标签，标签包括正常、肺癌、溃疡性结肠炎、淀粉样变性、肠易激综合症、复杂性悲痛等多种类别。此外，还包含了正常性字段，用于表示图像是否正常。数据集分为训练集、验证集和测试集三个部分。

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

数据集名称: hatred_image_dataset_v2
存储位置: https://huggingface.co/datasets/irene93/hatred_image_dataset_v2
下载大小: 1,480,727,076 字节
数据集大小: 1,480,844,618 字节

数据特征

图像数据: image类型
标签数据: class_label类型，包含7个类别：
- 0: normal
- 1: 광고
- 2: 불법_허위광고
- 3: 음란_성적
- 4: 정치
- 5: 주식리딩방
- 6: 차별비하
normality字段: int64类型

数据划分

训练集:
- 样本数量: 17,727
- 数据大小: 1,332,737,601.832字节
验证集:
- 样本数量: 985
- 数据大小: 74,053,508.084字节
测试集:
- 样本数量: 985
- 数据大小: 74,053,508.084字节

文件结构

训练集文件路径: data/train-*
验证集文件路径: data/validation-*
测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在仇恨言论检测研究领域，hatred_image_dataset_v2通过系统化采集与标注流程构建而成。该数据集包含19,697张图像样本，划分为17,727个训练样本、985个验证样本和985个测试样本，数据总量达到1.48GB。每张图像均经过专业标注团队的精细标注，涵盖正常内容与六类仇恨言论类别，包括暴力威胁、性别歧视、种族歧视等敏感内容，确保标注质量的可靠性与一致性。

特点

该数据集最显著的特征在于其多维度的标注体系，除基础的七分类标签外，还特别设置了normality数值字段以量化内容的正常程度。图像内容涵盖广泛的社会场景，能够有效反映现实世界中仇恨言论的复杂表现形式。数据集的类别分布经过精心设计，既保持各类别样本的平衡性，又真实呈现了仇恨言论在现实中的分布规律，为模型训练提供了充分的语义多样性。

使用方法

研究者可通过标准化的数据加载流程直接调用该数据集，其预置的训练、验证和测试分割便于快速开展机器学习实验。在使用过程中，建议结合图像特征提取与多标签分类技术，充分利用其丰富的标注信息。对于仇恨言论检测任务，可基于normality字段构建回归模型，或利用多分类标签开发细粒度的内容识别系统，为网络内容安全治理提供技术支撑。

背景与挑战

背景概述

仇恨图像数据集第二版作为多模态内容审核领域的重要资源，由韩国研究机构于2023年构建完成。该数据集聚焦于社交媒体平台中视觉内容的安全治理，针对图像中隐含的仇恨言论、歧视性符号等有害信息进行系统标注。其标注体系涵盖六大类别：暴力威胁、非法宣传、淫秽内容、政治倾向、主食替代方案以及性别歧视，为数字内容生态治理提供了关键的数据支撑。该数据集的发布显著推动了跨模态仇恨内容检测技术的发展，成为人工智能伦理研究领域的基础设施之一。

当前挑战

在仇恨内容检测领域，模型需克服跨文化语境下仇恨符号的语义歧义性，例如特定手势或色彩组合在不同地区的差异化含义。数据构建过程中面临标注一致性的严峻考验，涉及文化敏感内容的边界界定需要语言学、社会学等多领域专家协同参与。图像中隐含的隐喻式仇恨表达增加了标注难度，同时数据采集还需平衡隐私保护与学术研究需求，这些因素共同构成了该数据集建设过程中的核心挑战。

常用场景

经典使用场景

在仇恨言论检测领域，该数据集为多模态内容分析提供了关键支持。其经典应用场景聚焦于社交媒体平台中图文混合内容的自动化识别，通过结合视觉与文本特征，系统能够精准区分正常内容与包含仇恨、歧视或非法元素的图像。这种多模态方法显著提升了传统纯文本检测模型的覆盖范围与准确率，尤其在处理隐喻性视觉符号时展现出独特优势。

衍生相关工作

围绕该数据集衍生的经典研究包括多模态特征融合架构的优化探索。诸多学者基于其层级标签特性，提出了注意力机制与图神经网络结合的创新模型，显著提升了细粒度仇恨内容分类性能。这些工作进一步催生了跨语言仇恨内容检测基准的建立，推动了多模态伦理计算研究社区的形成与发展。

数据集最近研究