harmful-contents

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/onullusoy/harmful-contents

下载链接

链接失效反馈

官方服务：

资源简介：

Harmful-Contents 是一个用于有害内容分类的多标签图像数据集，包含 5,153 张经过版权清理的图像，分为训练集、验证集和测试集。数据集涵盖八个与 PEGI 标准对齐的类别：酒精、毒品、武器、赌博、裸体、性感内容、吸烟和暴力。每张图像都标注了二进制标签和掩码字段，以支持受控的负采样。数据集基于 SIMAS 集合构建，并添加了额外图像以改善类别平衡。该数据集适用于计算机视觉领域的内容审核任务，特别适合用于训练和评估多标签分类模型。数据集仅供研究和非商业用途，商业使用需独立验证版权。

Harmful-Contents is a multi-label image dataset for harmful content classification, consisting of 5,153 copyright-cleared images split into training, validation, and test sets. The dataset covers eight categories aligned with the PEGI rating standard: alcohol, drugs, weapons, gambling, nudity, sexually explicit content, smoking, and violence. Each image is annotated with binary labels and mask fields to support controlled negative sampling. Built upon the SIMAS collection, the dataset incorporates additional images to improve category balance. It is applicable to content moderation tasks in the field of computer vision, and is particularly suitable for training and evaluating multi-label classification models. The dataset is for research and non-commercial use only; commercial use requires independent copyright verification.

创建时间：

2026-02-13

原始信息汇总

有害内容数据集（Harmful-Contents Dataset）概述

数据集基本信息

数据集名称：harmful-contents
主要任务：图像分类、多标签分类
任务类别：图像分类
语言：英语
数据规模：1K<n<10K
注释创建者：专家生成
数据来源：原始
许可证：其他（research-and-non-commercial-use）
许可证链接：https://huggingface.co/datasets/onullusoy/harmful-contents

数据集描述

这是一个用于有害内容分类的多标签图像数据集，涵盖八个与PEGI（泛欧游戏信息组织）标准对齐的类别。数据集包含5,153张已获得使用权的图像，划分为训练集、验证集和测试集，并标注了二进制标签和用于受控负采样的掩码字段。

数据集结构

数据集文件结构如下：

Harmful-Contents/ csv/ train.csv val.csv test.csv data/ train/.jpg val/.jpg test/*.jpg

每个CSV文件包含以下列：

name
alcohol, drugs, weapons, gambling, nudity, sexy, smoking, violence
mask_alcohol, mask_drugs, mask_weapons, mask_gambling, mask_nudity, mask_sexy, mask_smoking, mask_violence

图像存储在data/{train,val,test}/目录下，通过名称引用。

分类类别

类别	不安全示例	安全示例
alcohol	酒精瓶/酒杯、酒精品牌标志	空杯子、非酒精饮料
drugs	大麻、可卡因、药丸、吸毒用具	非处方药、中性植物
weapons	枪支、战斗/攻击刀具、爆炸物	厨房刀具、水果刀、玩具道具
gambling	赌场、老虎机、赌博筹码/硬币	金钱、三叶草、普通扑克牌
nudity	裸体、明确的性行为、色情内容	非明确的部分着装人物
sexy	内衣/内裤、性感姿势	运动服、非性感服装
smoking	香烟、雪茄、正在吸烟	类似香烟的物体、与吸烟无关的蒸汽/烟雾
violence	血液、打斗、可见的伤害、攻击行为	红色液体、非暴力人群、拥抱

基础来源

该数据集主要使用SIMAS集合（恶意注释集的垃圾邮件图像）作为初始种子构建：https://zenodo.org/records/15423637。为了改善类别平衡，添加了额外的已获使用权图像，最终形成了相关论文中描述的5,153张图像的数据集。

使用Hugging Face `datasets`加载

python from datasets import load_dataset, Image

data_files = { "train": "csv/train.csv", "validation": "csv/val.csv", "test": "csv/test.csv", }

ds = load_dataset("csv", data_files=data_files)

def add_path(example, split): return {"image_path": f"data/{split}/{example[name]}"}

for split in ["train", "validation", "test"]: ds[split] = ds[split].map(lambda x, idx, s=split: add_path(x, s), with_indices=True) ds[split] = ds[split].cast_column("image_path", Image())

许可证信息

图像已获得使用权，可用于研究和非商业用途。商业用途需要独立验证使用权。

引用

如果使用该数据集，请引用： Ulusoy, O.
Evaluating and Fine-Tuning Vision Models for Keyword-Driven Content Filtering.
Bachelor Thesis, Flensburg University of Applied Sciences, 2025.

搜集汇总

数据集介绍

构建方式

在数字内容安全领域，harmful-contents数据集以系统性方法构建而成。其核心源于SIMAS（恶意标注垃圾图像集）作为初始种子，随后通过引入额外经权利清理的图像以优化类别平衡，最终形成包含5,153张图像的多标签数据集。所有图像均依据PEGI标准划分为八个有害内容类别，并采用专家标注方式，为每张图像提供了二进制标签及掩码字段，以支持受控的负采样过程。

特点

该数据集在内容审核研究领域展现出显著特点。它涵盖了酒精、毒品、武器、赌博、裸露、性感、吸烟和暴力八个明确类别，每个类别均配有详细的安全与不安全示例说明，增强了标注的清晰度与实用性。数据集不仅提供多标签分类任务所需的二进制标注，还创新性地引入了掩码字段，使研究者能够精确控制负样本的选择，从而提升模型训练的鲁棒性与泛化能力。

使用方法

为便于学术研究，该数据集已整合至Hugging Face平台。使用者可通过`datasets`库直接加载CSV文件，并利用映射函数将图像路径与标注数据关联，最终将图像列转换为可处理的图像格式。数据集已预先划分为训练集、验证集和测试集，支持研究者快速开展多标签图像分类模型的训练、评估与微调工作，但需注意其仅限研究与非商业用途。

背景与挑战

背景概述

在数字内容审核领域，随着在线平台用户生成内容的爆炸式增长，自动识别有害视觉信息已成为计算机视觉研究的关键课题。Harmful-Contents数据集由弗伦斯堡应用科学大学的O. Ulusoy于2025年在其学士论文中创建，旨在为多标签图像分类提供标准化的评估基准。该数据集以欧洲游戏信息组织（PEGI）的分类标准为参照，涵盖了酒精、毒品、武器、赌博、裸露、性感、吸烟和暴力八个核心类别，共包含5,153张经过版权清理的图像。其构建基于SIMAS（恶意标注垃圾图像集）种子数据，并通过补充图像优化了类别平衡，为研究社区提供了首个专注于PEGI对齐有害内容分类的专用资源，推动了内容过滤模型在细粒度多标签识别方向的发展。

当前挑战

该数据集致力于解决图像内容审核中多标签有害内容分类的挑战，其核心难点在于如何准确识别并区分视觉上相似但语义不同的类别，例如将暴力场景与无害的红色液体或普通刀具与攻击性武器进行可靠区分。在构建过程中，研究者面临的主要挑战包括获取大规模、版权清晰的图像数据以覆盖所有敏感类别，同时确保标注的一致性与专业性。此外，由于某些有害类别（如毒品或赌博）在公开数据中较为稀缺，实现各类别间的平衡分布成为另一项艰巨任务，这要求通过精心设计的负采样掩码字段来增强数据集的代表性与训练稳定性。

常用场景

经典使用场景

在数字内容安全领域，Harmful-Contents数据集为多标签图像分类任务提供了标准化评估基准。该数据集广泛应用于训练和验证视觉模型，以识别图像中八类潜在有害内容，如酒精、毒品、武器等。研究者利用其精细标注的二元标签和掩码字段，能够系统评估模型在复杂场景下的分类性能，尤其在处理多标签共存或细微语义差异时，数据集的结构化设计确保了实验的可重复性和结果的可比性。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于多标签视觉Transformer的细粒度分类模型、结合掩码机制的负样本增强算法，以及跨域内容安全迁移学习框架。这些工作不仅深化了对有害内容语义表征的理解，还推动了轻量化审核模型的部署实践。相关成果常见于计算机视觉顶会论文，持续丰富着内容安全领域的技术图谱。

数据集最近研究