harmful-contents
收藏有害内容数据集(Harmful-Contents Dataset)概述
数据集基本信息
- 数据集名称:harmful-contents
- 主要任务:图像分类、多标签分类
- 任务类别:图像分类
- 语言:英语
- 数据规模:1K<n<10K
- 注释创建者:专家生成
- 数据来源:原始
- 许可证:其他(research-and-non-commercial-use)
- 许可证链接:https://huggingface.co/datasets/onullusoy/harmful-contents
数据集描述
这是一个用于有害内容分类的多标签图像数据集,涵盖八个与PEGI(泛欧游戏信息组织)标准对齐的类别。数据集包含5,153张已获得使用权的图像,划分为训练集、验证集和测试集,并标注了二进制标签和用于受控负采样的掩码字段。
数据集结构
数据集文件结构如下:
Harmful-Contents/ csv/ train.csv val.csv test.csv data/ train/.jpg val/.jpg test/*.jpg
每个CSV文件包含以下列:
namealcohol,drugs,weapons,gambling,nudity,sexy,smoking,violencemask_alcohol,mask_drugs,mask_weapons,mask_gambling,mask_nudity,mask_sexy,mask_smoking,mask_violence
图像存储在data/{train,val,test}/目录下,通过名称引用。
分类类别
| 类别 | 不安全示例 | 安全示例 |
|---|---|---|
| alcohol | 酒精瓶/酒杯、酒精品牌标志 | 空杯子、非酒精饮料 |
| drugs | 大麻、可卡因、药丸、吸毒用具 | 非处方药、中性植物 |
| weapons | 枪支、战斗/攻击刀具、爆炸物 | 厨房刀具、水果刀、玩具道具 |
| gambling | 赌场、老虎机、赌博筹码/硬币 | 金钱、三叶草、普通扑克牌 |
| nudity | 裸体、明确的性行为、色情内容 | 非明确的部分着装人物 |
| sexy | 内衣/内裤、性感姿势 | 运动服、非性感服装 |
| smoking | 香烟、雪茄、正在吸烟 | 类似香烟的物体、与吸烟无关的蒸汽/烟雾 |
| violence | 血液、打斗、可见的伤害、攻击行为 | 红色液体、非暴力人群、拥抱 |
基础来源
该数据集主要使用SIMAS集合(恶意注释集的垃圾邮件图像)作为初始种子构建:https://zenodo.org/records/15423637。为了改善类别平衡,添加了额外的已获使用权图像,最终形成了相关论文中描述的5,153张图像的数据集。
使用Hugging Face datasets加载
python from datasets import load_dataset, Image
data_files = { "train": "csv/train.csv", "validation": "csv/val.csv", "test": "csv/test.csv", }
ds = load_dataset("csv", data_files=data_files)
def add_path(example, split): return {"image_path": f"data/{split}/{example[name]}"}
for split in ["train", "validation", "test"]: ds[split] = ds[split].map(lambda x, idx, s=split: add_path(x, s), with_indices=True) ds[split] = ds[split].cast_column("image_path", Image())
许可证信息
图像已获得使用权,可用于研究和非商业用途。商业用途需要独立验证使用权。
引用
如果使用该数据集,请引用:
Ulusoy, O.
Evaluating and Fine-Tuning Vision Models for Keyword-Driven Content Filtering.
Bachelor Thesis, Flensburg University of Applied Sciences, 2025.




