imagenet_safety_annotated
收藏数据集概述
基本信息
- 大小类别: 1M<n<10M
- 标签: vision
- 数据集: imagenet-1k
描述
该数据集是一个针对ImageNet的安全标注集,使用LlavaGuard-13B模型进行标注。标注内容包括:
- 安全类别 (
image-category) - 解释 (
assessment) - 安全评级 (
decision) - 唯一的ImageNet ID (
class_sampleId),例如n04542943_1754
这些标注允许用户仅在安全对齐的数据上训练模型,并可根据需要定义安全对齐的含义,例如丢弃所有decision=="Review Needed"的图像或丢弃所有category=="O2: Violence, Harm or Cruelty"的图像,无视安全评分或负面的安全评级。
使用示例
用户可以使用以下代码过滤不安全的图像: Python3 import pandas as pd
df = pd.read_csv("safety_annot.csv", index_col=0)
过滤所有不安全的图像
safety_filtered_subset = df[df["decision"]=="Compliant"]
过滤整个类别,无视安全类别
safety_filtered_subset = df[df["image-category"]!="O3: Sexual Content"]
过滤特定类别的不安全图像
safety_filtered_subset = df[(df["image-category"]!="O3: Sexual Content") | (df["decision"]=="Compliant")]
引用
如果使用或发现该数据集有用,请引用并分享我们的工作: bibtex @incollection{helff2024llavaguard, author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }, title = { LLAVAGUARD: VLM-based Safeguard for Vision Dataset Curation and Safety Assessment }, booktitle = { Working Notes of the CVPR 2024 Workshop on Responsible Generative AI (ReGenAI) }, year = { 2024 }, }




