imagenet_safety_annotated

Hugging Face2024-07-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AIML-TUDA/imagenet_safety_annotated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于ImageNet的安全标注集，使用LlavaGuard-13B模型进行标注。标注内容包括安全类别（image-category）、解释（assessment）和安全评级（decision），以及ImageNet的唯一ID（class_sampleId）。这些标注允许用户在训练模型时只使用符合安全标准的数据，并可以根据需要自定义安全标准，例如排除需要审查的图像或特定类别的图像。数据集主要用于研究目的，不应用于恶意用途。

创建时间：

2024-07-11

原始信息汇总

数据集概述

基本信息

大小类别: 1M<n<10M
标签: vision
数据集: imagenet-1k

描述

该数据集是一个针对ImageNet的安全标注集，使用LlavaGuard-13B模型进行标注。标注内容包括：

安全类别 (image-category)
解释 (assessment)
安全评级 (decision)
唯一的ImageNet ID (class_sampleId)，例如 n04542943_1754

这些标注允许用户仅在安全对齐的数据上训练模型，并可根据需要定义安全对齐的含义，例如丢弃所有decision=="Review Needed"的图像或丢弃所有category=="O2: Violence, Harm or Cruelty"的图像，无视安全评分或负面的安全评级。

使用示例

用户可以使用以下代码过滤不安全的图像： Python3 import pandas as pd

df = pd.read_csv("safety_annot.csv", index_col=0)

过滤所有不安全的图像

safety_filtered_subset = df[df["decision"]=="Compliant"]

过滤整个类别，无视安全类别

safety_filtered_subset = df[df["image-category"]!="O3: Sexual Content"]

过滤特定类别的不安全图像

safety_filtered_subset = df[(df["image-category"]!="O3: Sexual Content") | (df["decision"]=="Compliant")]

引用

如果使用或发现该数据集有用，请引用并分享我们的工作： bibtex @incollection{helff2024llavaguard, author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }, title = { LLAVAGUARD: VLM-based Safeguard for Vision Dataset Curation and Safety Assessment }, booktitle = { Working Notes of the CVPR 2024 Workshop on Responsible Generative AI (ReGenAI) }, year = { 2024 }, }

搜集汇总

数据集介绍

构建方式

imagenet_safety_annotated数据集是基于ImageNet-1k数据集构建的安全注释集，采用了LlavaGuard-13B模型进行标注。该数据集为每张图像提供了安全类别（image-category）、解释（assessment）以及安全评分（decision），并包含了ImageNet的唯一标识符class_sampleId。通过这种方式，数据集能够帮助研究人员筛选出符合安全标准的数据，从而为模型训练提供更为安全的数据基础。

特点

该数据集的特点在于其详细的安全注释信息，涵盖了图像的安全类别、解释和安全评分。这些注释信息不仅能够帮助研究人员快速识别和过滤不安全的数据，还允许用户根据具体任务需求自定义安全标准。例如，用户可以选择忽略所有标记为“需要审查”的图像，或排除特定类别的图像，如“暴力、伤害或残忍”类别的图像。这种灵活性使得数据集能够广泛应用于各种安全相关的视觉任务中。

使用方法

使用imagenet_safety_annotated数据集时，研究人员可以通过简单的代码操作对数据进行过滤。例如，使用Pandas库读取CSV文件后，可以根据安全评分或安全类别筛选出符合要求的数据子集。这种方法不仅操作简便，还能有效去除不符合安全标准的图像，确保模型训练数据的纯净性。此外，数据集的使用应遵循研究目的，避免恶意使用。

背景与挑战

背景概述

imagenet_safety_annotated数据集是基于ImageNet-1k数据集构建的安全注释集，旨在为计算机视觉领域的研究提供安全对齐的数据支持。该数据集由Lukas Helff等研究人员于2024年发布，主要依托LlavaGuard-13B模型进行注释生成。其核心研究问题在于如何通过自动化手段对大规模图像数据集进行安全评估与过滤，以应对日益增长的多模态模型安全需求。该数据集不仅为研究人员提供了安全分类、解释和安全评级的详细注释，还允许用户根据具体任务需求自定义安全标准，从而在模型训练中排除潜在的不安全数据。这一创新为计算机视觉领域的安全研究开辟了新的方向，并对多模态模型的安全评估与治理产生了深远影响。

当前挑战

imagenet_safety_annotated数据集在解决图像数据安全评估问题时面临多重挑战。首先，图像内容的安全界定具有高度主观性，不同文化背景和伦理标准可能导致对同一图像的不同解读，这对自动化安全评估模型的泛化能力提出了极高要求。其次，构建过程中，如何确保LlavaGuard-13B模型在多样化的图像类别中保持一致的评估标准，同时避免误判或漏判，是一个技术难点。此外，数据集的规模庞大（1M<n<10M），如何在保证注释质量的同时高效处理海量数据，也对计算资源和算法优化提出了挑战。最后，数据集的动态更新与维护，以应对新兴安全威胁和伦理问题，也是未来需要持续关注的方向。

常用场景

经典使用场景

在计算机视觉领域，imagenet_safety_annotated数据集主要用于筛选和分类ImageNet中的图像，以确保数据的安全性和适用性。通过使用LlavaGuard-13B模型进行安全标注，研究人员可以有效地识别和过滤出包含暴力、性内容等不安全类别的图像，从而为模型训练提供更安全、更可靠的数据基础。

实际应用

在实际应用中，imagenet_safety_annotated数据集被广泛用于图像识别、内容审核和社交媒体过滤等场景。例如，社交媒体平台可以利用该数据集自动检测和屏蔽不适宜的内容，确保用户浏览体验的安全性和舒适性。此外，该数据集还可用于教育领域，帮助筛选适合学生使用的图像资源。

衍生相关工作

基于imagenet_safety_annotated数据集，研究人员开发了多种安全过滤和内容审核工具。例如，LLAVAGUARD模型不仅用于该数据集的标注，还被应用于其他多模态数据集的安全评估。此外，该数据集还启发了更多关于图像安全性和伦理合规性的研究，推动了计算机视觉领域的健康发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集