LlavaGuard数据集

Name: LlavaGuard数据集
Creator: 达姆施塔特工业大学
Published: 2024-06-08 01:44:32
License: 暂无描述

arXiv2024-06-08 更新2024-06-21 收录

下载链接：

https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

LlavaGuard数据集是由达姆施塔特工业大学等机构创建的高质量视觉数据集，专注于安全风险评估。该数据集包含3200张经过人工标注的图像，涵盖广泛的安全分类，用于调整视觉语言模型（VLM）以识别和评估上下文相关的安全风险。数据集的创建过程涉及从Socio-Moral Image Database（SMID）和网络爬虫中收集图像，并通过人工和合成方式进行标注。LlavaGuard数据集主要应用于AI模型的数据集管理和内容审核，旨在提高AI模型在处理视觉内容时的安全性和合规性。

The LlavaGuard dataset is a high-quality visual dataset developed by institutions including Technische Universität Darmstadt, with a core focus on safety risk assessment. It contains 3,200 manually annotated images spanning a wide spectrum of safety categories, and is designed for fine-tuning Vision-Language Models (VLMs) to identify and assess contextually relevant safety risks. The dataset construction process involves collecting images from the Socio-Moral Image Database (SMID) and web-crawled sources, with annotations generated via both manual and synthetic approaches. The LlavaGuard dataset is primarily utilized for dataset management and content auditing in AI models, aiming to enhance the safety and compliance of AI systems when processing visual content.

提供机构：

达姆施塔特工业大学

创建时间：

2024-06-08

搜集汇总

数据集介绍

构建方式

在视觉语言模型安全评估领域，LlavaGuard数据集的构建体现了系统化与精细化的设计理念。该数据集以社会道德图像数据库为基础，针对其类别分布不均的问题，通过互联网爬取图像进行扩充，确保每个安全类别至少包含100张不同安全严重程度的图像。构建过程中，研究团队依据九大安全类别和两种通用安全评级进行人工标注，并进一步细分为高度不安全、中度不安全、基本安全和一般安全四个等级，以支持更细致的分析与评估。此外，数据集还引入了合成标签，利用Llava-34B模型以零样本方式生成评估依据，并通过数据增强技术（如策略例外和随机类别非违规声明）提升模型对多样化安全分类法的适应能力。最终形成的训练集包含4940个样本，实现了安全与不安全样本的均衡分布，为模型训练提供了高质量的基础。

特点

LlavaGuard数据集的核心特征在于其全面而灵活的安全分类体系与结构化输出设计。数据集基于一个涵盖九大默认安全类别（如仇恨羞辱骚扰、暴力伤害残忍、性内容、裸露内容等）的精细化分类法，每个类别均配有详细的风险指南，明确界定违规与允许的内容边界，从而支持上下文感知的安全风险评估。这种分类法不仅具有广泛的覆盖性，还能通过调整策略提示灵活适应不同场景与法规要求，体现了高度的可定制性。数据集的另一显著特点是其输出的结构化特性，要求模型生成包含安全评级、违规类别和详细依据的JSON格式评估结果，这种设计既便于自动化解析，也增强了评估过程的透明度与可解释性。此外，数据集在类别与安全评级上实现了良好平衡，并包含极端安全评级的样本，有助于模型捕捉图像安全的关键特征。

使用方法

LlavaGuard数据集主要服务于基于视觉语言模型的安全保障模型的训练与评估，其使用方法紧密围绕两大现实应用场景展开。在数据集审计方面，研究者可利用训练好的LlavaGuard模型对大规模图像数据集（如ImageNet）进行自动化安全筛查，识别并分类其中的不安全内容，生成包含具体违规类别和详细依据的安全报告，从而帮助净化训练数据并理解其潜在风险。在生成模型安全保障方面，该数据集支持对文本到图像等生成模型输出进行实时内容审核，例如结合I2P等基准提示集生成图像后，使用LlavaGuard模型评估其安全性，并对违规内容进行分类与记录。使用过程中，用户可通过修改输入的系统提示来灵活定义或调整安全策略，使模型能够适应不同的政策要求与上下文环境。数据集的公开提供也旨在促进视觉内容安全评估领域的进一步研究与发展。

背景与挑战

背景概述

随着大规模视觉语言模型（VLM）的迅猛发展，其训练数据中不可避免包含不安全与偏见内容，引发了严峻的伦理与安全隐忧。为系统评估并缓解视觉内容的安全风险，达姆施塔特工业大学、德国人工智能研究中心等机构的研究团队于2024年6月提出了LlavaGuard数据集。该数据集旨在构建一个基于VLM的安全保障模型家族，核心研究问题在于为视觉数据的审核与生成模型的安全评估提供一种兼具上下文感知能力与灵活性的结构化框架。通过精心标注的高质量视觉数据与涵盖九大安全类别的细粒度分类体系，LlavaGuard不仅能够输出安全评级与违规类别，还能提供深入的理由阐述，显著推动了视觉内容安全评估向自动化、可解释化方向发展，对促进负责任人工智能的部署具有重要影响力。

当前挑战

LlavaGuard致力于解决的领域核心挑战，是视觉内容安全评估中普遍存在的分类僵化与缺乏上下文感知问题。现有工具多依赖于预定义的固定属性集，难以灵活适应不同场景、文化背景或动态演变的法规政策。在数据集构建过程中，研究团队面临多重挑战：首要在于原始数据（如Socio-Moral Image Database）存在严重的类别不平衡，需通过大规模网络爬取与人工标注进行扩充与均衡；其次，为确保模型能理解并适应可定制的安全策略，需设计复杂的数据增强方法，如策略例外生成，以教导模型根据具体政策上下文调整判断；此外，合成高质量、与人类标注一致的评估理由（rationale）亦是一项挑战，团队通过利用大模型生成并筛选的方式，以知识蒸馏形式提升较小模型的推理能力。

常用场景

经典使用场景

在视觉语言模型（VLM）快速发展的背景下，大规模视觉数据集中不可避免地混杂着有害与偏见内容，对模型安全部署构成严峻挑战。LlavaGuard数据集的核心应用场景在于为视觉内容的安全评估提供一套高质量、细粒度标注的基准数据。该数据集通过精心构建的九大安全分类体系（如仇恨骚扰、暴力伤害、裸露内容等），并辅以详细的风险指南，使得研究者能够系统性地训练和验证VLM模型，使其具备对图像安全性的深度理解与上下文感知能力。

衍生相关工作

LlavaGuard数据集的发布催生了一系列围绕视觉内容安全评估的衍生研究与应用。其最直接的成果是LlavaGuard模型家族（7B至34B参数），这些模型在安全分类、政策适应性及原理生成方面均超越了GPT-4等基线。该数据集也为进一步探索视觉安全领域提供了基础，例如促进对合成生成内容的安全审计、扩展至偏见与公平性评估等研究方向。此外，其构建的灵活安全分类学框架，激励了社区开发更适应不同地域法律与文化背景的定制化安全评估工具，推动了负责任AI在视觉模态的实践。

数据集最近研究