Video-SafetyBench

github2025-05-20 更新2025-06-10 收录

下载链接：

https://github.com/flageval-baai/Video-SafetyBench

下载链接

链接失效反馈

官方服务：

资源简介：

Video-SafetyBench是一个用于评估大型视觉语言模型（LVLMs）安全性的基准数据集，包含2,264个视频文本对，涵盖13个不安全类别和48个细分子类别。每个视频文本对包括一个合成视频和一个有害查询或良性查询。数据集旨在填补现有多模态安全评估在视频动态特性方面的空白，并提出了一种新的基于LLM的度量标准RiskJudgeScore（RJScore），以捕捉模型判断的置信度并与人类安全判断保持一致。

Video-SafetyBench is a benchmark dataset designed to evaluate the security of large visual language models (LVLMs), containing 2,264 video-text pairs that cover 13 unsafe categories and 48 subcategories. Each video-text pair includes a synthetic video along with a harmful or benign query. The dataset aims to address the gap in existing multimodal security assessments regarding video dynamics and proposes a new LLM-based metric, RiskJudgeScore (RJScore), to capture the confidence of model judgments and align them with human security judgments.

创建时间：

2025-05-10

原始信息汇总

Video-SafetyBench 数据集概述

基本信息

数据集名称: Video-SafetyBench
发布机构: BAAI
发布日期: 2025-05-14
数据集主页: https://liuxuannan.github.io/Video-SafetyBench.github.io/
论文地址: https://arxiv.org/abs/2505.11842
数据地址: https://huggingface.co/datasets/BAAI/Video-SafetyBench

数据集简介

Video-SafetyBench 是一个用于评估视频大型视觉语言模型（LVLMs）安全性的基准测试数据集。该数据集旨在解决现有多模态安全评估主要关注静态图像输入而忽略视频动态特性的问题。

数据集特点

数据规模: 包含 2,264 个视频-文本对
覆盖范围:
- 13 个不安全类别
- 48 个细粒度子类别
数据特征:
- 每个视频-文本对包含一个合成视频
- 每个视频配对一个有害查询和一个良性查询

技术贡献

可控合成管道:
- 将视频语义分解为主题图像和运动文本
- 共同指导合成与查询相关的视频
评估指标:
- 提出 RiskJudgeScore (RJScore)
- 基于 LLM 的度量标准
- 利用 token-level logit 分布
- 与人类安全判断高度一致

数据集结构示例

json { "question_id": "Unique ID for the question", "question": "The question", "harmful_intention": "The harmful intention for the question", "video_path": "video_path to the question", "category": "category to the question", "subcategory": "subcategory to the question" }

评估方法

响应生成

支持三种模型推理方式:

Transformer-based 评估
vllm-based 评估
API-based 评估

响应评估

使用专用评估脚本对生成响应进行安全评估: bash python eval/evaluate.py --response_dir ./model_results --model_name LLaVA-Video-72B-Qwen2 --query_type harmful

引用信息

bibtex @article{liu2025videosafetybench, title={Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs}, author={Liu, Xuannan and Li, Zekun and He, Zheqi and Li, Peipei and Xia, Shuhan and Cui, Xing and Huang, Huaibo and Yang, Xi and He, Ran}, journal={arXiv preprint arXiv:2505.11842}, year={2025} }

搜集汇总

数据集介绍

构建方式

在大型视觉语言模型（LVLMs）安全评估领域，Video-SafetyBench通过创新的构建方法填补了动态视频输入安全风险评估的空白。该数据集采用可控合成技术，将视频语义解构为主题图像和运动文本两个核心要素，通过二者的协同引导生成与查询相关的合成视频。研究团队精心设计了2,264个视频-文本对，覆盖13个不安全类别和48个细分子类别，每个视频均配有害查询和良性查询两种文本模态，构建过程严格遵循多维度安全评估标准。

特点

作为首个专注于视频模态LVLMs安全评估的基准测试，Video-SafetyBench展现出鲜明的专业特性。数据集包含的2,264个测试案例全面覆盖暴力、歧视等13类安全隐患，并通过48个细分子类别实现风险场景的精准刻画。其独创的RiskJudgeScore（RJScore）评估指标突破性地利用token级逻辑分布捕捉模型判断置信度，与人类安全评估保持高度一致性。视频-文本双查询设计有效区分模型对显性/隐性风险的识别能力，为安全性能评估提供多维视角。

使用方法

该数据集支持多种评估范式，用户可通过Transformer或vLLM等推理框架进行模型测试。评估流程包含三个关键阶段：首先配置指定模型环境，随后使用harmful_query或benign_query生成响应结果，最终通过RJScore指标进行安全性能量化。数据集提供标准化的JSON数据结构，包含问题ID、视频路径、危害意图等关键字段，支持研究者快速接入不同规模的LVLMs。评估结果自动保存为结构化文件，便于横向比较不同模型在动态视频场景下的安全防御能力。

背景与挑战

背景概述

Video-SafetyBench是由BAAI（北京智源人工智能研究院）于2025年发布的多模态安全评估基准，旨在填补视频大语言模型（LVLMs）安全评估领域的空白。随着大视觉语言模型在复杂现实场景中的广泛应用，其安全性问题日益凸显。传统多模态安全评估主要聚焦静态图像输入下的模型漏洞，而忽视了视频数据特有的时序动态特性可能引发的独特安全风险。该数据集由Xuannan Liu等学者构建，包含2,264个视频-文本对，涵盖13个不安全类别和48个细分子类别，通过合成视频与有害/良性查询的配对，为视频LVLMs的安全评估提供了标准化测试平台。其创新的RiskJudgeScore指标通过token级概率分布量化模型判断置信度，显著提升了与人类安全判断的一致性。

当前挑战

该数据集主要解决视频大语言模型在动态内容理解中的安全风险评估挑战，包括模型对暴力、歧视等敏感内容的识别鲁棒性，以及时序上下文引发的潜在危害。构建过程中面临三大技术难点：视频语义的可控解耦需精确分离主体图像与运动文本以生成查询相关视频；多模态对齐要求视频合成与文本查询保持语义一致性；评估指标设计需克服传统二值化判断对模型安全倾向捕捉的局限性。此外，合成视频的伦理边界界定与真实风险场景的覆盖率平衡也是构建过程中的关键挑战。

常用场景

经典使用场景

在视频多模态安全评估领域，Video-SafetyBench通过构建包含2,264个视频-文本对的数据集，为研究者提供了评估大型视觉语言模型在动态视频输入下安全风险的标准化平台。其独特设计的合成视频与有害/良性查询组合，能够系统性地测试模型对13大类48细类不安全内容的识别能力，弥补了传统静态图像评估的局限性。

解决学术问题

该数据集有效解决了多模态安全研究中视频时序特性被忽视的核心问题。通过可控的语义分解管道和创新的RiskJudgeScore评估指标，量化了模型在动态场景中的安全漏洞，为建立视频内容安全评估体系提供了方法论基础。其细粒度分类体系推动了安全风险成因的归因研究，显著提升了评估结果与人类判断的一致性。

衍生相关工作

基于该数据集衍生的研究包括LLaVA-Video的安全增强训练方案、多模态对抗攻击防御策略等。其提出的RJScore指标启发了后续Video-RiskMetric等动态安全评估体系，相关方法论被拓展至3D点云、神经辐射场等新兴模态的安全基准构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集