VideoSafetyBench (VSB-77k)

Name: VideoSafetyBench (VSB-77k)
Creator: 中国科学技术大学
Published: 2025-05-22 21:16:53
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16643v1

下载链接

链接失效反馈

官方服务：

资源简介：

VideoSafetyBench (VSB-77k) 是首个针对视频大型语言模型安全的大型、文化多样性的基准测试，包含 77,646 个视频-查询对，涵盖 19 个主要风险类别，跨越 10 个语言社区。该数据集旨在帮助研究者系统地研究视频大型语言模型的安全性问题，并为视频大型语言模型的安全防御提供参考。

VideoSafetyBench (VSB-77k) is the first large-scale, culturally diverse benchmark targeting the safety of video large language models. It encompasses 77,646 video-query pairs, covering 19 major risk categories and spanning 10 linguistic communities. This dataset is intended to help researchers systematically investigate the safety issues of video large language models, and provide references for the safety defense of such models.

提供机构：

中国科学技术大学

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

VideoSafetyBench (VSB-77k) 数据集的构建采用了多阶段系统化流程。首先基于YouTube/TikTok安全政策，通过GPT-4o提炼出包含6大类19子类的层次化分类体系，并生成多语言关键词进行视频检索，共收集64,431个原始视频。随后采用创新的多智能体标注框架，通过静态视频过滤、有害元素检测和上下文聚合三阶段处理，最终生成77,646个带标注的视频-查询对。为确保评估全面性，通过分层抽样从VSB-77k中构建了11.4k的评估子集VSB-Eval，并基于思维链(CoT)标注创建了46k的训练子集VSB-R1-46k用于后训练。

特点

VSB-77k作为首个大规模视频LLM安全基准，具有三大显著特征：1) 跨文化覆盖性，涵盖10种语言社区的多样化内容；2) 风险分类系统性，完整覆盖暴力、管制物品、性内容等6大主要风险类别下的19个子类；3) 模态组合多样性，包含视频-查询对的四种安全状态组合（有害-有害、安全-有害等）。特别值得注意的是，该数据集揭示了视频模态引入会使模型安全性能平均下降42.3%，凸显了多模态攻击利用的系统性风险。

使用方法

VSB-77k数据集支持多层次的研究应用。对于模型评估，可使用VSB-Eval的三个子集（VSB-Eval-HH、VSB-Eval-SH、VSB-Eval-SafeQ）分别测试模型在对抗性攻击、视频有害性消融和错误拒绝率方面的表现。对于安全增强研究，VSB-R1-46k支持双阶段后训练：先通过6k样本进行警报令牌引导的安全微调（AT-SFT），再分别使用15k样本进行冷启动推理训练和25k样本进行安全引导的GRPO强化学习。使用商业LLM API（如Qwen-Long）可自动化评估防御成功率（DSR）和错误拒绝率（FRR）等关键指标。

背景与挑战

背景概述

VideoSafetyBench (VSB-77k) 是由中国科学技术大学的研究团队于2025年推出的首个大规模、多文化背景的视频大型语言模型安全基准测试数据集。该数据集包含77,646个视频-查询对，涵盖19个主要风险类别和10种语言社区，旨在系统评估视频模态对大型语言模型安全性的影响。研究团队发现，视频模态的引入会导致模型安全性能平均下降42.3%，揭示了多模态攻击利用中的系统性风险。该数据集的建立填补了视频大型语言模型安全评估领域的空白，为后续的安全防御研究提供了重要基础。

当前挑战

VideoSafetyBench面临的主要挑战包括：1) 领域问题挑战：视频模态增加了有害语义的复杂性，使得模型更难识别和防御多模态攻击；2) 构建过程挑战：需要处理大规模视频数据的收集与标注，确保跨文化和多语言内容的覆盖，以及设计有效的视频-查询对以全面评估模型安全性。此外，视频模态的动态特性使得有害内容的检测比静态图像更具挑战性，需要开发新的评估方法和防御机制。

常用场景

经典使用场景

VideoSafetyBench (VSB-77k) 数据集在视频大型语言模型（Video LLMs）的安全性研究中具有重要应用。该数据集包含77,646个视频-查询对，涵盖19个主要风险类别和10种语言社区，为评估Video LLMs在跨模态攻击下的安全性能提供了全面基准。其经典使用场景包括评估模型对有害视频-查询输入的防御能力，揭示视频模态对安全性能的影响，以及验证新型防御框架的有效性。

实际应用

在实际应用层面，VSB-77k支持构建更安全的视频内容审核系统。基于该数据集开发的VideoSafety-R1框架在真实场景中展现出显著优势，可将防御成功率提升65.1%。该技术可应用于社交媒体平台的内容过滤、视频聊天机器人的安全防护等领域，有效防止暴力、仇恨言论等19类有害内容的传播，同时保持模型的核心视频理解能力。

衍生相关工作

VSB-77k催生了一系列重要研究工作，其中最突出的是VideoSafety-R1防御框架。该框架创新性地提出可学习警报标记（AT-SFT）和安全引导的GRPO强化学习策略，在MMBench、VLGuard等图像安全基准上分别取得59.1%和44.3%的改进。此外，基于该数据集的发现还推动了视频对抗攻击、多模态安全对齐等方向的研究，为后续工作奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集