SRR

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/Anonymous-SRR/SRR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集采用CC-BY-NC-4.0许可协议，包含6,169个训练样本，总大小约5.39GB。数据集由多模态样本构成，每个样本包含：1) 消息列表（每条消息包含角色和内容两个文本字段）；2) 图像数据。数据集仅包含训练集，未提供验证集或测试集。

创建时间：

2026-05-04

原始信息汇总

数据集概述：SRR（Situational Risk Reasoning Dataset）

SRR 是一个用于视觉语言模型（VLM）后训练阶段的监督微调数据集，旨在增强模型对情境风险的推理能力——即用户请求的安全性取决于其预期活动与视觉场景之间的交互。

设计目标

与传统安全数据集主要关注用户指令本身是否有害不同，SRR 针对的是那些在孤立情况下看似无害，但在特定视觉上下文中却存在风险的指令。

用途

该数据集用于 VLM 后训练阶段的监督微调（SFT），采用 ShareGPT 风格的对话格式，可配合 LLaMA-Factory 等常见 VLM 训练框架使用。

数据格式

每个样本包含以下两个字段：

image：视觉输入（图像）
messages：ShareGPT 风格的对话轮次列表，包括用户指令和助手回复

助手回复被设计为引导模型在给出最终答案之前，先推理活动与场景之间的关系。

样本结构示例： json { "image": "<image>", "messages": [ { "role": "user", "content": "<image> User instruction here." }, { "role": "assistant", "content": "<think>Safety reasoning here.</think> <judgement>Safe or Unsafe</judgement> <answer>Final response here.</answer>" } ] }

数据集统计

训练集：6169 个样本
数据集总大小：5.39 GB
下载大小：5.27 GB

数据集特征

特征名称	类型	说明
messages	list	对话轮次列表，每轮包含 role（字符串）和 content（字符串）
image	image	图像数据

任务类别

visual-question-answering（视觉问答）
image-text-to-text（图像到文本）

语言

English（英语）

许可证

cc-by-nc-4.0（知识共享-非商业使用 4.0 国际许可协议）

数据集配置

配置名称：default
数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

SRR数据集专为视觉语言模型的后训练监督微调而设计，旨在强化模型对情境风险的推理能力。区别于传统仅聚焦用户指令本身是否有害的安全数据集，SRR针对那些在特定视觉场景下原本看似无害的指令可能转化为安全隐患的情形。数据集采用ShareGPT风格的对话格式构建，每个样本包含视觉输入图像与多轮对话消息。在助手回复中，模型被引导先进行安全推理，再生成判断与最终回答，从而培养其对活动与场景交互关系的深度理解。

特点

该数据集的核心特色在于其情境风险导向的标注理念，突破了常规安全数据集仅关注指令内容本身的局限。每个样本均要求模型结合图像中的具体场景与用户意图进行综合分析，学习识别那些在孤立状态下安全、但在特定视觉语境中却存在风险的交互情形。这种设计促使视觉语言模型超越字面理解，发展出对情境敏感的风险感知能力，从而在真实应用场景中做出更稳健且负责任的安全判断。

使用方法

SRR数据集适用于视觉语言模型后训练阶段的监督微调，可直接接入常用训练框架如LLaMA-Factory。使用时需按指定格式组织数据，每个样本包含视觉图像字段与ShareGPT风格的消息列表，其中助手响应需遵循<think>安全推理</think>、<judgement>安全/不安全</judgement>、<answer>最终回答</answer>的三段式结构。训练时模型将学习依据图像场景与用户指令的交互关系进行逐步推理，最终输出安全判断与响应。

背景与挑战

背景概述

SRR（情境风险推理）数据集由研究团队于近期创建，旨在提升视觉-语言模型（VLM）对于情境安全风险的推理能力。与以往侧重指令本身是否有害的数据集不同，SRR聚焦于用户指令在特定视觉场景下可能引发的安全隐患，例如一个孤立的无害动作在危险环境中却可能导致严重后果。该数据集的核心研究问题是：如何让VLM在理解视觉上下文的基础上，动态判断用户请求的真实安全性。SRR通过引入结构化的推理过程，引导模型在决策前先分析活动与场景的交互关系，对于推动VLM在自动驾驶、智能监控等安全敏感领域的可靠性发展具有重要意义。

当前挑战

SRR所应对的领域挑战在于，现有安全数据集多基于文本内容直接判断有害性，无法处理那些指令本身无害但场景条件使之危险的复杂情形，例如在悬崖边让模型“向前走”。构建过程中的挑战包括：如何设计能够覆盖真实世界中多样且细微的情境风险样本，确保推理标注既具普适性又不失精确性；如何在监督微调中平衡对安全边界的严格约束与模型对合理正常请求的积极响应，避免过度反应；以及如何将复杂的多模态情境推理有效编码为可训练的对话格式，引导模型在视觉输入与安全判断之间建立稳健的因果关系链条。

常用场景

经典使用场景

在视觉-语言模型（VLM）的后训练阶段，SRR数据集被广泛用于监督微调，以增强模型对情境风险的推理能力。该数据集聚焦于那些用户指令本身看似无害，但在特定视觉场景下却可能引发危险的情形。典型应用场景包括车辆驾驶中，用户要求“打开车窗”在正常天气下是安全的，但在暴雨或高速行驶时则可能带来风险。通过训练，模型学会先分析用户活动与视觉环境的交互关系，再做出安全或危险的判断，从而有效提升VLM在动态、复杂现实环境中的风险感知与决策水平。

解决学术问题

SRR数据集弥补了传统安全数据集仅关注指令本身是否有害的局限性，解决了视觉-语言模型在情境化安全推理上的关键学术难题。研究者长期面临如何让模型理解“同一操作在不同视觉语境下安全属性截然不同”这一挑战。SRR通过提供大量由视觉场景与用户活动共同决定安全性的实例，揭示了模型在跨模态理解中的盲区，推动了情境依赖风险评估的理论发展。其意义在于为后训练时代的安全对齐提供了新范式，促使学术社区重视视觉上下文对意图安全性的决定性影响。

衍生相关工作

基于SRR数据集，研究者衍生出了多项重要工作。例如，有工作进一步扩展了情境风险类别，提出了多维度风险等级标注的衍生数据集；另有研究将SRR的核心思路迁移至视频理解领域，开发了面向时序情境安全推理的SRR-Video数据集。此外，一些团队利用SRR数据探索了模型在安全推理中的思维链对齐技术，通过改进<think>模块的推理路径来提升决策可解释性。这些衍生工作共同推动了视觉-语言安全推理从单一指令判断向复杂情境理解的系统性演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集