SaLAD
收藏arXiv2026-01-07 更新2026-01-09 收录
下载链接:
https://github.com/xinyuelou/SaLAD
下载链接
链接失效反馈官方服务:
资源简介:
SaLAD是由北京交通大学团队构建的多模态安全评估基准,聚焦日常生活场景中AI助手潜在风险。该数据集包含2,013个真实世界图像-文本样本,覆盖10个日常类别,平衡设计了危险场景与过度敏感案例。数据来源于10万条真实用户查询筛选,通过三阶段流程构建:首先挖掘高风险行为查询,再匹配真实网络图像,最后生成精准安全警告。其独特价值在于强调跨模态推理风险,要求模型必须结合视觉与文本信息才能识别隐患,解决了传统基准依赖单一模态的局限。该数据集主要用于评估多模态大模型在健康、交通、家居等生活场景中的安全响应能力,推动AI助手的风险预警机制发展。
SaLAD is a multimodal safety assessment benchmark developed by the team from Beijing Jiaotong University, focusing on the potential risks of AI assistants in daily life scenarios. This dataset contains 2,013 real-world image-text pairs, covering 10 daily categories, with a balanced distribution of hazardous scenarios and over-sensitive cases. The data is screened from 100,000 real user queries, and constructed via a three-stage pipeline: first, high-risk behavior-related queries are extracted; second, real web images are matched to these queries; finally, accurate safety warnings are generated. Its core unique value lies in emphasizing cross-modal reasoning risks, which requires models to integrate both visual and textual information to identify potential hazards, thus addressing the limitation of traditional benchmarks that rely solely on a single modality. This dataset is primarily used to evaluate the safety response capabilities of multimodal large language models in daily scenarios including healthcare, transportation, and home environments, and to advance the development of risk early warning mechanisms for AI assistants.
提供机构:
北京交通大学; 清华大学; 北京大学; 蒙特利尔大学
创建时间:
2026-01-07
原始信息汇总
SaLAD 数据集概述
数据集基本信息
- 数据集名称:SaLAD
- 官方发布来源:论文 "When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life"
- 官方数据仓库地址:https://github.com/xinyuelou/SaLAD
- 备用数据访问地址:https://huggingface.co/datasets/Holly301/SaLAD
数据集内容与用途
- 核心主题:分析多模态大语言模型在日常生活中的安全性基准。
- 主要特点:专注于评估辅助型多模态大语言模型可能转化为安全危害的场景。
数据获取与使用
- 数据文件位置:数据集存储于官方GitHub仓库或Huggingface平台。
- 使用说明:需要解压
./images目录下的图像文件。
相关资源
- 论文链接:http://arxiv.org/abs/2601.04043
- 发布日期:2026年1月7日
联系与引用
- 主要联系人:Xinyue Lou
- 联系邮箱:louxinyue@bjtu.edu.cn
- 引用信息:请引用相关论文。
搜集汇总
数据集介绍

构建方式
在构建SaLAD数据集时,研究团队采用了一个严谨的三阶段流程,旨在精准捕捉多模态大语言模型在日常场景中的潜在安全风险。首先,从真实的用户交互中挖掘出10万条查询作为候选池,并依据预设的10个日常类别进行分类,利用大语言模型过滤相似查询并生成潜在的不安全行为,再由人工标注者依据权威安全手册进行验证,确保行为的现实合理性。随后,为这些不安全查询匹配来自公开数据集或真实世界的图像,并严格遵循“无视觉安全信息泄露”原则,确保风险无法仅从文本中推断,必须结合图像进行跨模态推理。最后,为每个不安全实例撰写明确、具体的安全警告,为安全实例提供良性建议,所有标注均经过六名标注者的交叉验证,以确保数据的高质量和一致性。
特点
SaLAD数据集的核心特点在于其高度的现实针对性与精细的评估导向。该数据集包含2013个真实世界的图像-文本样本,覆盖食品、家居、出行、运动等10个日常生活类别,其设计平衡了不安全场景与过度敏感案例,旨在全面评估模型的安全响应能力。尤为突出的是,数据集强调真实风险暴露,所有视觉输入均源自现实世界,而非合成图像,确保了评估场景的代表性。其“无视觉安全信息泄露”特性要求模型必须深度融合文本与视觉信息才能识别风险,这对模型的细粒度感知与跨模态推理能力提出了更高要求。此外,数据集引入了基于安全警告的评估框架,鼓励模型提供清晰、信息丰富的风险解释,而非简单的通用拒绝,从而推动安全评估从“是否拒绝”向“能否准确识别并解释风险”的范式转变。
使用方法
SaLAD数据集主要用于评估多模态大语言模型在日常场景中识别潜在安全风险并提供恰当指导的能力。使用者可按照其设定的评估指标与方法进行操作:主要采用准确率作为核心评估指标,对于不安全案例,模型的响应需明确识别潜在安全风险并提供合理解释方被视为正确;对于安全案例,模型需提供良性解答且不无故拒绝。评估过程建议采用自动化评估与人工校验相结合的方式,论文中采用GPT-4o作为“法官”模型进行自动化评估,并验证了其与人工评估的一致性。研究者可利用该数据集对现有模型进行基准测试,分析其在各日常类别中的安全表现差异,亦可将其用于训练或改进模型的安全对齐方法,特别是针对那些需要结合视觉上下文进行细粒度风险推理的场景。数据集的开源提供了进一步探索多模态安全机制的基础。
背景与挑战
背景概述
随着多模态大语言模型日益融入人类日常生活,其生成的不安全内容可能误导用户行为,构成潜在风险。为系统评估此类模型在日常场景中的安全影响,北京交通大学、清华大学等机构的研究团队于2026年共同创建了SaLAD数据集。该数据集聚焦于多模态助手在人类日常生活中的安全性问题,核心研究在于探究模型如何识别并应对隐含于图文上下文中的安全风险,而非仅处理显式恶意查询。SaLAD包含2013个真实世界图文样本,涵盖食品、家居、交通等10个常见类别,其设计平衡了不安全场景与过度敏感案例,强调真实风险暴露与细粒度跨模态推理,推动了多模态安全评估向更贴近实际应用的方向发展。
当前挑战
SaLAD数据集旨在解决的领域挑战是多模态大语言模型在日常场景中识别隐含安全风险并生成有效安全警告的能力,而非简单的图像分类或拒绝回答。这要求模型具备深度的跨模态理解与细粒度推理,以从看似良性的查询中察觉潜在危险。在构建过程中,主要挑战包括确保视觉输入的真实性以避免合成数据偏差,以及严格防止视觉安全信息泄露,即安全风险无法仅从文本中推断,必须依赖图文结合。此外,标注过程需保证安全警告的准确性与具体性,避免模糊描述,并对过度敏感案例进行精心设计以评估模型区别真实风险与无害意图的能力。
常用场景
经典使用场景
在人工智能助手日益融入人类日常生活的背景下,SaLAD数据集被广泛应用于评估多模态大语言模型在现实场景中的安全响应能力。该数据集通过涵盖饮食、家居、出行等十大日常类别,构建了2013个真实图像-文本对,模拟用户在日常互动中可能遇到的潜在风险情境。研究者利用SaLAD对模型进行系统性测试,旨在检验其能否从多模态信息中识别隐藏的安全隐患,并提供清晰的安全警告而非简单拒绝,从而推动模型安全性的精细化评估。
实际应用
在实际应用层面,SaLAD数据集为开发更安全的AI助手提供了关键测试工具。科技公司可借助该数据集对产品进行安全压力测试,识别模型在医疗健康、交通出行、家庭生活等领域的潜在误导风险。例如,在智能家居系统中,模型需能识别图像中空调上放置盆栽的坠落风险;在教育辅助场景中,需避免对安全学习行为产生过度敏感拒绝。通过SaLAD的评估,企业能够优化模型的安全响应机制,降低AI助手在实际部署中引发意外伤害的可能性。
衍生相关工作
SaLAD数据集的发布催生了一系列关于多模态安全对齐的创新研究。基于其构建理念,后续工作如SPA-VL扩展了安全偏好对齐数据集,VLGuard开发了专门的多模态安全微调方法,MIS则探索了融入推理逻辑的多图像对齐策略。这些研究共同推进了多模态模型在细粒度风险感知和跨模态推理方面的能力提升。同时,SaLAD与早期基准如SIUO、MM-SafetyBench形成的对比分析,揭示了传统安全防御方法在日常生活场景中的局限性,为新一代安全对齐技术的设计提供了重要启示。
以上内容由遇见数据集搜集并总结生成



