Safe-LLaVA
收藏arXiv2025-08-30 更新2025-09-05 收录
下载链接:
https://huggingface.co/datasets/kyh9191/Safe-LLaVA
下载链接
链接失效反馈官方服务:
资源简介:
Safe-LLaVA是一个隐私保护的多模态大型语言模型训练数据集,由系统地清理LLaVA数据集而来,旨在去除显式和隐式的生物识别信息。该数据集的创建旨在解决多模态大型语言模型在视觉语言任务中泄露敏感生物识别属性的问题,如种族、性别、年龄、体重和眼色等。Safe-LLaVA数据集的创建过程涉及使用GPT-4自动重写和清理样本,并进行人工验证,以确保生物识别信息被彻底去除。Safe-LLaVA数据集的发布为多模态大型语言模型的隐私保护训练提供了一个新的标准。
Safe-LLaVA is a privacy-preserving multimodal large language model training dataset developed through systematic cleaning of the original LLaVA dataset, with the core objective of removing both explicit and implicit biometric information. This dataset is designed to address the problem of sensitive biometric attribute leakage in multimodal large language models during vision-language tasks, including race, gender, age, weight, eye color and other similar attributes. The creation process of the Safe-LLaVA dataset involves automatically rewriting and cleaning samples using GPT-4, followed by manual validation to ensure thorough removal of all biometric information. The release of the Safe-LLaVA dataset sets a new benchmark for privacy-preserving training of multimodal large language models.
提供机构:
美国中佛罗里达大学计算机视觉研究中心
创建时间:
2025-08-30
原始信息汇总
Safe-LLaVA 数据集概述
数据集基本信息
- 名称: Safe-LLaVA
- 许可证: bigscience-openrail-m
- 任务类别: 问答
- 语言: 英语
- 标签: 隐私、视觉语言、指令调优、多模态
- 规模: 100B<n<1T
数据集来源与规模
- 来源: 源自LLaVA v1.5(包括LAION、COCO、GQA、OCR_VQA、VG等)
- 规模:
- 预训练数据: 558K样本
- 指令调优数据: 665K样本
隐私保护策略
- 使用GPT-4o进行重写和过滤,系统性地移除敏感生物特征属性
- 移除属性包括:性别、种族、年龄、眼睛颜色、体重
数据字段
question_id: 字符串类型,每个问题的唯一标识符image: 字符串类型,图像文件相对路径(仅用于演示)text: 字符串类型,文本内容category: 字符串类型,类别信息id: 字符串类型,每个图像的唯一标识符conversations: 列表类型,用户和助手之间的对话对
文件组成
Safe_blip_laion_cc_sbu_558k.json: 预训练数据集(558K样本)Safe_llava_v1_5_mix665k.json: 指令调优数据集(665K样本)PRISM_refusal_soft.jsonl: 软提示拒绝基准测试PRISM_refusal_hard.jsonl: 硬提示拒绝基准测试PRISM_implicit_leakage.jsonl: 隐式泄漏基准测试(开放式)biometric_images.zip: PRISM评估使用的图像文件
基准测试:PRISM
- 拒绝准确性: 评估模型拒绝回答生物特征相关提示的能力
- 隐式泄漏: 评估开放式生成中敏感信息的泄漏程度
配套资源
- GitHub仓库: https://github.com/Kimyounggun99/Safe-LLaVA
- 提供训练和测试的代码支持
配置信息
- 配置名称: PRISM_test
- 测试集大小: 404,330字节(1,485个样本)
- 下载大小: 24,575字节
- 数据集总大小: 404,330字节
搜集汇总
数据集介绍

构建方式
Safe-LLaVA数据集通过系统化的隐私过滤流程构建,基于广泛使用的LLaVA数据集进行深度清洗。研究团队采用GPT-4o作为核心处理工具,自动识别并移除预训练和指令微调数据中的生物特征信息,涵盖年龄、性别、种族、眼睛颜色和体重五大敏感属性。具体清洗策略包括直接拒绝生物特征相关查询、泛化隐含泄漏的回答以及保留无害样本,最终处理超过558K预训练样本和3M指令微调样本,消耗约30亿令牌,确保语义保真度与隐私保护的平衡。
特点
该数据集显著特点在于其隐私对齐的设计理念,彻底消除原始数据中显性与隐性的生物特征泄漏。经统计,清洗后数据完全去除超过40万条性别提及、5.4万条年龄记录及数千条种族、眼睛颜色和体重参考。Safe-LLaVA不仅教导模型拒绝生物特征查询,还能在开放性问题中生成丰富且非侵入性的描述,如将“亚裔年轻男性”替换为“个人”,在保持上下文连贯性的同时阻断隐私推断路径,为多模态模型提供了首个人工智能隐私保护训练基准。
使用方法
Safe-LLaVA适用于多模态大语言的隐私对齐训练与评估,需分阶段使用:首先在清洗后的LAION-CC-SBU-558K数据上进行预训练,随后基于Safe-LLaVA指令微调数据优化模型响应策略。用户可结合PRISM基准进行联合测试,量化模型在显式拒绝准确率和隐式泄漏保护分数上的表现。典型应用包括部署隐私敏感的虚拟助手、医疗诊断系统和教育工具,需注意模型应配置标准化拒绝模板,并在生成过程中避免基于视觉线索的生物特征归纳,以符合GDPR等数据保护法规。
背景与挑战
背景概述
随着多模态大语言模型在视觉语言任务中的广泛应用,其隐含的生物特征信息泄露问题逐渐凸显。Safe-LLaVA数据集由中佛罗里达大学计算机视觉研究中心于2025年提出,旨在系统性地消除LLaVA数据集中涉及种族、性别、年龄、体重和眼睛颜色等敏感属性的显性与隐性标注。该数据集通过GPT-4o自动化清洗与人工验证结合,重构了55.8万预训练样本和300万指令微调样本,为隐私对齐的多模态模型开发设立了新标准,对医疗、教育等敏感领域的合规部署具有深远影响。
当前挑战
该数据集核心挑战在于平衡隐私保护与语义完整性:需精准识别并移除生物特征信息,同时保持描述性文本的流畅性与准确性;构建过程中需应对大规模多模态数据中隐含属性的细粒度检测,例如将“蓝眼睛女性”转化为中性表述“个人”;此外,模型需学会拒绝生物特征相关查询而非简单屏蔽,确保在开放场景中不泄露隐私且维持功能性。
常用场景
经典使用场景
在视觉语言模型隐私保护研究中,Safe-LLaVA数据集被广泛用于评估多模态大语言模型在生物特征信息泄露方面的风险。研究者通过该数据集系统分析模型在图像描述、视觉问答等任务中是否无意泄露种族、年龄、性别等敏感属性,为隐私对齐训练提供基准数据支撑。
解决学术问题
该数据集解决了多模态模型中生物特征隐私泄露的核心学术问题,包括模型对敏感属性的隐性推断与显性输出问题。通过提供经过严格清洗的视觉-文本对数据,它支持隐私保护对齐算法的开发,推动模型在保持语义忠实度的同时遵循GDPR等隐私保护规范,对构建可信人工智能系统具有重要理论意义。
衍生相关工作
该数据集催生了PRISM评估基准的建立,并衍生出多个隐私保护方向的研究工作。包括基于差分隐私的多模态训练框架、生物特征属性对抗遗忘算法、以及视觉语言模型的指令调优安全对齐方法等,这些工作共同推动了隐私保护多模态学习领域的体系化发展。
以上内容由遇见数据集搜集并总结生成



