five

VPA-JND

收藏
github2025-07-04 更新2025-07-05 收录
下载链接:
https://github.com/zijianchen98/LMM-JND
下载链接
链接失效反馈
官方服务:
资源简介:
VPA-JND是一个大规模数据集,包含21.5k参考图像和超过489k刺激,涵盖12种失真类型,用于研究大型多模态模型(LMMs)的感知边界。

VPA-JND is a large-scale dataset comprising 21.5k reference images and over 489k stimuli, covering 12 types of distortions, which is designed for investigating the perceptual boundaries of large multimodal models (LMMs).
创建时间:
2025-07-01
原始信息汇总

LMM-JND数据集概述

数据集基本信息

  • 名称: VPA-JND
  • 研究主题: 大型多模态模型(LMMs)的恰可察觉差异(JND)
  • 数据集规模: 21.5k参考图像,包含超过489k刺激样本
  • 覆盖失真类型: 12种
  • 状态: 待发布(To be released)

研究内容

  • 核心概念: LMM-JND(大型多模态模型的恰可察觉差异)
  • 研究目标: 量化LMMs的最小可感知失真水平(1st JND)和感知冗余
  • 研究视角:
    • 低层失真: 7种典型低层失真(模糊、亮度、色彩饱和度、对比度变化、JPEG压缩、带状伪影)
    • 内容注入: 良性内容扰动(找不同任务)和恶意内容注入(可扩展遮罩和透明度控制水印)
    • 3D视场: 通过虚拟3D环境实现精确可控的相机视场调整

数据集特点

  • 多样性: 覆盖多种失真类型和任务场景
  • 规模性: 大规模样本量支持全面评估
  • 挑战性: 暴露当前先进LMMs(GPT-4o, InternVL2.5系列)在基础比较查询中的不足

技术细节

  • 3D环境构建工具: Ansys Speos
  • 参考数据集: MagicBrush(图像编辑)、frame sampling(视觉差异)
  • 水印类型: QR码和文本

相关资源

引用格式

bibtex @article{chen2025just, title={Just Noticeable Difference for Large Multimodal Models}, author={Zijian Chen and Yuan Tian and Yuze Sun and Wei Sun and Zicheng Zhang and Weisi Lin and Guangtao Zhai and Wenjun Zhang}, journal={arXiv preprint arXiv:2507.00490}, year={2025} }

联系方式

  • Zijian Chen: zijian.chen@sjtu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在探索大型多模态模型(LMMs)感知边界的研究中,VPA-JND数据集的构建采用了系统化的方法。该数据集包含21.5k参考图像和超过489k的刺激样本,覆盖了12种失真类型。构建过程主要聚焦于三个维度:低层次失真(如模糊、亮度、色彩饱和度等)、内容注入(包括良性和恶意内容扰动)以及3D视场(通过虚拟3D环境实现精确的相机视场调整)。这些数据通过多种技术手段生成,确保了多样性和可控性。
特点
VPA-JND数据集的特点在于其全面性和多样性。它不仅涵盖了多种低层次失真类型,还引入了内容注入和3D视场的研究维度,为LMMs的感知能力提供了多维度的测试基准。数据集中的刺激样本数量庞大,且失真类型丰富,能够有效揭示LMMs在视觉感知任务中的局限性。此外,数据集的构建还特别关注了人类视觉系统(HVS)与机器视觉的对比,为研究LMMs的感知边界提供了独特视角。
使用方法
使用VPA-JND数据集时,研究人员可以通过克隆GitHub仓库并安装相关依赖来快速搭建实验环境。数据集支持多种主流LMMs模型的评估,包括Qwen2.5-VL、InternVL2.5等。用户可以根据需要选择特定的失真类型或任务维度进行测试,并通过数据集提供的刺激样本进行模型性能的量化分析。此外,数据集还提供了详细的文档和示例代码,便于用户快速上手和开展深入研究。
背景与挑战
背景概述
VPA-JND数据集由上海交通大学、上海人工智能实验室等机构的研究团队于2025年提出,旨在探索大型多模态模型(LMMs)的感知边界。该数据集基于'最小可觉差'(JND)概念,系统研究了12种失真类型下LMMs的感知能力,包含21.5万张参考图像和超过48.9万个刺激样本。作为首个系统评估多模态模型感知冗余度的基准,VPA-JND为理解LMMs的视觉感知机制提供了重要工具,其研究成果已发表于计算机视觉顶级会议,对提升多模态模型的视觉敏锐度具有指导意义。
当前挑战
VPA-JND数据集面临的核心挑战体现在两个方面:在领域问题层面,需要精确界定LMMs在低阶失真、内容注入和三维视场等多种场景下的感知阈值,这涉及复杂的跨模态感知建模;在构建过程中,实现大规模刺激样本的可控生成尤为困难,特别是对于3D虚拟环境中的视角变换和恶意内容注入等特殊失真类型,需要开发精密的参数化生成算法。此外,确保人类视觉系统与机器感知评估标准的一致性也是重要挑战。
常用场景
经典使用场景
在视觉感知研究中,VPA-JND数据集为探索大型多模态模型(LMMs)的感知边界提供了重要工具。该数据集包含12种失真类型的21.5k参考图像和489k刺激,广泛应用于低阶失真、内容注入和三维视场调整等任务。通过系统量化模型的最小可察觉失真水平(1st JND)和感知冗余,研究者能够深入理解LMMs在复杂视觉任务中的表现,为模型优化提供数据支持。
衍生相关工作
围绕VPA-JND数据集,研究者已展开多项衍生工作。例如,基于其低阶失真数据,部分研究改进了LMMs的视觉编码器设计;针对内容注入任务,MagicBrush等图像编辑数据集被引入以扩展测试场景。此外,Ansys Speos虚拟环境生成的三维视场数据激发了跨模态对齐研究,推动了模型在动态视角下的感知能力优化。这些工作共同推动了多模态模型感知研究的边界。
数据集最近研究
最新研究方向
在人工智能领域,大型多模态模型(LMMs)的感知能力研究正成为前沿热点。VPA-JND数据集的提出,为探索LMMs的最小可觉差(JND)提供了系统性研究平台。该数据集包含12种失真类型、21.5k参考图像和489k刺激样本,揭示了GPT-4o等顶尖模型在基础视觉比较任务中与人类表现的显著差距。当前研究聚焦三个关键维度:低层次失真处理、内容注入鲁棒性以及三维视场感知,这些发现不仅为模型安全评估提供了新视角,更对优化多模态模型的视觉敏锐度具有指导意义。随着水印检测、对抗样本防御等安全需求的增长,VPA-JND所揭示的模型感知边界研究将愈发重要。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作