VPA-JND

github2025-07-04 更新2025-07-05 收录

下载链接：

https://github.com/zijianchen98/LMM-JND

下载链接

链接失效反馈

官方服务：

资源简介：

VPA-JND是一个大规模数据集，包含21.5k参考图像和超过489k刺激，涵盖12种失真类型，用于研究大型多模态模型（LMMs）的感知边界。

VPA-JND is a large-scale dataset comprising 21.5k reference images and over 489k stimuli, covering 12 types of distortions, which is designed for investigating the perceptual boundaries of large multimodal models (LMMs).

创建时间：

2025-07-01

原始信息汇总

LMM-JND数据集概述

数据集基本信息

名称: VPA-JND
研究主题: 大型多模态模型(LMMs)的恰可察觉差异(JND)
数据集规模: 21.5k参考图像，包含超过489k刺激样本
覆盖失真类型: 12种
状态: 待发布(To be released)

研究内容

核心概念: LMM-JND（大型多模态模型的恰可察觉差异）
研究目标: 量化LMMs的最小可感知失真水平(1st JND)和感知冗余
研究视角:
- 低层失真: 7种典型低层失真(模糊、亮度、色彩饱和度、对比度变化、JPEG压缩、带状伪影)
- 内容注入: 良性内容扰动(找不同任务)和恶意内容注入(可扩展遮罩和透明度控制水印)
- 3D视场: 通过虚拟3D环境实现精确可控的相机视场调整

数据集特点

多样性: 覆盖多种失真类型和任务场景
规模性: 大规模样本量支持全面评估
挑战性: 暴露当前先进LMMs(GPT-4o, InternVL2.5系列)在基础比较查询中的不足

技术细节

3D环境构建工具: Ansys Speos
参考数据集: MagicBrush(图像编辑)、frame sampling(视觉差异)
水印类型: QR码和文本

引用格式

bibtex @article{chen2025just, title={Just Noticeable Difference for Large Multimodal Models}, author={Zijian Chen and Yuan Tian and Yuze Sun and Wei Sun and Zicheng Zhang and Weisi Lin and Guangtao Zhai and Wenjun Zhang}, journal={arXiv preprint arXiv:2507.00490}, year={2025} }

联系方式

Zijian Chen: zijian.chen@sjtu.edu.cn

搜集汇总

数据集介绍

构建方式

在探索大型多模态模型（LMMs）感知边界的研究中，VPA-JND数据集的构建采用了系统化的方法。该数据集包含21.5k参考图像和超过489k的刺激样本，覆盖了12种失真类型。构建过程主要聚焦于三个维度：低层次失真（如模糊、亮度、色彩饱和度等）、内容注入（包括良性和恶意内容扰动）以及3D视场（通过虚拟3D环境实现精确的相机视场调整）。这些数据通过多种技术手段生成，确保了多样性和可控性。

特点

VPA-JND数据集的特点在于其全面性和多样性。它不仅涵盖了多种低层次失真类型，还引入了内容注入和3D视场的研究维度，为LMMs的感知能力提供了多维度的测试基准。数据集中的刺激样本数量庞大，且失真类型丰富，能够有效揭示LMMs在视觉感知任务中的局限性。此外，数据集的构建还特别关注了人类视觉系统（HVS）与机器视觉的对比，为研究LMMs的感知边界提供了独特视角。

使用方法

使用VPA-JND数据集时，研究人员可以通过克隆GitHub仓库并安装相关依赖来快速搭建实验环境。数据集支持多种主流LMMs模型的评估，包括Qwen2.5-VL、InternVL2.5等。用户可以根据需要选择特定的失真类型或任务维度进行测试，并通过数据集提供的刺激样本进行模型性能的量化分析。此外，数据集还提供了详细的文档和示例代码，便于用户快速上手和开展深入研究。

背景与挑战

背景概述

VPA-JND数据集由上海交通大学、上海人工智能实验室等机构的研究团队于2025年提出，旨在探索大型多模态模型（LMMs）的感知边界。该数据集基于'最小可觉差'（JND）概念，系统研究了12种失真类型下LMMs的感知能力，包含21.5万张参考图像和超过48.9万个刺激样本。作为首个系统评估多模态模型感知冗余度的基准，VPA-JND为理解LMMs的视觉感知机制提供了重要工具，其研究成果已发表于计算机视觉顶级会议，对提升多模态模型的视觉敏锐度具有指导意义。

当前挑战

VPA-JND数据集面临的核心挑战体现在两个方面：在领域问题层面，需要精确界定LMMs在低阶失真、内容注入和三维视场等多种场景下的感知阈值，这涉及复杂的跨模态感知建模；在构建过程中，实现大规模刺激样本的可控生成尤为困难，特别是对于3D虚拟环境中的视角变换和恶意内容注入等特殊失真类型，需要开发精密的参数化生成算法。此外，确保人类视觉系统与机器感知评估标准的一致性也是重要挑战。

常用场景

经典使用场景

在视觉感知研究中，VPA-JND数据集为探索大型多模态模型（LMMs）的感知边界提供了重要工具。该数据集包含12种失真类型的21.5k参考图像和489k刺激，广泛应用于低阶失真、内容注入和三维视场调整等任务。通过系统量化模型的最小可察觉失真水平（1st JND）和感知冗余，研究者能够深入理解LMMs在复杂视觉任务中的表现，为模型优化提供数据支持。

衍生相关工作

围绕VPA-JND数据集，研究者已展开多项衍生工作。例如，基于其低阶失真数据，部分研究改进了LMMs的视觉编码器设计；针对内容注入任务，MagicBrush等图像编辑数据集被引入以扩展测试场景。此外，Ansys Speos虚拟环境生成的三维视场数据激发了跨模态对齐研究，推动了模型在动态视角下的感知能力优化。这些工作共同推动了多模态模型感知研究的边界。

数据集最近研究