DiffCap-Bench

Name: DiffCap-Bench
Creator: 华南理工大学; 北京大学; 香港大学; 天津大学; 腾讯混元
Published: 2026-05-06 13:12:41
License: 暂无描述

arXiv2026-05-06 更新2026-05-08 收录

下载链接：

https://github.com/wyclike/DiffCap-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

DiffCap-Bench是由华南理工大学、腾讯混元等机构联合构建的图像差异描述基准数据集，包含1075组高质量图像对，覆盖物体、属性、动作等十类差异维度，总计6713条人工验证的原子级差异项。数据通过多源采样（网页图像、广告等）与合成生成（2D/3D技术）相结合构建，并经过严格的质量过滤。该数据集旨在评估多模态大模型在细粒度图像差异描述任务中的性能，尤其关注语义一致性与幻觉抑制能力，为图像编辑流水线提供可靠的差异分析基准。

DiffCap-Bench is a benchmark dataset for image difference description jointly constructed by South China University of Technology, Tencent Hunyuan and other institutions. It contains 1075 high-quality image pairs, covering ten difference dimensions such as objects, attributes and actions, with a total of 6713 manually verified atomic-level difference items. The dataset is built through the combination of multi-source sampling (web images, advertisements, etc.) and synthetic generation (2D/3D technologies), and has undergone strict quality filtering. This dataset aims to evaluate the performance of multimodal large language models in the fine-grained image difference description task, with particular focus on semantic consistency and hallucination suppression capabilities, providing a reliable difference analysis benchmark for image editing pipelines.

提供机构：

华南理工大学; 北京大学; 香港大学; 天津大学; 腾讯混元

创建时间：

2026-05-06

原始信息汇总

根据提供的数据集详情页面地址和README文件内容，该数据集详情页目前仅显示“comming soon”，尚无任何与数据集相关的具体信息，因此无法进行有效的总结和概述。

搜集汇总

数据集介绍

构建方式

DiffCap-Bench的构建策略融合了真实世界采样与可控化合成两大路径。在真实采样方面，研究人员从网页图像、视频帧、广告海报等多源渠道收集具备丰富视觉差异的图片对。在合成层面，则利用Canva平台进行2D分层合成编辑，以及Blender进行3D场景渲染，生成结构化的编辑差异模式。所有图像对需经过强多模态大模型的三项自动过滤——差异存在性、视觉相似性及图像质量——再经由人工专家完成二次挑战性筛查。在此基础上，借助多模型生成的候选差异与专家修正补充，构建出每对图像对应的人物验证的原子化差异列表。

特点

DiffCap-Bench具备卓越的全面性与挑战性，涵盖对象、属性、动作姿态、空间关系、构图、文本符号、背景、相机视角、图像属性及表情共十大差异维度，总计含1075个高质量图像对与6713个人工验证的原子化差异项，平均每对图像包含6.25个差异。该数据集率先引入基于差异列表的大模型评判框架，摒弃传统词重叠指标，通过精确率、召回率、F1*与幻觉率对模型进行语义层面的鲁棒评估。实验揭示，当前多模态大模型在捕捉动作姿态与表情变化方面仍存在显著瓶颈。

使用方法

使用DiffCap-Bench评估模型时，需首先将待评测模型的零样本输出提交至评估管线。基于预设的每对图像人类验证差异列表，评估过程分为正向与反向两个阶段：正向检查遍历关键差异列表，判断模型正确捕获、错误描述或遗漏每项差异；反向检查则分析预测中未匹配关键差异的内容，区分其属于可接受的详尽描述、与模糊项目相符还是确为幻觉。最终汇总计算召回率、精确率、F1*与幻觉率四种语义度量，实现全面、忠实且与人类判断高度一致的性能评估。

背景与挑战

背景概述

图像差异描述（Image Difference Captioning, IDC）旨在通过自然语言精准刻画两幅图像之间的视觉差异，是细粒度变化感知、跨模态推理及图像编辑数据构建的关键基石。然而，现有基准数据集在差异类型覆盖度与组合复杂性上存在显著不足，且传统基于词重叠的评估指标（如BLEU、METEOR）难以捕捉语义一致性，更无法有效惩罚模型编造的幻觉信息。为弥合这一鸿沟，来自华南理工大学、北京大学、香港大学、天津大学及腾讯混元的研究团队于2025年联合推出了DiffCap-Bench。该数据集涵盖了物体、属性、动作姿态、空间关系、构成、文本符号、背景、相机视角、图像属性及面部表情等十种差异类别，共计1075对高质图像与6713个原子差异项，为多模态大语言模型在IDC任务上的系统评估提供了全面且富有挑战的测试平台。

当前挑战

DiffCap-Bench所应对的核心领域挑战在于：现有IDC基准的数据多样性与组合难度不足，且传统词重叠评估指标无法忠实反映模型对视觉差异的捕获能力与事实忠实度，导致模型幻觉行为被严重忽视。在构建过程中，团队面临多重技术难题：首先，需从网络图像、视频帧、广告海报等多源数据中筛选出既存在真实差异又保持语义关联的图对，并通过2D合成与3D渲染生成受控的复杂差异样例；其次，为建立可靠的原子差异列表，需借助多个前沿多模态模型生成候选差异描述，并依赖人类专家进行逐项修正与补充，这一流程对标注精度与一致性提出了极高要求；此外，还需设计基于LLM的评估协议以自动化地判断模型输出是否真实捕获了列表中的每一项差异，并在评估中严格区分正确描述、错误描述与幻觉内容，从而实现对模型细粒度差异感知能力的全面检验。

常用场景

经典使用场景

在视觉与语言交叉领域，DiffCap-Bench被广泛用作细粒度图像差异描述任务的标准化评估平台。其设计聚焦于真实世界中多维度、高复杂度的图像编辑场景，涵盖对象增删、属性变化、动作姿态、空间关系、文本符号、背景替换、视角变换、图像属性以及表情调整等十类差异类型。研究者常借助该基准评估多模态大模型在感知局部视觉变化并生成忠实语言描述方面的能力，尤其关注模型能否捕捉到多个并发、耦合的细粒度差异，从而全面衡量其视觉感知与跨模态推理的综合水平。

解决学术问题

DiffCap-Bench有效解决了现有图像差异描述基准在数据多样性与评估鲁棒性方面的双重瓶颈。传统基准不仅差异类型覆盖狭窄、组合难度有限，且依赖基于词重叠的指标，难以识别语义一致性或惩罚模型虚构。该数据集通过构建大规模、人工验证的差异列表，结合LLM-as-a-Judge评估协议，弥补了这些不足。其精准衡量模型的召回率、精确率与幻觉率的机制，为学术界系统评估多模态模型在差异感知与描述中的真实性提供了可靠保障，推动了图像差异描述任务从简单匹配走向细致度与可信度并重的新阶段。

衍生相关工作

围绕DiffCap-Bench，衍生了多项相关学术工作，聚焦于多模态大模型在细粒度变化感知能力的评估与提升。研究者在此基础上深入探讨了思维链推理对差异描述准确性的改进效果，验证了推理增强型模型在捕捉动作、表情等非刚体变化方面的优势。同时，该基准激发了关于模型规模扩展对幻觉表现异质性影响的系列研究，推动了面向低幻觉、高保真差异描述的新型训练策略与正则化方法的发展，并为构建更鲁棒、更贴近人类语义判断的多模态评估体系奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集