ViDiC-1K

github2025-12-05 更新2025-12-07 收录

下载链接：

https://github.com/NJU-LINK/ViDiC-1K

下载链接

链接失效反馈

官方服务：

资源简介：

ViDiC-1K是一个视频差异描述基准数据集，包含1000个精心挑选的视频对，标注了超过4000个比较检查项。该数据集旨在评估多模态大语言模型（MLLMs）在描述视频对之间相似性和差异性的能力，特别关注编辑理解而非编辑执行。数据集包括真实和合成视频，覆盖8个以上公共数据源，视频时长主要在2-12秒之间。

ViDiC-1K is a benchmark dataset for video difference description, which comprises 1000 carefully selected video pairs annotated with over 4000 comparative check items. This dataset is designed to evaluate the capability of Multimodal Large Language Models (MLLMs) to describe the similarities and differences between video pairs, with a particular focus on editorial understanding rather than editorial execution. The dataset includes both real and synthetic videos, sourced from more than 8 public data sources, and the durations of most videos range from 2 to 12 seconds.

创建时间：

2025-12-01

原始信息汇总

ViDiC-1K 数据集概述

数据集基本信息

数据集名称: ViDiC-1K (Video Difference Captioning)
核心任务: 视频差异描述，要求模型对视频对之间的相似性和差异性进行细粒度描述，侧重于编辑理解而非编辑执行。
数据规模: 包含 1000 个精心策划的视频对。
标注规模: 包含超过 4100 个比较性检查项（约 1056 项相似性检查，3051 项差异性检查）。
评估维度: 7 个类别（主体、风格、背景、摄像机、运动、位置、播放技术）。
视频时长: 主要为 2 至 12 秒。
数据来源: 来自 8 个以上公共数据集（如 VidDiffBench, LMArena）以及自生成的合成数据（Veo3 + 帧拼接）。
许可证: CC-BY-NC-SA-4.0。

数据集关键特性

首个视频差异描述基准: 统一任务，要求对视频对进行描述性、比较性和时序性理解。
双检查表评估框架: 严格的评估框架，分别评估相似性（检查幻觉）和差异性（检查感知）。
可扩展的 LLM 即法官评估: 使用 GPT-5-Mini 的自动化、可解释评估协议，根据人工验证的真实情况量化事实准确性。

文件结构

数据集仓库主要包含以下目录：

assets/: README 相关图片。
checklist/: 标注文件 checklist.json。
data/: 视频文件（需从 Hugging Face 获取），包含 LMArena、style 等子目录。
inference/: 流行模型的推理脚本。
judge/: 使用 gpt5-mini 进行评判的脚本。
prompt/: 获取响应和评判的提示词文件。
response/: 示例响应文件。
utils/: 计算分数的工具。

基准测试结果摘要

整体模型性能（部分摘录）

模型	参数量	平均分	差异分	相似分
*闭源模型*
Gemini-2.5-Pro	🔒	66.72	63.73	75.33
GPT-5	🔒	62.94	57.32	79.17
GPT-4o	🔒	49.95	39.14	81.12
*开源模型*
Qwen3-VL	32B	61.38	58.54	71.50
InternVL-3.5	38B	50.49	40.09	80.46
LLaVA-V1.6-Vicuna	7B	8.96	5.11	20.07

关键发现

显著差距: 描述时序差异（运动、摄像机）比描述静态属性（风格、主体）困难得多。
权衡: “思考”模型提高了差异检测能力，但常在相同区域幻觉出差异（导致相似性分数降低）。
关键弱点: 几乎所有模型在摄像机工作和播放技术（如倒放、慢动作）类别上都表现显著不佳。

获取与引用

数据集地址: https://huggingface.co/datasets/NJU-LINK/ViDiC-1K
项目主页: https://vidic-1k.github.io/
论文地址: https://arxiv.org/abs/2512.03405
引用格式: bibtex @misc{wu2025vidicvideodifferencecaptioning, title={ViDiC: Video Difference Captioning}, author={Jiangtao Wu and Shihao Li and Zhaozhou Bian and Yuanxing Zhang and Jialu Chen and Runzhe Wen and An Ping and Yiwen He and Jiakai Wang and Jiaheng Liu}, year={2025}, eprint={2512.03405}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.03405}, }

搜集汇总

数据集介绍

构建方式

在视频理解领域，捕捉动态场景间的视觉差异需要模型具备对组合、空间及时间变化的比较感知能力。ViDiC-1K数据集的构建过程体现了对这一需求的系统性回应。该数据集包含1000对精心筛选的视频对，涵盖真实与合成两类数据源，视频时长主要集中在2至12秒之间。数据来源于八个以上公开数据集（如VidDiffBench、LMArena）的精选内容，并辅以通过Veo3模型结合帧拼接技术自主生成的合成数据。每个视频对均标注了超过4100项比较检查项，细致覆盖了主体、风格、背景、摄像机、运动、位置及播放技术等七个评估维度，从而为视频差异描述任务提供了结构化的基准。

特点

作为首个视频差异描述基准，ViDiC-1K数据集展现出多方面的显著特点。其核心在于提出了一个统一的任务框架，要求模型对视频对进行描述性、比较性和时序性的综合理解。数据集采用双检查表评估体系，将相似性（用于检测幻觉）与差异性（用于检测感知）分开进行严格评估，确保了评测的严谨性。此外，数据集引入了可扩展的大语言模型即法官的自动化评估协议，利用GPT-5-Mini等模型，以人类验证的真实标注为基准，对生成描述的事实准确性进行量化，提供了高效且可解释的评测方案。

使用方法

该数据集旨在评估多模态大语言模型对视频对之间异同进行细粒度描述的能力。研究人员可通过Hugging Face平台获取数据集，其文件结构清晰，包含视频数据、标注检查表、推理脚本及评估工具。使用流程通常涉及利用提供的推理脚本（支持GLM、Gemini等主流模型）对视频对进行处理以生成描述，随后调用基于GPT-5-Mini的法官脚本，依据预设的提示词对模型输出进行自动化评分。评估结果最终通过计算脚本汇总，在涵盖七个维度的详细排行榜上呈现模型性能，为模型在视频编辑理解而非编辑执行方面的能力提供了标准化衡量。

背景与挑战

背景概述

视频理解作为计算机视觉与自然语言处理的交叉前沿，长期致力于解析动态场景中的复杂语义。传统研究多聚焦于单一视频的内容描述或分类，对于视频对之间的差异与共性分析则鲜有涉足，这限制了模型对编辑操作、时序演变等深层信息的感知能力。在此背景下，南京大学LINK实验室于2025年推出了ViDiC-1K数据集，旨在将图像差异描述任务扩展至视频领域，构建首个视频差异描述基准。该数据集包含1000对精心筛选的视频，涵盖真实与合成数据源，并标注了超过4000项细粒度对比清单，核心研究问题是评估多模态大语言模型对视频对之间相似性与差异性的精细化描述能力，尤其关注主体、运动、摄像机操作等七个维度的时序变化理解，为视频编辑理解、内容审核等应用提供了重要的评估工具。

当前挑战

视频差异描述任务本身面临多重挑战：其一，模型需同步处理组合性、空间性与时序性变化，例如准确捕捉运动轨迹的连续性或编辑风格的一致性，这对现有视觉语言系统的综合推理能力提出了极高要求；其二，在构建ViDiC-1K数据集过程中，研究人员需从多个公开数据集中筛选并生成具有语义对比性的视频对，同时确保标注覆盖七类维度且保持一致性，这涉及复杂的视频处理与人工校验工作。此外，基准评估揭示当前模型在动态属性（如摄像机运动、播放技巧）上的表现显著弱于静态属性，且存在感知差异与避免幻觉之间的权衡难题，凸显了该领域在细粒度时序理解与可靠生成方面的技术瓶颈。

常用场景

经典使用场景

在视频内容理解领域，ViDiC-1K数据集为多模态大语言模型提供了一个评估其视频差异描述能力的基准平台。该数据集的核心应用场景在于要求模型对成对的视频进行精细化的比较分析，生成涵盖七个维度的相似性与差异性描述，包括主体、风格、背景、摄像机运动、物体运动、位置以及播放技术。这一任务不仅检验模型对静态视觉属性的感知，更着重评估其对动态场景中时序变化与编辑一致性的理解能力，为视频编辑理解、内容审核等高级视觉任务奠定了评估基础。

衍生相关工作

围绕ViDiC-1K数据集，学术界已衍生出一系列探索视频差异描述任务的经典研究工作。这些工作主要集中于开发新型的多模态大语言模型架构与训练策略，以提升模型在动态场景比较中的性能。例如，部分研究借鉴了图像差异描述领域的先进方法，并将其扩展至视频时序建模。另一些工作则专注于设计更高效的视频特征提取与对齐机制，以更好地捕捉跨视频的时空一致性。此外，基于该数据集的双检查清单评估框架，也催生了针对模型幻觉检测与事实性评估的自动化评测方法研究，推动了视频理解模型可信评估体系的发展。

数据集最近研究