NJU-LINK/ViDiC-1K

Name: NJU-LINK/ViDiC-1K
Creator: NJU-LINK
Published: 2026-05-09 05:04:53
License: 暂无描述

Hugging Face2026-05-09 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/NJU-LINK/ViDiC-1K

下载链接

链接失效反馈

官方服务：

资源简介：

ViDiC-1K是一个视频差异描述（Video Difference Captioning）的基准数据集，包含1000个精心挑选的视频对，标注了超过4000个比较检查项。该数据集旨在评估多模态大语言模型（MLLMs）在视频对之间提供细粒度相似性和差异性描述的能力。数据集的特点包括首次视频差异描述基准、双检查表评估、可扩展的LLM-as-a-Judge评估协议等。视频时长主要在2-12秒之间，数据来源包括公共数据集和自生成的合成数据。

ViDiC-1K is a benchmark dataset for Video Difference Captioning, comprising 1,000 curated video pairs annotated with over 4,000 comparative checklist items. The dataset is designed to evaluate the ability of Multimodal Large Language Models (MLLMs) to provide fine-grained descriptions of similarities and differences between video pairs. Key features include the first video difference captioning benchmark, dual-checklist evaluation, and a scalable LLM-as-a-Judge evaluation protocol. Video durations are primarily 2-12 seconds, with data sourced from public datasets and self-generated synthetic data.

提供机构：

NJU-LINK

搜集汇总

数据集介绍

构建方式

ViDiC-1K数据集专为视频差异描述任务而构建，旨在推动多模态大语言模型对动态场景中时序变化的细粒度理解。该数据集包含1000个精心挑选的视频对，其中涵盖真实场景与合成数据，视频时长主要在2至12秒之间。每个视频对均通过人工标注生成详细的比较清单，涵盖主体、风格、背景、相机、运动、位置与播放技术七类差异维度。数据来源于公开数据集如Ego-Exo4D，并辅以自生成的合成视频，以保证多样性与挑战性。数据集最终包含3720个比较清单项，提供严格的评估基准。

特点

ViDiC-1K作为首个视频差异描述基准，其核心亮点在于双清单评估机制，分别度量相似性（避免幻觉）与差异性（感知变化），从而实现更全面的模型性能刻画。数据集覆盖七类细粒度差异维度，尤其关注运动连续性、事件演化及编辑一致性等动态场景变换。评估协议采用可扩展的LLM-as-a-Judge自动化方法，借助GPT-5-Mini对模型输出进行事实准确性量化，兼顾高效性与可解释性。此外，榜单结果显示，现有模型在描述时序差异（如运动、相机）和播放技术方面仍存在显著短板，凸显了数据集的挑战价值。

使用方法

使用ViDiC-1K数据集时，需首先通过Hugging Face下载视频文件，其中部分测试集视频源自Ego-Exo4D数据集，需向官方申请访问权限后利用提供的cut.py脚本进行裁剪处理。下载完成后，用户应配置原始视频路径、输出目录及JSON映射文件，确保裁剪后的视频统一存放于data目录下。数据集以标准格式提供训练、测试分片，可直接用于微调多模态大语言模型或评估差异描述能力。评估阶段，用户可借助配套的LLM-as-a-Judge脚本，基于人工验证清单自动计算相似性与差异性的得分，便于比较不同模型的性能。

背景与挑战

背景概述

ViDiC-1K数据集由南京大学LINK实验室于2025年创建，专注于视频差异描述这一新兴任务，旨在推动多模态大语言模型对动态场景中构成、空间及时间变化的细粒度理解。该数据集是首个将差异描述从静态图像延伸至视频领域的基准，包含1000对精心挑选的视频片段（主要来源于Ego-Exo4D及合成数据），并附有3720项细粒度检查表注释，涵盖主体、风格、背景、相机、运动、位置及播放技巧七大维度。其提出不仅弥补了传统图像差异描述方法在捕捉运动连续性与事件演变上的不足，也超越了常规视频相似性或编辑指标，聚焦于编辑理解而非执行，为多模态模型的时序与比较感知能力评估开辟了新路径。

当前挑战

ViDiC-1K数据集所挑战的领域核心问题在于：现有视觉-语言系统难以胜任对视频对间运动连续性、事件演化及编辑一致性的深层次比较感知，尤其是机器在描述时序差异（如运动、相机变化）时远逊于静态属性（如风格、主体），而几乎所有模型在播放技巧（如倒放、慢动作）上表现严重不足。在构建过程中，数据集面临多重挑战：首先需从公开视频中精准筛选或合成具有细粒度差异的视频对，确保覆盖七类差异且时长控制在2-12秒；其次，人工标注3720项检查表需兼顾差异检测与相似性防幻觉的双重校验，并设计可扩展的LLM-as-a-Judge自动评估协议，以量化模型事实准确性。

常用场景

经典使用场景

ViDiC-1K数据集开创性地将差异描述任务从静态图像领域拓展至动态视频领域，为多模态大语言模型提供了评估视频对之间细粒度相似性与差异性的标准化基准。该数据集包含1000组精心筛选的视频对，涵盖真实场景与合成数据，并配备了3720项细粒度检查表，覆盖主体、风格、背景、相机运动、物体位置、动态变化及播放技巧等七大维度。研究者可借助该数据集训练和评测模型在理解视频编辑效果、追踪时序演变及感知连续性变化等方面的能力，尤其适用于需要模型同时捕捉视觉成分、空间布局与时间动态之间复杂交互的学术任务。

衍生相关工作

ViDiC-1K的发布催生了一系列重要的衍生研究方向，包括视频编辑感知、时序差异定位及多模态幻觉检测等。该数据集首次引入的LLM-as-a-Judge自动化评估协议，为后续研究提供了可扩展、可解释的模型评测范式。基于ViDiC-1K，研究者提出了ViDiC-Qwen等专用模型，通过在Qwen3-VL架构上微调，在7B参数量级上实现了显著优于同尺寸模型的性能。数据集的七大评估维度也启发学界关注播放技巧识别等此前被忽视的任务，如慢动作、倒放等时间反事实推理问题。该工作还促进了思考型模型（如Qwen3-VL的思考模式）在提高差异检测精度与保持相似性判断准确性之间的权衡研究。

数据集最近研究