VidDiffBench

github2025-03-17 更新2025-03-13 收录

下载链接：

https://github.com/jmhb0/viddiff

下载链接

链接失效反馈

官方服务：

资源简介：

视频动作差异任务比较同一动作的两个视频，目标是识别动作执行中的差异，并以自然语言表达这些差异。

The Video Action Difference Task compares two videos of the same action, aiming to identify discrepancies in the action’s execution and articulate these differences in natural language.

创建时间：

2025-03-01

原始信息汇总

Video Action Differencing benchmark (VidDiffBench)

任务描述

任务：视频动作差异识别
输入：两个相同动作的视频（$v_a, v_b$）、动作描述字符串$s$、一组候选差异字符串$lbrace d_0, d_1, ... brace$
输出：对于每个差异字符串$d_i$，预测$p_iinlbrace a,b brace$，表示该描述更适用于视频a还是视频b

数据获取

从Huggingface hub获取dataset和videos：https://huggingface.co/datasets/jmhb/VidDiffBench

评估

首先安装依赖：pip install -r requirements.txt
预测格式：收集predictions作为字典列表
运行评估：使用eval_viddiff.py进行评估

开放评估

在开放评估中，模型必须生成差异字符串

运行LMM预测

测试了多种LMM模型：GPT-4o、Claude、Gemini、QwenVL和LLaVA-video

VidDiff方法

VidDiff方法位于viddiff_method目录

致谢

使用了VisDiff的代码来运行CLIP服务器
VidDiff方法的动作分割步骤参考了Anna Kukleva的仓库

引用

请引用相关论文：Video Action Differencing

搜集汇总

数据集介绍

构建方式

VidDiffBench数据集的构建旨在为视频行为差异识别任务提供基准。该数据集通过收集两组执行相同行为但表现不同的视频，辅以行为描述和候选差异描述字符串，构建了一个闭合与开放评估的测试集。在闭合评估中，数据集包含两段视频、行为描述以及一系列候选差异描述；而在开放评估中，除了视频和行为描述外，还包括一个整数n_diff，用于限制生成的差异描述数量。

使用方法

使用VidDiffBench数据集，研究者首先需要从Huggingface hub获取数据集和视频。随后，根据评估模式（闭合或开放）的不同，研究者需要按照指定的预测格式构建预测结果，并使用提供的eval_viddiff工具进行评估。开放评估中，模型还需生成差异描述字符串，并通过LLM evaluator与地面真实描述进行匹配。

背景与挑战

背景概述

VidDiffBench数据集源于2025年ICLR会议论文《Video Action Differencing》，由Burgess等研究人员提出。该数据集旨在解决视频动作差异识别任务，通过比较两个执行相同动作的视频，识别出动作执行中的差异，并以自然语言形式表述这些差异。VidDiffBench的创建，为视频理解领域提供了新的研究方向，对于推动相关技术的发展具有重要意义。

当前挑战

该数据集在研究领域中面临的挑战主要包括：1)如何准确识别并描述两个视频中的细微动作差异；2)构建过程中，如何高效处理大量视频数据，并确保标注的质量和一致性。此外，开放评估模式下，模型还需生成差异描述字符串，这要求模型具备较强的自然语言生成能力，以及视频内容与语言描述之间的准确映射。

常用场景

经典使用场景

VidDiffBench数据集的经典使用场景在于对视频中相同动作的不同执行方式进行区分与描述。具体而言，它通过输入两段执行相同动作的视频，辅以动作描述及候选差异描述，训练模型识别并表述两视频间的具体差异。

解决学术问题

该数据集解决了视频分析领域中的一项关键学术问题，即如何精确识别并量化视频中相似动作的细微差异。这对于动作识别、视频理解等研究领域具有重要意义，有助于提升相关算法的细粒度识别能力。

实际应用

在实际应用中，VidDiffBench数据集可应用于动作指导、运动分析、视频编辑等领域，通过识别动作差异，为用户提供个性化的动作改进建议，或辅助视频内容的精准剪辑。

数据集最近研究