FAVOR-Bench

Name: FAVOR-Bench
Creator: 复旦大学
Published: 2025-03-19 14:42:32
License: 暂无描述

arXiv2025-03-19 更新2025-03-21 收录

下载链接：

https://favor-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

FAVOR-Bench是由复旦大学等多个机构构建的细粒度视频运动理解综合基准，包含1776个经过精心挑选的视频，涵盖日常生活记录、主观视角视频、电视剧和动画等多种类型。该数据集通过半自动化管道构建了8184个挑战性的问题答案对，并提供了开放式的视频描述评估任务。FAVOR-Bench旨在评估模型在细粒度运动理解和描述方面的能力，包含了闭合式的问题回答和开放式任务，如GPT辅助评估和新型无LLM评估框架。

FAVOR-Bench is a comprehensive fine-grained video motion understanding benchmark developed by Fudan University and multiple other institutions. It contains 1776 carefully selected videos covering diverse categories including daily life footage, first-person perspective videos, TV dramas, and animations. A total of 8184 challenging question-answer pairs are constructed via a semi-automated pipeline for this benchmark, and it also provides open-ended video description evaluation tasks. FAVOR-Bench aims to evaluate models' capabilities in fine-grained video motion understanding and description, encompassing closed-ended question answering and open-ended tasks such as GPT-assisted evaluation and a novel LLM-free evaluation framework.

提供机构：

复旦大学

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

FAVOR-Bench数据集的构建采用了半自动化的流程，首先从多个来源收集了1,776个视频，涵盖了日常生活记录、电视节目、动画和第一人称视角视频等多种类型。通过DeepSeek-R1模型生成初始的多选题问答对，随后进行盲过滤和单帧过滤，以去除可以通过常识或少数帧回答的简单问题。最后，通过严格的人工验证确保问答对的质量。对于开放式评估，数据集不仅采用了常见的GPT辅助评估方法，还提出了一个新颖的LLM-free评估框架，以降低生成任务的评估成本并增强评估的可解释性和可重复性。

特点

FAVOR-Bench数据集的特点在于其专注于细粒度的视频运动理解，涵盖了六个不同的子任务，包括动作序列、整体动作分类、单一动作细节、多重动作细节、相机运动和非主体运动。数据集中的每个视频都带有结构化的手动注释，确保了评估的全面性和挑战性。此外，FAVOR-Bench还提供了开放式评估任务，进一步测试模型在生成任务中的表现。

使用方法

FAVOR-Bench数据集的使用方法包括两个主要方面：封闭式评估和开放式评估。封闭式评估通过8,184个多选题问答对，测试模型在六个不同任务中的表现。开放式评估则通过GPT辅助评估和LLM-free评估框架，评估模型在生成任务中的表现。用户可以通过这些任务全面评估模型在细粒度视频运动理解和描述方面的能力。此外，FAVOR-Bench还提供了一个训练集FAVOR-Train，用户可以通过微调模型来提升其在视频运动理解任务中的表现。

背景与挑战

背景概述

FAVOR-Bench是由复旦大学、香港中文大学及StepFun等机构的研究团队于2025年推出的一个专注于细粒度视频运动理解的数据集。该数据集的创建旨在解决多模态大语言模型（MLLMs）在视频内容理解中的局限性，特别是在细粒度运动理解方面的不足。FAVOR-Bench包含1,776个视频，涵盖了日常生活记录、第一人称视角视频、电视剧和动画等多种类型，并提供了8,184个多选问答对和开放式的视频描述任务。通过这一数据集，研究人员能够全面评估现有MLLMs在视频运动理解中的能力，尤其是在时间动态、相机运动和交互细节等方面的表现。FAVOR-Bench的推出为视频理解模型的开发提供了重要的基准工具，推动了细粒度视频运动理解领域的研究进展。

当前挑战

FAVOR-Bench面临的挑战主要体现在两个方面。首先，细粒度视频运动理解本身具有较高的复杂性，模型需要准确捕捉视频中的时间动态、相机运动和交互细节，这对现有的MLLMs提出了极高的要求。尽管当前模型在整体行为识别上表现尚可，但在细粒度动作细节的理解和描述上仍存在显著不足，尤其是在开放式描述任务中，模型往往过于关注静态内容，而忽略了对时间动态的深入分析。其次，数据集的构建过程中也面临诸多挑战，包括视频的选择与标注的复杂性。为了确保数据集的多样性和高质量，研究人员采用了半自动化的标注流程，并通过多轮筛选和人工验证来确保问答对的准确性和挑战性。此外，开放式的视频描述任务还需要开发新的评估方法，如基于GPT的辅助评估和成本效益更高的LLM-free评估框架，以增强评估的可解释性和可重复性。

常用场景

经典使用场景

FAVOR-Bench数据集主要用于评估多模态大语言模型（MLLMs）在细粒度视频运动理解方面的能力。通过包含1,776个视频和8,184个多选问答对，该数据集设计了六种不同的任务，涵盖了从动作序列到相机运动的多个维度。经典使用场景包括对视频中复杂动作序列的识别、相机运动的分析以及多时刻动作细节的对比。这些任务能够全面测试模型在理解视频动态内容时的表现，尤其是在细粒度运动理解方面的能力。

实际应用

FAVOR-Bench的实际应用场景广泛，尤其是在需要精确理解视频动态内容的领域。例如，在机器人模仿学习中，模型需要准确理解人类的动作序列以进行模仿；在视频生成任务中，模型需要捕捉视频中的相机运动和动作细节以生成逼真的视频内容。此外，FAVOR-Bench还可用于视频字幕生成、视频问答系统等下游任务，帮助提升模型在实际应用中的表现。通过提供细粒度的视频运动理解能力，该数据集为这些应用场景提供了强有力的支持。

衍生相关工作

FAVOR-Bench的推出催生了一系列相关研究工作，尤其是在细粒度视频运动理解领域。基于该数据集，研究者开发了FAVOR-Train，一个包含17,152个视频的训练集，专门用于提升模型在细粒度运动理解上的表现。此外，许多多模态大语言模型（如Qwen2.5-VL）通过在FAVOR-Train上进行微调，显著提升了在FAVOR-Bench和其他相关基准（如TVBench和MotionBench）上的表现。这些工作不仅验证了FAVOR-Bench的有效性，还推动了视频理解模型的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集