FAVOR

Hugging Face2025-03-16 更新2025-03-17 收录

下载链接：

https://huggingface.co/datasets/zl2048/FAVOR

下载链接

链接失效反馈

官方服务：

资源简介：

FAVOR-Bench是一个用于细粒度视频运动理解的全面基准，包括封闭式和开放式任务，以及一个用于模型训练的数据集FAVOR-Train。

FAVOR-Bench is a comprehensive benchmark for fine-grained video motion understanding, covering closed-ended and open-ended tasks, along with a dedicated dataset FAVOR-Train for model training.

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

FAVOR数据集的构建，采用人工标注的方式，对1,776个视频中的各种运动进行结构化标注，形成细致的运动描述。该数据集包含闭合式和开放式两种任务评估方式，闭合式评估设计了8,184个多项选择题，开放式评估则采用了一种创新的低成本无需LLM的评估方法和一种GPT辅助的标题评估方法，确保了评估的准确性和可解释性。

特点

FAVOR数据集的特点在于，它专注于细粒度运动理解的核心能力评估，收集了来自网络、公共数据集和通过Unity3合成的自合成视频，覆盖了广泛的真实世界应用场景。此外，数据集通过精细的人工标注和多阶段质量控制流程，保证了高质量的数据标注。

使用方法

使用FAVOR数据集，首先需要安装video2dataset工具，然后从Huggingface下载video_info.meta.jsonl文件，并放置在data目录下。数据集分为DEV集和TEST集，可以使用DEV集优化模型，并将答案文件上传到leaderboard查看模型性能。此外，数据集还提供了自我收集的数据下载链接和公开可用数据的下载指南，以便用户获取和使用。

背景与挑战

背景概述

FAVOR数据集，全称为Fine-Grained Video Motion Understanding Benchmark，是由Tu等人于2025年提出的一种针对细粒度视频运动理解的综合评估基准。该数据集旨在推动多模态大型语言模型在视频内容理解方面的能力，尤其是对细粒度运动的理解。FAVOR数据集包含了1776个结构化手动标注的视频，以及8184个涵盖六个子任务的封闭式评估的多项选择题答案对。此外，为增强视频模型在运动层面的理解能力，研究团队还构建了FAVOR-Train数据集，包含17279个具有细粒度运动标注的视频。FAVOR-Bench的提出，为视频理解模型的能力评估提供了新的标准和工具，对相关领域的研究产生了重要影响。

当前挑战

该数据集在构建过程中面临的挑战包括：一是如何确保标注的质量和一致性，二是如何涵盖多样化的运动类型以适应不同的应用场景，三是在开放性任务中如何有效评估模型的描述能力。此外，现有的多模态大型语言模型在细粒度运动理解方面仍存在显著局限，如何提升这些模型在视频运动理解和描述方面的能力，是该数据集面临的另一个重要挑战。

常用场景

经典使用场景

在视频理解领域，FAVOR数据集的典型应用场景在于评估多模态大型语言模型对视频细粒度运动的识别与理解能力。该数据集提供了精心设计的多选问题，覆盖了六个不同的子任务，旨在通过对视频内容的深入分析，检验模型在捕捉和描述视频运动细节方面的性能。

衍生相关工作

基于FAVOR数据集，已经衍生出一系列相关工作，包括对现有模型在细粒度运动理解上的性能评估，以及利用该数据集进行模型训练和微调，以提高在视频理解任务上的表现。这些研究进一步推动了视频理解技术的进步，并促进了相关领域的应用发展。

数据集最近研究