FAVOR-Bench

github2025-03-21 更新2025-03-26 收录

下载链接：

https://github.com/FAVOR-Bench/FAVOR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FAVOR-Bench是一个用于全面评估多模态大型语言模型在细粒度视频运动理解能力的基准数据集，包含1,776个带有结构化手动注释的视频，涵盖6个子任务的8,184个多项选择题-答案对。此外，还开发了开放评估方法和FAVOR-Train数据集，用于提升视频理解模型的性能。

FAVOR-Bench is a benchmark dataset for comprehensively evaluating the fine-grained video motion understanding capabilities of multimodal large language models. It contains 1,776 videos with structured manual annotations, encompassing 8,184 multiple-choice question-answer pairs across 6 subtasks. Additionally, open evaluation methods and the FAVOR-Train dataset have been developed to enhance the performance of video understanding models.

创建时间：

2025-03-14

原始信息汇总

FAVOR-Bench 数据集概述

基本信息

数据集名称: FAVOR-Bench
发布日期: 2025年3月19日
数据集类型: 视频理解基准测试
论文链接: arXiv:2503.14935
数据集链接: HuggingFace
官方网站: FAVOR-Bench

数据集简介

FAVOR-Bench是一个用于细粒度视频运动理解的综合基准测试，旨在评估多模态大语言模型（MLLMs）在视频运动理解方面的能力。数据集包含1,776个视频，带有结构化的人工标注，涵盖多种运动类型。

数据集内容

视频数量: 1,776个
标注类型: 结构化运动标注
任务类型:
- 封闭式任务: 8,184个多选题对
- 开放式任务: 使用LLM-free和GPT辅助的标注评估方法
子任务数量: 6个

评估任务

封闭式评估: 包括多选题对，用于评估模型的运动理解能力。
开放式评估: 使用两种标注评估方法，增强基准测试的可解释性和可重复性。

数据集统计

任务类型分布: 封闭式和开放式任务的分布
运动数量分布: 每个视频的运动序列长度分布
运动词汇统计: 词云统计
正确答案分布: 封闭式任务的正确答案选项分布
视频时长分布: 视频时长的分布情况
问题数量分布: 每个视频对应的问题数量分布

实验结果

模型比较: 21种最先进的MLLMs在FAVOR-Bench上的表现比较
基准比较: FAVOR-Bench与其他基准测试的比较结果

使用示例

下载视频: 从HuggingFace下载FAVOR-Bench视频
安装依赖: 按照官方仓库说明安装依赖并下载检查点
运行推理: 使用提供的脚本进行推理，结果将保存在指定目录中

引用

bibtex @misc{tu2025favor, title={FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding}, author={Chongjun Tu and Lin Zhang and Pengtao Chen and Peng Ye and Xianfang Zeng and Wei Cheng and Gang Yu and Tao Chen}, year={2025}, eprint={2503.14935}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在视频内容理解领域，FAVOR-Bench通过精心设计的结构化标注流程构建而成。该数据集包含1,776个视频样本，每个视频均配备精细的运动注释，涵盖8,184个多选问答对和六类子任务。构建过程中采用人工标注与自动化验证相结合的方式，确保运动描述的准确性和时序动态的完整性。针对开放式评估任务，研究团队创新性地开发了两种评估方法，包括成本效益优化的无LLM评估方案和GPT辅助的标题评估体系，显著提升了基准测试的可解释性和可复现性。

特点

作为细粒度视频运动理解领域的综合性基准，FAVOR-Bench展现出多维度的技术特征。数据集涵盖从简单到复杂的运动序列，平均每个视频包含4-6个运动单元，视频时长呈现正态分布特征。其创新性地整合了封闭式多选评估和开放式生成评估双轨体系，特别是通过词云分析可见其运动词汇库具有丰富的语义多样性。该基准还包含17,152个训练视频的扩展集FAVOR-Train，为模型微调提供充足资源，在TVBench和MotionBench等主流测试集上验证了其增强效果。

使用方法

使用FAVOR-Bench进行模型评估需遵循标准化流程。研究者需从HuggingFace平台下载预处理视频文件至本地目录，配置符合要求的Qwen2.5-VL等模型运行环境。通过执行专用推理脚本inference_qa_qwen.py，系统将自动生成包含预测结果的JSONL格式文件，存储于指定输出目录。评估过程支持封闭式选择题的准确率计算和开放式描述的自动化评分，用户可通过分析输出的指标文件获取模型在六类子任务上的细粒度性能表现。该基准兼容主流多模态大语言模型框架，提供完整的评估协议文档和技术支持。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在视频内容理解领域的快速发展，其在细粒度运动理解方面的能力仍存在显著不足。为系统评估现有模型对视频动态的解析能力，研究团队于2025年3月正式发布了FAVOR-Bench基准数据集。该数据集由1,776个视频样本构成，通过结构化人工标注体系捕捉多样化运动特征，其创新性体现在同时设计了封闭式选择题与开放式生成任务的双轨评估框架。核心研究团队来自国内顶尖人工智能研究机构，通过构建包含8,184道选择题的六类子任务体系，首次建立了视频动态理解能力的标准化评估范式。该数据集对推动视频理解模型从粗粒度语义分析向精细时态动态建模的演进具有重要学术价值。

当前挑战

视频动态理解领域长期面临运动特征提取与时空关系建模的双重挑战。FAVOR-Bench针对性地设置了动作时序定位、跨模态对齐等六类子任务，其标注体系需精确捕捉毫秒级运动变化，这对标注人员的专业素养提出了极高要求。在数据集构建过程中，研究团队需解决视频样本多样性控制与标注一致性的平衡难题，特别是针对复杂交互动作的层次化标注。实验数据表明，现有最先进的21个MLLMs模型在时序动态解析任务上的平均准确率不足60%，暴露出当前模型在长程依赖建模方面的根本性缺陷。数据集通过创新的无LLM评估方法，为可解释性研究提供了新的技术路径。

常用场景

经典使用场景

在视频内容理解领域，FAVOR-Bench数据集被广泛应用于评估多模态大语言模型（MLLMs）在细粒度视频运动理解方面的能力。通过1,776个带有结构化手动注释的视频，该数据集为研究人员提供了丰富的实验材料，用于测试模型在多种运动相关任务中的表现。其经典使用场景包括设计8,184个多项选择题-答案对，涵盖六个不同的子任务，以及开发开放式的评估方法，从而全面衡量模型对视频动态细节的理解能力。

衍生相关工作

FAVOR-Bench数据集衍生了一系列经典工作，包括基于FAVOR-Train数据集微调的Qwen2.5-VL模型，该模型在TVBench、MotionBench等运动相关任务中表现出显著提升。此外，该数据集还启发了多种新型评估方法的研究，如成本高效的LLM无关评估和GPT辅助的标题评估方法。这些工作进一步推动了视频运动理解领域的发展，为后续研究提供了重要的技术参考。

数据集最近研究