TVBench

Hugging Face2024-10-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/FunAILab/TVBench

下载链接

链接失效反馈

官方服务：

资源简介：

TVBench是一个专门用于评估视频问答中时间理解能力的新基准。它定义了10个时间上具有挑战性的任务，包括重复计数、移动物体的属性、时间定位、时间顺序排列和区分时间上难以区分的动作反义词等。数据集包含来自多个来源的视频，并提供了每个任务的问题和答案的json文件。

创建时间：

2024-10-09

原始信息汇总

TVBench 数据集概述

基本信息

许可证: CC BY 4.0
任务类别: 视觉问答
模态: 视频、文本
语言: 英语
数据规模: 1K<n<10K

配置详情

action_antonym: 数据文件位于 json/action_antonym.json
action_count: 数据文件位于 json/action_count.json
action_localization: 数据文件位于 json/action_localization.json
action_sequence: 数据文件位于 json/action_sequence.json
egocentric_sequence: 数据文件位于 json/egocentric_sequence.json
moving_direction: 数据文件位于 json/moving_direction.json
object_count: 数据文件位于 json/object_count.json
object_shuffle: 数据文件位于 json/object_shuffle.json
scene_transition: 数据文件位于 json/scene_transition.json
unexpected_action: 数据文件位于 json/unexpected_action.json

数据集描述

TVBench 是一个专门用于评估视频问答中时间理解的新基准。该数据集解决了现有数据集的三个主要问题：

单帧的静态信息通常足以解决任务。
问题和候选答案的文本过于信息丰富，允许模型在不依赖任何视觉输入的情况下正确回答。
许多问题仅凭世界知识即可回答，使得基准测试成为知识复制的测试而非视觉推理。

TVBench 定义了10个时间上具有挑战性的任务，包括重复计数、移动对象的属性、时间定位、时间顺序排序以及区分时间上难以区分的动作反义词等。

视频来源

视频来自 Perception Test, CLEVRER, STAR, MoVQA, Charades-STA, NTU RGB+D, FunQA 和 CSV。其中，NTU RGB+D 的视频需要从官方网站下载，并存储在 video/action_antonym 文件夹中。

引用

@misc{cores2024tvbench, author = {Daniel Cores and Michael Dorkenwald and Manuel Mucientes and Cees G. M. Snoek and Yuki M. Asano}, title = {TVBench: Redesigning Video-Language Evaluation}, year = {2024}, eprint = {arXiv:2410.07752}, }

搜集汇总

数据集介绍

构建方式

TVBench数据集的构建旨在解决现有视频问答数据集中的三大问题：单帧静态信息足以完成任务、问题和候选答案文本过于信息丰富、以及仅凭世界知识即可回答问题。为此，研究团队定义了10项具有时间挑战性的任务，涵盖重复计数、移动物体属性、时间定位、时间顺序排列等。数据集中的视频来源于Perception Test、CLEVRER、STAR等多个公开数据集，并通过JSON文件提供每个任务的问答数据。

特点

TVBench数据集的特点在于其专注于时间理解能力的评估，任务设计旨在避免模型仅依赖静态帧或文本信息进行推理。数据集包含10项任务，如动作计数、物体移动方向、动作定位等，这些任务要求模型具备对视频时序信息的深入理解。此外，数据集中的视频长度和样本数量经过精心设计，确保任务的多样性和挑战性。现有最先进的文本、图像及视频语言模型在TVBench上的表现接近随机水平，凸显了其评估能力的严格性。

使用方法

TVBench数据集的使用方法较为直观，用户可通过下载提供的JSON文件获取每个任务的问答数据。视频文件除NTU RGB+D数据集外，均已包含在数据集中，NTU RGB+D的视频可从其官方网站下载并存储在指定文件夹中。用户可通过这些数据训练和评估模型在时间理解任务上的表现。此外，数据集还提供了详细的统计信息和排行榜，便于用户对比不同模型的性能。

背景与挑战

背景概述

TVBench数据集由Daniel Cores、Michael Dorkenwald等研究人员于2024年提出，旨在重新设计视频-语言评估的基准。该数据集专注于评估视频问答中的时序理解能力，解决了现有数据集中的三大问题：单帧静态信息足以完成任务、问题和候选答案文本过于信息丰富、以及世界知识单独即可回答问题。TVBench通过定义10个时序挑战任务，如动作计数、物体移动属性、时序定位和时序顺序排列等，推动了视频语言模型在时序理解方面的研究。该数据集的影响力在于其显著提升了视频问答领域对时序信息的重视，并为相关模型的评估提供了更为严谨的基准。

当前挑战

TVBench数据集在解决视频问答领域问题时面临多重挑战。首先，现有模型在处理时序信息时表现不佳，大多数模型在TVBench上的表现接近随机水平，仅少数强时序模型如Tarsier能够超越随机基线。其次，数据集的构建过程中，研究人员需要确保任务的时序复杂性，避免模型仅依赖静态信息或文本信息进行推理。此外，视频数据的来源多样，包括Perception Test、CLEVRER等多个数据集，如何统一处理这些不同来源的视频数据并确保其质量，也是构建过程中的一大挑战。最后，自动评估过程的不稳定性，尤其是在开放性问题中使用大型语言模型进行评估时，进一步增加了数据集应用的复杂性。

常用场景

经典使用场景

TVBench数据集在视频问答（Video QA）领域中被广泛用于评估模型对时间序列信息的理解能力。其经典使用场景包括对视频中的动作计数、物体移动方向识别、动作定位以及场景转换等任务的测试。通过设计10种具有时间挑战性的任务，TVBench能够有效检验模型在处理复杂时间序列数据时的表现。

衍生相关工作

TVBench的推出催生了一系列相关研究工作，特别是在时间序列模型优化方面。例如，Tarsier等最新时间序列模型在TVBench上的表现显著优于随机基线，推动了视频问答领域的技术进步。此外，TVBench还为其他视频理解任务提供了新的评估标准，促进了该领域的进一步发展。

数据集最近研究