V2P-Bench

github2025-03-20 更新2025-03-24 收录

下载链接：

https://github.com/gaotiexinqu/V2P-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

V2P-Bench是一个专门用于评估大型视觉语言模型（LVLMs）在人类模型交互场景中视频理解能力的基准测试。它包含980个精选视频和1,172个问答对，涵盖5个任务、12个类别和20种视频类型，使用各种视觉提示来增强空间和时间理解。V2P-Bench旨在提供更直观和有效的LVLM能力评估。

V2P-Bench is a benchmark specifically designed to evaluate the video understanding capabilities of Large Vision-Language Models (LVLMs) in human-model interaction scenarios. It includes 980 curated videos and 1,172 question-answer pairs, covering 5 tasks, 12 categories and 20 video types, and utilizes various visual prompts to enhance spatial and temporal understanding. V2P-Bench aims to deliver a more intuitive and effective assessment of LVLMs' capabilities.

创建时间：

2025-03-20

原始信息汇总

V2P-Bench 数据集概述

数据集简介

V2P-Bench 是一个专门用于评估大型视觉语言模型（LVLMs）在视频理解任务中的表现的基准数据集。该数据集旨在通过视觉提示增强空间和时间理解，从而更直观和有效地评估 LVLMs 的能力。V2P-Bench 包含 980 个精选视频和 1,172 个问答对，涵盖 5 个任务、12 个类别和 20 种视频类型。

数据集特点

视频时长分布广泛：视频分为短（< 3 分钟）、中（3-30 分钟）和长（30-120 分钟）三类，分别占 46.8%、22.0% 和 31.2%，以确保时间维度上的多样性。
多样化的视频类型和任务：数据集包含 5 个主要任务和 12 个类别，涵盖 20 个子领域，以增强在各种场景中的泛化能力。
多样化的目标和视觉提示：数据集包含多种目标类型和视觉提示，得益于广泛的视频来源和严格的手动注释。
全面的镜头类型：包括连续视频和过渡视频，后者显著增加了参考的难度，要求模型在不同场景中进行时间和空间定位。
高质量的注释：所有数据（问答对和视觉提示帧）均经过手动注释，并经过模型和人工过滤，以确保数据质量。

数据集结构

数据集的组织结构如下：

V2P-Bench ├── videos │ ├── ActivityNet │ ├── EgoSchema │ ├── LVBench │ ├── MLVU │ ├── MSRVTT-QA │ ├── MSVD-QA │ ├── MVBench │ ├── NExTVideo │ ├── Perception_Test │ ├── TVBench │ ├── VCGBench-Diverse │ ├── Video-MME_xk │ └── Video-MME_yk ├── frames │ ├── ActivityNet │ ├── EgoSchema │ ├── LVBench │ ├── MLVU │ ├── MSRVTT-QA │ ├── MSVD-QA │ ├── MVBench │ ├── NExTVideo │ ├── Perception_Test │ ├── TVBench │ ├── VCGBench-Diverse │ ├── Video-MME_xk │ └── Video-MME_yk └── dataset_info.jsonl

评估方法

数据准备：从 HuggingFace 下载数据集并按照指定结构组织。
推理：模型响应保存在 JSONL 文件中，使用提供的推理代码和响应文件进行模型设置。
评估：运行 eval.py 脚本以获取跨视频时长和任务类型的准确率分数。

主要结果

跨维度的评估结果：展示了模型在不同维度上的表现。
跨时长的评估结果：展示了模型在不同时长视频上的表现。
额外实验：针对不同数据格式（检索和针式）进行了额外实验，结果显示 GPT-4o 和 Gemini-1.5-Pro 在检索格式中表现略好。

引用

如果该数据集对您的研究有帮助，请考虑引用我们的工作。

许可证

V2P-Bench 采用 CC-BY-NC 4.0 许可证，仅用于学术研究。数据集禁止未经许可的商业使用。如有任何问题，请联系 gaotiexinqu@mail.ustc.edu.cn。

搜集汇总

数据集介绍

构建方式

V2P-Bench数据集的构建基于对大规模视觉语言模型（LVLMs）在视频理解任务中的表现评估需求。该数据集包含980个精选视频和1,172个问答对，涵盖5个主要任务、12个类别和20种视频类型。通过引入多样化的视觉提示，数据集旨在增强模型对视频时空信息的理解能力。视频时长分布广泛，分为短、中、长三类，确保时间维度上的多样性。所有数据均经过人工标注，并通过模型和人工双重筛选，以保证数据质量。

特点

V2P-Bench数据集的特点在于其多样性和全面性。视频类型涵盖广泛，从连续视频到过渡视频，增加了模型在时空定位上的挑战性。数据集包含丰富的视觉提示和目标类型，得益于广泛的视频来源和严格的人工标注。此外，数据集的问答对采用多选形式，仅通过规则匹配，无需引入第三方模型，确保了评估的客观性和一致性。

使用方法

使用V2P-Bench数据集时，首先需从HuggingFace平台下载数据，并按照指定目录结构组织视频和帧数据。模型推理结果以JSONL格式保存，用户可参考提供的推理代码和响应文件进行模型设置。评估过程通过运行eval.py脚本，计算不同视频时长和任务类型的准确率得分。数据集支持多选问答对，评估过程仅依赖规则匹配，确保评估的透明性和可重复性。

背景与挑战

背景概述

V2P-Bench数据集于2025年3月20日发布，由研究团队精心设计，旨在评估大规模视觉语言模型（LVLMs）在视频理解任务中的表现，特别是在人机交互场景中的应用。该数据集包含980个精选视频和1,172个问答对，涵盖了5个主要任务、12个类别和20种视频类型。通过引入多样化的视觉提示，V2P-Bench增强了模型对视频时空信息的理解能力，为LVLMs在复杂场景中的表现提供了更为直观和有效的评估工具。其广泛的时间分布、多样的视频类型和高质量的手动注释，使其成为视频理解领域的重要基准。

当前挑战

V2P-Bench面临的挑战主要体现在两个方面。首先，视频理解任务本身具有较高的复杂性，尤其是在涉及时空信息的场景中，模型需要准确捕捉视频中的动态变化和空间关系。现有的文本提示往往难以精确描述这些信息，导致评估结果不够准确。其次，数据集的构建过程中，如何确保视频和问答对的多样性与代表性是一个重要挑战。尽管V2P-Bench通过手动注释和多重过滤机制保证了数据质量，但在处理长视频和复杂场景时，如何平衡数据的广度和深度仍需进一步探索。此外，视觉提示的设计与优化也对模型的性能提出了更高的要求。

常用场景

经典使用场景

V2P-Bench数据集在视频-语言理解领域具有广泛的应用，尤其是在评估大型视觉-语言模型（LVLMs）的视频理解能力方面。该数据集通过引入视觉提示，增强了模型在复杂场景中的空间和时间理解能力。经典的使用场景包括视频问答（VideoQA）和多模态任务（Multi-Modal），特别是在需要精确时空参考的任务中，V2P-Bench提供了丰富的视频和问题-答案对，帮助研究人员评估模型在人类-模型交互中的表现。

解决学术问题

V2P-Bench解决了现有基准测试中文本提示缺乏精确时空参考的问题，特别是在复杂场景中评估模型表现时。通过提供多样化的视频类型、任务类别和视觉提示，该数据集为研究人员提供了一个更直观和有效的评估工具，帮助他们在视频理解领域进行更深入的研究。其手动标注和双重过滤机制确保了数据的高质量，进一步提升了研究的可靠性。

衍生相关工作

V2P-Bench的发布推动了多个相关研究领域的发展，特别是在视频-语言模型和多模态学习方面。基于该数据集的研究工作包括改进视频问答系统的性能、开发新的视觉提示方法以及探索模型在长视频理解中的表现。这些工作不仅提升了模型的时空理解能力，还为未来的多模态研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集