five

V2P-Bench

收藏
github2025-03-20 更新2025-03-24 收录
下载链接:
https://github.com/gaotiexinqu/V2P-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
V2P-Bench是一个专门用于评估大型视觉语言模型(LVLMs)在人类模型交互场景中视频理解能力的基准测试。它包含980个精选视频和1,172个问答对,涵盖5个任务、12个类别和20种视频类型,使用各种视觉提示来增强空间和时间理解。V2P-Bench旨在提供更直观和有效的LVLM能力评估。

V2P-Bench is a benchmark specifically designed to evaluate the video understanding capabilities of Large Vision-Language Models (LVLMs) in human-model interaction scenarios. It includes 980 curated videos and 1,172 question-answer pairs, covering 5 tasks, 12 categories and 20 video types, and utilizes various visual prompts to enhance spatial and temporal understanding. V2P-Bench aims to deliver a more intuitive and effective assessment of LVLMs' capabilities.
创建时间:
2025-03-20
原始信息汇总

V2P-Bench 数据集概述

数据集简介

V2P-Bench 是一个专门用于评估大型视觉语言模型(LVLMs)在视频理解任务中的表现的基准数据集。该数据集旨在通过视觉提示增强空间和时间理解,从而更直观和有效地评估 LVLMs 的能力。V2P-Bench 包含 980 个精选视频和 1,172 个问答对,涵盖 5 个任务、12 个类别和 20 种视频类型。

数据集特点

  • 视频时长分布广泛:视频分为短(< 3 分钟)、中(3-30 分钟)和长(30-120 分钟)三类,分别占 46.8%、22.0% 和 31.2%,以确保时间维度上的多样性。
  • 多样化的视频类型和任务:数据集包含 5 个主要任务和 12 个类别,涵盖 20 个子领域,以增强在各种场景中的泛化能力。
  • 多样化的目标和视觉提示:数据集包含多种目标类型和视觉提示,得益于广泛的视频来源和严格的手动注释。
  • 全面的镜头类型:包括连续视频和过渡视频,后者显著增加了参考的难度,要求模型在不同场景中进行时间和空间定位。
  • 高质量的注释:所有数据(问答对和视觉提示帧)均经过手动注释,并经过模型和人工过滤,以确保数据质量。

数据集结构

数据集的组织结构如下:

V2P-Bench ├── videos │ ├── ActivityNet │ ├── EgoSchema │ ├── LVBench │ ├── MLVU │ ├── MSRVTT-QA │ ├── MSVD-QA │ ├── MVBench │ ├── NExTVideo │ ├── Perception_Test │ ├── TVBench │ ├── VCGBench-Diverse │ ├── Video-MME_xk │ └── Video-MME_yk ├── frames │ ├── ActivityNet │ ├── EgoSchema │ ├── LVBench │ ├── MLVU │ ├── MSRVTT-QA │ ├── MSVD-QA │ ├── MVBench │ ├── NExTVideo │ ├── Perception_Test │ ├── TVBench │ ├── VCGBench-Diverse │ ├── Video-MME_xk │ └── Video-MME_yk └── dataset_info.jsonl

评估方法

  • 数据准备:从 HuggingFace 下载数据集并按照指定结构组织。
  • 推理:模型响应保存在 JSONL 文件中,使用提供的推理代码和响应文件进行模型设置。
  • 评估:运行 eval.py 脚本以获取跨视频时长和任务类型的准确率分数。

主要结果

  • 跨维度的评估结果:展示了模型在不同维度上的表现。
  • 跨时长的评估结果:展示了模型在不同时长视频上的表现。
  • 额外实验:针对不同数据格式(检索和针式)进行了额外实验,结果显示 GPT-4o 和 Gemini-1.5-Pro 在检索格式中表现略好。

引用

如果该数据集对您的研究有帮助,请考虑引用我们的工作。

许可证

V2P-Bench 采用 CC-BY-NC 4.0 许可证,仅用于学术研究。数据集禁止未经许可的商业使用。如有任何问题,请联系 gaotiexinqu@mail.ustc.edu.cn。

搜集汇总
数据集介绍
main_image_url
构建方式
V2P-Bench数据集的构建基于对大规模视觉语言模型(LVLMs)在视频理解任务中的表现评估需求。该数据集包含980个精选视频和1,172个问答对,涵盖5个主要任务、12个类别和20种视频类型。通过引入多样化的视觉提示,数据集旨在增强模型对视频时空信息的理解能力。视频时长分布广泛,分为短、中、长三类,确保时间维度上的多样性。所有数据均经过人工标注,并通过模型和人工双重筛选,以保证数据质量。
特点
V2P-Bench数据集的特点在于其多样性和全面性。视频类型涵盖广泛,从连续视频到过渡视频,增加了模型在时空定位上的挑战性。数据集包含丰富的视觉提示和目标类型,得益于广泛的视频来源和严格的人工标注。此外,数据集的问答对采用多选形式,仅通过规则匹配,无需引入第三方模型,确保了评估的客观性和一致性。
使用方法
使用V2P-Bench数据集时,首先需从HuggingFace平台下载数据,并按照指定目录结构组织视频和帧数据。模型推理结果以JSONL格式保存,用户可参考提供的推理代码和响应文件进行模型设置。评估过程通过运行eval.py脚本,计算不同视频时长和任务类型的准确率得分。数据集支持多选问答对,评估过程仅依赖规则匹配,确保评估的透明性和可重复性。
背景与挑战
背景概述
V2P-Bench数据集于2025年3月20日发布,由研究团队精心设计,旨在评估大规模视觉语言模型(LVLMs)在视频理解任务中的表现,特别是在人机交互场景中的应用。该数据集包含980个精选视频和1,172个问答对,涵盖了5个主要任务、12个类别和20种视频类型。通过引入多样化的视觉提示,V2P-Bench增强了模型对视频时空信息的理解能力,为LVLMs在复杂场景中的表现提供了更为直观和有效的评估工具。其广泛的时间分布、多样的视频类型和高质量的手动注释,使其成为视频理解领域的重要基准。
当前挑战
V2P-Bench面临的挑战主要体现在两个方面。首先,视频理解任务本身具有较高的复杂性,尤其是在涉及时空信息的场景中,模型需要准确捕捉视频中的动态变化和空间关系。现有的文本提示往往难以精确描述这些信息,导致评估结果不够准确。其次,数据集的构建过程中,如何确保视频和问答对的多样性与代表性是一个重要挑战。尽管V2P-Bench通过手动注释和多重过滤机制保证了数据质量,但在处理长视频和复杂场景时,如何平衡数据的广度和深度仍需进一步探索。此外,视觉提示的设计与优化也对模型的性能提出了更高的要求。
常用场景
经典使用场景
V2P-Bench数据集在视频-语言理解领域具有广泛的应用,尤其是在评估大型视觉-语言模型(LVLMs)的视频理解能力方面。该数据集通过引入视觉提示,增强了模型在复杂场景中的空间和时间理解能力。经典的使用场景包括视频问答(VideoQA)和多模态任务(Multi-Modal),特别是在需要精确时空参考的任务中,V2P-Bench提供了丰富的视频和问题-答案对,帮助研究人员评估模型在人类-模型交互中的表现。
解决学术问题
V2P-Bench解决了现有基准测试中文本提示缺乏精确时空参考的问题,特别是在复杂场景中评估模型表现时。通过提供多样化的视频类型、任务类别和视觉提示,该数据集为研究人员提供了一个更直观和有效的评估工具,帮助他们在视频理解领域进行更深入的研究。其手动标注和双重过滤机制确保了数据的高质量,进一步提升了研究的可靠性。
衍生相关工作
V2P-Bench的发布推动了多个相关研究领域的发展,特别是在视频-语言模型和多模态学习方面。基于该数据集的研究工作包括改进视频问答系统的性能、开发新的视觉提示方法以及探索模型在长视频理解中的表现。这些工作不仅提升了模型的时空理解能力,还为未来的多模态研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作