V2P-Bench
收藏V2P-Bench 数据集概述
数据集简介
V2P-Bench 是一个专门用于评估大型视觉语言模型(LVLMs)在视频理解任务中的表现的基准数据集。该数据集旨在通过视觉提示增强空间和时间理解,从而更直观和有效地评估 LVLMs 的能力。V2P-Bench 包含 980 个精选视频和 1,172 个问答对,涵盖 5 个任务、12 个类别和 20 种视频类型。
数据集特点
- 视频时长分布广泛:视频分为短(< 3 分钟)、中(3-30 分钟)和长(30-120 分钟)三类,分别占 46.8%、22.0% 和 31.2%,以确保时间维度上的多样性。
- 多样化的视频类型和任务:数据集包含 5 个主要任务和 12 个类别,涵盖 20 个子领域,以增强在各种场景中的泛化能力。
- 多样化的目标和视觉提示:数据集包含多种目标类型和视觉提示,得益于广泛的视频来源和严格的手动注释。
- 全面的镜头类型:包括连续视频和过渡视频,后者显著增加了参考的难度,要求模型在不同场景中进行时间和空间定位。
- 高质量的注释:所有数据(问答对和视觉提示帧)均经过手动注释,并经过模型和人工过滤,以确保数据质量。
数据集结构
数据集的组织结构如下:
V2P-Bench ├── videos │ ├── ActivityNet │ ├── EgoSchema │ ├── LVBench │ ├── MLVU │ ├── MSRVTT-QA │ ├── MSVD-QA │ ├── MVBench │ ├── NExTVideo │ ├── Perception_Test │ ├── TVBench │ ├── VCGBench-Diverse │ ├── Video-MME_xk │ └── Video-MME_yk ├── frames │ ├── ActivityNet │ ├── EgoSchema │ ├── LVBench │ ├── MLVU │ ├── MSRVTT-QA │ ├── MSVD-QA │ ├── MVBench │ ├── NExTVideo │ ├── Perception_Test │ ├── TVBench │ ├── VCGBench-Diverse │ ├── Video-MME_xk │ └── Video-MME_yk └── dataset_info.jsonl
评估方法
- 数据准备:从 HuggingFace 下载数据集并按照指定结构组织。
- 推理:模型响应保存在 JSONL 文件中,使用提供的推理代码和响应文件进行模型设置。
- 评估:运行
eval.py脚本以获取跨视频时长和任务类型的准确率分数。
主要结果
- 跨维度的评估结果:展示了模型在不同维度上的表现。
- 跨时长的评估结果:展示了模型在不同时长视频上的表现。
- 额外实验:针对不同数据格式(检索和针式)进行了额外实验,结果显示 GPT-4o 和 Gemini-1.5-Pro 在检索格式中表现略好。
引用
如果该数据集对您的研究有帮助,请考虑引用我们的工作。
许可证
V2P-Bench 采用 CC-BY-NC 4.0 许可证,仅用于学术研究。数据集禁止未经许可的商业使用。如有任何问题,请联系 gaotiexinqu@mail.ustc.edu.cn。




