IV-Bench

github2025-04-23 更新2025-04-24 收录

下载链接：

https://github.com/multimodal-art-projection/IV-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

IV-Bench是一个用于评估多模态大型语言模型在图像基础视频感知和推理能力的基准数据集。它包含967个视频和2,585个外部来源的图像-文本查询，每个查询都需要视频和图像上下文才能准确回答。数据集涵盖5个主要类别和13个不同的任务（7个感知任务和6个推理任务），确保在各种场景和任务类型中的多样性。

IV-Bench is a benchmark dataset developed to evaluate the image-grounded video perception and reasoning abilities of multimodal large language models. It includes 967 videos and 2,585 image-text queries sourced from external resources, with each query requiring both video and image contexts to be answered accurately. The dataset covers 5 core categories and 13 distinct tasks (7 perception tasks and 6 reasoning tasks), thus ensuring diversity across various scenarios and task types.

创建时间：

2025-04-16

原始信息汇总

IV-Bench数据集概述

数据集简介

IV-Bench是一个用于评估多模态大语言模型在图像基础视频感知和推理能力的基准测试。该数据集包含967个视频与2,585个外部来源的图像-文本查询对，每个查询都需要结合视频和图像上下文才能准确回答。

数据集特点

图像-文本查询：每个视频对应多个查询，每个查询包含一个外部来源的图像和一个问题，提供必要的上下文线索。
五大类别：视频时长≥5分钟，涵盖知识、电影与电视、体育、艺术表演和生活记录等多个领域。
十三项任务：包含7项感知任务和6项推理任务，旨在全面测试多模态理解能力。

数据集内容

视频数量：967个
查询数量：2,585个
类别数量：5个
任务数量：13个（7项感知任务，6项推理任务）

使用方式

安装：提供完整的环境配置，详见installation.md。
下载数据集：
- 从Hugging Face下载无视频的测试数据。
- 使用提供的脚本download_video.sh下载视频。
模型评估：使用提供的Python脚本进行模型评估，示例见internvl2_5.sh。

参考引用

bib @misc{ma2025ivbenchbenchmarkimagegroundedvideo, title={IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs}, author={David Ma and Yuanxing Zhang and Jincheng Ren and Jarvis Guo and Yifan Yao and Zhenlin Wei and Zhenzhu Yang and Zhongyuan Peng and Boyu Feng and Jun Ma and Xiao Gu and Zhoufutu Wen and King Zhu and Yancheng He and Meng Cao and Shiwen Ni and Jiaheng Liu and Wenhao Huang and Ge Zhang and Xiaojie Jin}, year={2025}, eprint={2504.15415}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.15415}, }

搜集汇总

数据集介绍

构建方式

IV-Bench数据集通过精心设计的流程构建，涵盖967个视频与2,585个外部来源的图像-文本查询对。每个查询均经过严格筛选，确保图像内容与视频情境紧密关联，为回答提供不可或缺的上下文信息。数据集构建过程中采用两轮质量校验机制，确保图像对于解答每个查询的必要性。视频内容覆盖知识、影视、体育、艺术表演和生活记录五大类别，平均时长超过5分钟，体现了场景与任务类型的多样性。

特点

该数据集的核心特点在于其首创的图像锚定视频理解评估框架。不同于传统视频基准仅包含纯文本查询，IV-Bench的每个样本都整合了外部图像与文本问题，形成多模态评估单元。13项评估任务（7项感知任务与6项推理任务）的系统性设计，全面检验模型跨模态理解能力。特别值得注意的是，所有图像均非视频帧提取，而是独立采集的外部素材，这种独特设计大幅提升了评估的挑战性与现实意义。

使用方法

使用IV-Bench需通过Hugging Face平台获取基础测试数据，配合提供的视频下载脚本完成完整数据集准备。评估流程采用标准化Python脚本实现，支持灵活配置模型参数、视频路径及图像目录。典型评估示例包含激活指定虚拟环境、设置关键参数（如模型名称、问题文件路径等）以及执行推理脚本三个主要步骤。数据集配套的详细环境配置文档和示例脚本（如internvl2_5.sh）为复现论文实验结果提供了完整的技术支持。

背景与挑战

背景概述

IV-Bench是由David Ma等研究人员于2025年提出的首个专注于评估多模态大语言模型在图像锚定视频感知与推理能力的基准数据集。该数据集由967个视频和2585个外部来源的图像-文本查询对构成，覆盖知识、影视、体育、艺术表演及生活记录五大领域，包含13项感知与推理任务。作为多模态理解研究的重要工具，IV-Bench通过严格的双轮质量校验机制，确保了图像信息在视频理解中的必要性，为跨模态关联推理研究提供了标准化评估框架。

当前挑战

IV-Bench面临的核心挑战在于解决视频-图像跨模态关联理解这一新兴研究难题，其任务设计需同时处理时序视频特征与静态图像特征的异构数据对齐。数据构建过程中，研究团队需克服外部图像与视频内容语义匹配的精确标注困难，以及长视频（≥5分钟）关键帧与外部图像上下文关联的标注一致性维护。相较于传统纯文本视频基准，该数据集还面临多模态线索融合评估的维度爆炸问题，这对模型的跨模态注意力机制提出了更高要求。

常用场景

经典使用场景

在多媒体信息处理领域，IV-Bench数据集为评估多模态大语言模型在图像与视频联合感知推理任务中的表现提供了标准化测试平台。该数据集通过精心设计的967个视频与2,585个外部来源图像-文本查询配对，模拟了真实场景中需要同时理解视频内容和外部图像信息的复杂认知任务。研究人员可以基于该数据集开发新型跨模态融合算法，测试模型在知识问答、影视解析、体育分析等五大类场景下的综合表现。

实际应用

在智能视频分析系统中，IV-Bench支持开发的算法可应用于多场景的智能辅助决策。影视制作领域可基于其实现自动化的场景关联分析，体育赛事系统能通过跨模态推理完成精彩片段识别与解说生成，教育平台可利用其构建知识图谱增强的互动视频学习系统。数据集中长达5分钟的视频样本和外部图像关联机制，特别符合安防监控、医疗影像分析等需要结合实时画面与历史资料的专业场景需求。

衍生相关工作

基于IV-Bench的评估框架，学术界已涌现多项创新研究。InternVL-2.5等模型通过该数据集验证了跨模态Transformer架构的有效性，相关成果发表在CVPR等顶级会议。部分工作扩展了基准的评估维度，开发出针对视频-图像时序对齐度的新指标。另有研究借鉴其标注范式，构建了医疗影像问答等垂直领域数据集，推动了专业场景的多模态技术落地。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集