DIVE (Dense Information Video Evaluation) Benchmark

github2025-09-22 更新2025-09-25 收录

下载链接：

https://github.com/Hai-chao-Zhang/DenseVideoUnderstand

下载链接

链接失效反馈

官方服务：

资源简介：

DIVE（密集信息视频评估）是首个专为密集视频理解设计的基准，专注于问答驱动的高帧率理解，其中答案相关信息几乎出现在每一帧中。该基准适用于教育/讲座视频、手术程序、手语等有用内容密集分布在帧间的场景。

DIVE (Dense Information Video Evaluation) is the first benchmark specifically designed for dense video understanding. It focuses on question-answering-driven high-frame-rate understanding, where answer-relevant information appears in almost every frame. This benchmark is applicable to scenarios where useful content is densely distributed across frames, such as educational/lecture videos, surgical procedures, sign language and other similar cases.

创建时间：

2025-09-18

原始信息汇总

Dense Information Video Evaluation (DIVE) 数据集概述

数据集简介

DIVE (Dense Information Video Evaluation) 是首个专注于密集视频理解的基准测试，重点研究QA驱动的高帧率理解任务，其中答案相关信息几乎出现在每一帧中。

核心特点

密集视频理解：针对有用内容密集分布在帧间的场景（如教育/讲座视频、外科手术、手语）
高帧率要求：需要帧级密集推理的问答任务
解决现有问题：现有VLLM流水线为控制令牌成本而进行激进下采样，会丢失关键时间细节

技术方法

Gated Residual Tokenization (GRT)

运动门控令牌化：通过运动线索检测静态区域并在令牌化过程中跳过，实现相对于FPS的次线性令牌/时间增长
语义场景令牌合并：在场景内合并冗余令牌同时保留动态语义

数据集内容

任务类型：密集视频问答 (Dense Video QA)
数据分割：目前仅发布测试集
访问地址：https://huggingface.co/datasets/haichaozhang/DenseVideoEvaluation

使用方法

数据加载

python from datasets import load_dataset ds = load_dataset("haichaozhang/DenseVideoEvaluation", split="test")

评估集成

正在准备将DIVE集成到LMMS-EVAL视觉语言模型测试工具包中
支持通过LMMS-EVAL框架进行评估

发布计划

✅ 2025/09/18：发布DIVE基准测试（测试集）
⭕ 将DIVE合并到LMMS-EVAL中
⭕ 发布数据集的多FPS版本
⭕ 添加更多密集视频任务类别
⭕ 发布完整的GRT模型和训练/推理代码

许可信息

数据集：OpenRAIL许可（详见数据集卡片中的条款）
代码：随模型发布时公布

引用信息

bibtex @article{zhang2025dive, title={Dense Video Understanding with Gated Residual Tokenization}, author={Haichao Zhang and Wenhao Chai and Shwai He and Ang Li and Yun Fu}, journal={arXiv preprint arXiv:2509.14199}, year={2025} }

搜集汇总

数据集介绍

构建方式

在密集视频理解领域，DIVE基准测试的构建采用了严谨的学术方法。该数据集聚焦于高帧率视频中密集分布的信息，通过精心设计的问答任务来评估模型对视频内容的理解能力。构建过程中，研究团队选取了教育讲座、手术操作和手语识别等典型场景，确保每一帧都包含与答案相关的关键信息。数据采集注重时空连续性和语义完整性，采用专业标注流程对视频片段进行多层次注释，为密集视频理解研究提供了高质量的评估基础。

特点

DIVE基准测试的显著特征在于其针对密集信息视频的专有设计。与传统视频理解数据集不同，该数据集要求模型处理几乎每帧都包含有用信息的视频内容，突破了现有视觉语言模型因降采样而丢失关键时序细节的局限。数据集涵盖多种真实场景，问题设计注重时空推理的连续性，能够全面检验模型对视频动态语义的捕捉能力。这种高密度信息分布的特性使DIVE成为评估模型细粒度视频理解性能的理想平台。

使用方法

该数据集的使用遵循标准化评估流程，主要通过与LMMS-EVAL评测框架的集成实现。研究人员可通过HuggingFace平台直接加载数据集测试分割，利用提供的代码接口快速构建评估环境。评测时支持自定义帧率参数和模型配置，允许灵活调整tokenization策略以适应不同计算需求。数据集采用分阶段发布策略，当前提供测试集用于模型性能基准测试，未来将扩展更多任务类别和帧率版本，为密集视频理解研究提供持续支持。

背景与挑战

背景概述

密集视频理解作为计算机视觉领域的前沿研究方向，旨在解决传统视频分析模型在处理高帧率、信息密集型视频内容时的局限性。DIVE基准数据集由东北大学、普林斯顿大学和马里兰大学的研究团队于2025年9月联合发布，专门针对教育讲座、手术操作、手语识别等场景中关键信息几乎均匀分布在每一帧的视频内容。该数据集通过问答驱动的高帧率理解任务，推动视觉语言模型在时序细节保留方面的技术突破，为密集视频理解领域建立了首个标准化评估体系。

当前挑战

该数据集核心挑战在于解决现有视觉语言模型因计算资源限制而采用的激进降采样策略，导致关键时序信息丢失的问题。构建过程中面临双重挑战：一是需要精准标注高帧率视频中每帧包含的语义信息，这对标注人员的专业知识和耐心提出极高要求；二是设计能够平衡计算效率与信息完整性的评估框架，确保模型在处理密集信息时的性能可量化比较。这些挑战直接反映了密集视频理解领域在时序建模与计算效率之间的根本矛盾。

常用场景

经典使用场景

在密集视频理解领域，DIVE基准测试主要应用于教育讲座视频、外科手术过程以及手语识别等场景。这些场景的共同特征是关键信息几乎均匀分布在每一帧画面中，传统视频语言模型采用的降采样策略会丢失大量时序细节。该数据集通过高帧率问答任务，要求模型对视频内容进行逐帧级别的细粒度理解，为密集视频分析提供了标准化的评估框架。

实际应用

在实际应用层面，DIVE基准测试为在线教育平台的智能课件分析、医疗领域的手术视频辅助诊断、以及无障碍技术中的实时手语翻译系统提供了关键技术支撑。这些应用场景要求模型能够准确捕捉视频中连续变化的细节信息，例如教师板书内容的逐步呈现、手术器械的精确操作轨迹等，对视频理解的密度和准确性提出了极高要求。

衍生相关工作

基于DIVE基准测试的学术探索催生了多项重要研究工作，其中门控残差令牌化框架通过运动门控令牌化和语义场景令牌合并两大创新机制，实现了视频令牌数量的次线性增长。该数据集还促进了LMMS-EVAL评估工具集的扩展，为视频语言模型的密集理解能力建立了标准化测试流程，推动了整个领域向更细粒度的视频分析方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

DIVE (Dense Information Video Evaluation) Benchmark

Dense Information Video Evaluation (DIVE) 数据集概述

数据集简介

核心特点

技术方法

Gated Residual Tokenization (GRT)

数据集内容

使用方法

数据加载

评估集成

发布计划

相关资源

许可信息

引用信息