OmniVideoBench

github2025-10-14 更新2025-10-15 收录

下载链接：

https://github.com/NJU-LINK/OmniVideoBench

下载链接

链接失效反馈

官方服务：

资源简介：

OmniVideoBench是一个大规模、严格策划的基准数据集，用于评估协同音频-视觉智能，强调模态互补性、逻辑一致性和长期时序推理。它包含1,000个高质量问答对和628个多样化视频（时长从几秒到30分钟），每个都标注了逐步多模态推理步骤，覆盖8个主要类别和68个子类别，以及13种推理类型。

OmniVideoBench is a large-scale, rigorously curated benchmark dataset for evaluating collaborative audio-visual intelligence, emphasizing modal complementarity, logical consistency, and long-term temporal reasoning. It includes 1,000 high-quality question-answer pairs and 628 diverse videos with durations ranging from several seconds to 30 minutes. Each video is annotated with step-by-step multimodal reasoning steps, covering 8 main categories, 68 subcategories, and 13 types of reasoning.

创建时间：

2025-10-11

原始信息汇总

OmniVideoBench 数据集概述

数据集简介

OmniVideoBench 是一个用于评估全模态大语言模型音频-视觉理解能力的大规模基准数据集。该数据集专注于评估协同音频-视觉智能，强调模态互补性、逻辑一致性和长期时序推理能力。

核心特征

数据规模：包含 1,000 个高质量问答对
视频资源：628 个多样化视频，时长从秒级到 30 分钟
标注质量：每个样本都标注了逐步多模态推理过程
评估发现：揭示了模型与人类推理之间的显著差距

推理维度

视频分类：涵盖 8 个主要类别和 68 个子类别
推理类型：包含 13 种推理类型，从感知到因果推理
模态互补：确保每个问题都需要音频和视觉推理
长视频评估：支持最长 30 分钟的视频评估

构建流程

视频收集：从多样化领域和声学环境中收集长视频
片段分割：将视频分割为保留上下文的片段
问题生成：设计需要音频和视觉推理的多模态问题
推理分解：将每个问答分解为原子推理步骤
标注验证：人工专家验证正确性、模态对齐和逻辑流程
质量筛选：通过多阶段评审移除模糊或低质量样本
格式打包：将问答数据结构化为标准 JSON 格式并创建基准分割

许可证信息

数据集采用 CC-BY-NC-SA-4.0 许可证，仅限研究用途，禁止商业使用。数据集不拥有任何原始视频文件的版权。

评估结果

OmniVideoBench 揭示了闭源和开源全模型之间的明显性能差距，表明真正的音频-视觉推理仍然是一个主要未解决的挑战。

引用信息

如需在研究中使用 OmniVideoBench，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在多媒体智能研究领域，构建高质量评估基准对推动模型发展至关重要。OmniVideoBench通过系统化流程构建而成，首先从多样化领域采集长视频素材，确保涵盖丰富的声学环境与视觉场景。随后对原始视频进行上下文保持的片段分割，为后续标注奠定基础。研究团队设计出需要双模态推理的问题，并由专家将每个问题分解为原子推理步骤，经过多轮人工验证与质量过滤，最终形成包含千对问答的标准化数据集。

使用方法

面向多模态大语言模型的评估需求，研究者可通过标准化流程使用该数据集。基准数据采用结构化JSON格式封装，提供清晰的训练与测试划分方案。评估时需将视频与对应问答对输入待测模型，通过对比模型输出与人工标注的推理链条，量化分析其在双模态理解任务中的性能表现。该基准特别适用于检验模型在长时序推理与跨模态融合方面的能力瓶颈。

背景与挑战

背景概述

随着多模态大语言模型在视频理解领域取得显著突破，现有评测基准普遍存在模态割裂问题，难以系统评估音频与视觉的协同推理能力。OmniVideoBench应运而生，由Caorui Li等研究人员于2025年构建，该基准通过涵盖628段时长从数秒至30分钟的视频素材及1000组质证问答对，致力于推动多模态模型在跨模态互补、逻辑一致性与长时序推理等核心问题上的研究进展，为音频-视觉融合智能提供标准化评估框架。

当前挑战

该数据集致力于解决多模态视频理解中音频与视觉信息协同解析的复杂性挑战，包括跨模态语义对齐、长时序依赖建模以及多粒度推理链构建等核心难题。在构建过程中面临视频素材版权合规性管理、多模态标注一致性校验、长视频片段语义连续性保持等实际困难，需通过多阶段人工审核与质量过滤机制确保数据信效度。

常用场景

经典使用场景

在多媒体智能研究领域，OmniVideoBench作为首个系统评估音频与视觉协同推理能力的基准数据集，其经典应用场景集中于对多模态大语言模型进行综合性能验证。该数据集通过涵盖13种推理类型和长达30分钟的视频内容，要求模型同时解析声音信号与视觉动态的互补关系，例如在音乐视频中识别乐器动作与音高的对应性，或从环境声效推断画面外的物理事件。这种设计有效模拟了真实世界中人类对多媒体信息的整合认知过程，为模型跨模态理解能力提供了标准化测试环境。

解决学术问题

该数据集主要解决了多模态学习中长期存在的模态割裂问题，通过构建具有严格逻辑链的音频-视觉问答对，推动模型实现真正的跨模态对齐。其意义在于首次系统量化了模型在长时序推理、因果推断和情感分析等复杂任务中的表现，揭示了当前最先进模型与人类推理能力之间存在的显著差距。这一基准的建立为改进多模态融合机制、提升模态互补性理论提供了关键实证基础，促使研究重心从单一模态理解转向协同认知建模。

实际应用

在实际应用层面，OmniVideoBench支撑的评估体系可直接服务于智能视频分析系统的优化。例如在安防监控中，通过同步分析异常声响与视觉行为实现精准事件检测；在教育科技领域，辅助开发能理解教学演示中声画同步关系的智能辅导系统；在内容审核场景，帮助构建同时感知暴力画面与冲突声音的过滤机制。这些应用均依赖于模型对多媒体信息的内在关联性理解，而该数据集正是训练和验证此类能力的核心基础设施。

数据集最近研究