OmniEval

Name: OmniEval
Creator: 华为诺亚方舟实验室
Published: 2025-06-29 23:16:22
License: 暂无描述

arXiv2025-06-29 更新2025-07-02 收录

下载链接：

https://omnieval-benchmark.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OmniEval是一个全面的基准数据集，旨在评估能够同时处理视觉、听觉和文本信息的全模式模型。数据集包含810个音视频同步视频片段，包括285个中文视频和525个英文视频，以及2617个问答对，涵盖1412个开放式问题和1205个多项选择题。OmniEval设计了一系列强调音频和视频强耦合的任务，要求模型有效地利用所有模态的协作感知。数据集通过结合自动化数据处理和人工审核的方式创建，旨在提供一个具有挑战性和可靠性的资源，用于评估Omni模型在多种认知任务中的能力，包括细粒度事件理解。OmniEval旨在解决现有全模式模型评估的不足，推动全模式模型的发展，促进研究人员构建更强大的模型，能够理解和构建所有模态的上下文中的连贯性。

OmniEval is a comprehensive benchmark dataset designed to evaluate full-modal models that can simultaneously process visual, auditory and textual information. The dataset comprises 810 synchronized audio-visual video clips, including 285 Chinese-language videos and 525 English-language videos, alongside 2617 question-answer pairs encompassing 1412 open-ended questions and 1205 multiple-choice questions. OmniEval features a suite of tasks that highlight the strong coupling between audio and visual modalities, requiring models to effectively leverage collaborative perception across all modalities. Developed through a combination of automated data processing and manual review, this dataset aims to offer a challenging and reliable resource for evaluating the capabilities of full-modal models across a wide range of cognitive tasks, including fine-grained event understanding. OmniEval seeks to address the limitations of existing full-modal model evaluations, advance the development of full-modal models, and empower researchers to construct more robust models that can comprehend and build coherence within cross-modal contextual settings.

提供机构：

华为诺亚方舟实验室

创建时间：

2025-06-26

原始信息汇总

OmniEval 数据集概述

基本信息

数据集名称: OmniEval
开发团队:
- Yiman Zhang, Ziheng Luo, Qiangyu Yan, Wei He, Borui Jiang, Xinghao Chen, Kai Han
- 机构: Huawei Noah’s Ark Lab, University of Science and Technology of China
联系方式:
- yiman.zhang@huawei.com
- xinghao.chen@huawei.com
- kai.han@huawei.com

数据集特点

多模态输入: 视觉、听觉和文本输入
全模态协作: 设计强调音频和视频之间强耦合的评估任务
视频多样性:
- 810个音频-视觉同步视频
- 285个中文视频
- 525个英文视频
任务多样性:
- 2617个问答对
  - 1412个开放式问题
  - 1205个多项选择题
- 3种主要任务类型
- 12种子任务类型
- 引入细粒度视频定位任务(Grounding)

实验与结果

评估模型: 多个全模态模型
主要发现: 现有模型在理解真实世界信息方面面临显著挑战

相关资源

论文: arXiv链接
项目页面与数据: OmniEval项目页面

搜集汇总

数据集介绍

构建方式

OmniEval数据集的构建采用了多阶段系统化流程，融合了自动化处理与人工校验的双重优势。研究团队从FineVideo、Youku-mplug等基准数据集及Bilibili等网络平台采集了810个音视频同步的多语言视频片段，通过Qwen2.5-VL-70B模型生成视频描述文本，并采用火山引擎大模型进行中英文语音识别转录。在问答对生成阶段，创新性地采用大语言模型分步生成开放式问题和多项选择题，并通过人工审核确保问题的清晰性、相关性和答案的精确性，特别设计了需要时空定位的细粒度Grounding任务。

特点

该数据集最显著的特征在于其全模态协同评估的设计理念，包含2617个涵盖视觉、听觉和文本三模态协同理解的问答对，其中1412题为开放式问题，1205题为选择题。数据集创新性地划分了12个子任务类型，包括新引入的细粒度视频定位任务。其双语支持特性体现在285个中文视频和525个英文视频的平衡分布上，所有视频平均时长211秒，覆盖多样化的现实场景。这种多维度、细粒度的任务设计为评估模型的全模态理解能力提供了全面框架。

使用方法

使用OmniEval进行评估时，需根据问题类型采用差异化策略：对于选择题直接比对模型输出与标准答案；开放式问题则借助大语言模型进行相似度评估。特别针对Grounding任务开发了自适应评估算法，瞬时性问题采用基于视频帧率的动态容错机制，时段性问题则运用交并比(IoU)计算方法。评估体系包含感知、理解和推理三个能力维度，支持中英文双语环境的独立评估，为研究者提供模型跨模态协同能力和时空定位精度的量化分析工具。

背景与挑战

背景概述

OmniEval是由华为诺亚方舟实验室与中国科学技术大学于2025年联合推出的全模态评估基准，旨在解决多模态大语言模型（MLLMs）在视觉、听觉和文本协同理解领域的评估空白。该数据集包含810个音视频同步片段（中英文占比分别为35%和65%）及2617组问答对，创新性地设计了强调音视频强耦合的任务类型，并引入细粒度时间定位（Grounding）子任务。作为首个支持双语评估的全模态基准，OmniEval通过12个子任务类型系统评估模型跨模态关联推理能力，为智能助手、机器人交互等现实场景提供了更接近人类认知水平的评估体系。

当前挑战

构建全模态评估基准面临双重挑战：在领域问题层面，现有模型对动态视觉事件与声音事件的时空关联理解不足，仅58%的开放性问题能被主流模型正确回答，尤其在需要同时解析字幕、画面动作和音频线索的协同任务中表现显著下降；在构建技术层面，数据采集需克服音视频时序对齐、跨语言标注一致性等难题，例如中文视频的语音识别错误率较英文高12%，而自动生成的问答对需经过五轮人工校验以确保多模态答案的精确锚定（如时间戳定位误差需控制在±0.5秒内）。此外，模型评估时出现的张量维度不匹配问题（如ViTA-1.5在200秒以上长视频处理失败率高达37%）揭示了现有框架处理长序列多模态数据的局限性。

常用场景

经典使用场景

OmniEval作为多模态评估基准，其经典使用场景主要集中于对全模态模型（如MiniCPM-O 2.6）的综合能力测试。通过整合视觉、听觉和文本输入，该数据集设计了强调音频与视频强耦合的任务，要求模型有效利用多模态协同感知。例如，在视频定位任务（Grounding）中，模型需结合动态视觉事件和同步声音线索，精确回答涉及时间戳或事件持续时间的开放性问题，从而验证其跨模态时序理解能力。

衍生相关工作

该数据集已催生多项创新研究：Qwen2.5-Omni系列模型利用其双语特性优化了跨语言多模态对齐；MiniCPM-O 2.6通过Grounding任务改进了时序注意力机制；谷歌Gemini 2.5基于开放性问题评估结果增强了生成式推理能力。相关衍生工作如VideoLLaMA 2和VITA-1.5均采用OmniEval的协同评估指标，推动了动态多模态融合架构的发展，形成从基准测试到模型优化的完整研究闭环。

数据集最近研究