OmniEval

Name: OmniEval
Creator: 华为诺亚方舟实验室
Published: 2025-06-26 10:54:24
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://omnieval.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OmniEval是一个用于评估全模态模型的数据集，包括视觉、听觉和文本输入。它包含810个音频-视觉同步视频，285个中文视频和525个英文视频。数据集包含2617个问答对，包括1412个开放式问题和1205个多项选择题，分为3个主要任务类型和12个子任务类型。OmniEval的创建旨在提供一个平台，用于评估模型构建和理解所有模态上下文的能力。

OmniEval is a dataset for evaluating full-modal models, which includes visual, auditory and textual inputs. It contains 810 synchronized audio-visual videos, with 285 Chinese videos and 525 English videos. The dataset consists of 2617 question-answer pairs, including 1412 open-ended questions and 1205 multiple-choice questions, which are divided into 3 main task types and 12 subtask types. OmniEval is developed to provide a platform for evaluating the ability of models to construct and understand contextual information across all modalities.

提供机构：

华为诺亚方舟实验室

创建时间：

2025-06-26

搜集汇总

数据集介绍

构建方式

OmniEval数据集的构建采用了多阶段系统化流程，确保数据质量和多样性。研究团队从FineVideo、Youku-mplug等基准数据集及Bilibili等网络平台采集810个音视频同步的多语言视频（285个中文/525个英文），通过Qwen2.5-VL-70B模型生成视频描述文本，并采用火山引擎大模型进行中英文语音识别转录。经过语音密度阈值筛选后，利用大语言模型分阶段生成1412道开放式问题和1205道选择题，最终由人工专家团队从问题清晰度、多模态关联性等五个维度进行质量校验。特别设计了需要时间定位的Grounding任务，通过自适应帧采样算法确保时序评估的精确性。

特点

该数据集具有三大核心特征：多模态协同性要求模型同时处理视频动态、音频事件及字幕文本的深度耦合；场景多样性覆盖教育、娱乐等12类现实场景，视频平均时长211秒；任务体系包含感知、理解、推理3大类12个子任务，其中342道Grounding问题采用时间点定位（moment-based）和时间段定位（time span-based）双评估机制。双语支持体系下，1104道中文问题和1513道英文问题均配备人工校验的参考答案，为模型的多语言多模态理解提供细粒度评估基准。

使用方法

使用OmniEval时需区分不同题型采用特定评估协议：多选题直接比对模型输出选项，开放式问题借助大语言模型评估语义相似度。针对Grounding任务，时间点类问题采用基于视频帧率的动态容错阈值（公式1），时间段类问题则计算预测区间与真实区间的IoU值（阈值τ=0.5）。计数类问题需精确匹配数值，其他开放题采用0-1分制评分。评估时建议同步输入视频帧、音频波形及文本字幕，通过消融实验可分析各模态贡献度。官方代码库提供标准化评估接口，支持Qwen2.5-Omni等主流全模态模型的性能比对。

背景与挑战

背景概述

OmniEval是由华为诺亚方舟实验室和中国科学技术大学的研究团队于2025年推出的全模态评估基准，旨在解决当前多模态大语言模型（MLLMs）在视觉、听觉和文本输入协同理解方面的评估空白。该数据集包含810个音视频同步片段（285个中文和525个英文视频）及2617个问答对，通过12个子任务类型系统评估模型的全模态协同能力。其创新性体现在强调音视频强耦合任务设计、细粒度时间定位（Grounding）评估以及双语支持，为智能助手、机器人交互等现实场景提供了更接近人类认知的评估框架。

当前挑战

OmniEval面临的核心挑战体现在两方面：领域问题上，现有模型对动态视觉事件与声音事件的时空关联理解不足，且在开放性问题中展现的跨模态推理能力较弱（如Gemini 2.5在推理类开放问题正确率仅60.2%）；构建过程中，需克服多模态数据对齐的复杂性，包括音视频同步精度控制、跨语言问答对的质量验证，以及通过大模型生成与人工校验结合的流程确保2617个问答对的语义准确性。特别在时间定位任务中，需设计自适应评估策略解决视频帧采样率与时间戳标注的匹配难题。

常用场景

经典使用场景

OmniEval作为多模态评估基准，其经典使用场景集中在全面评估模型对视觉、听觉和文本信息的协同理解能力。通过设计强调音频与视频强耦合的任务，该数据集要求模型有效利用所有模态的协作感知来回答问题。例如，在视频定位任务中，模型需要整合动态视觉事件和声音事件，同时结合相关文本（如字幕或对话）进行精确回答。这种评估方式超越了仅对单模态理解能力的简单相加，为研究社区提供了一个全面衡量模型多模态理解能力的平台。

解决学术问题

OmniEval解决了当前多模态评估中的关键学术问题，包括缺乏对动态视觉事件与声音事件深度耦合的评估，以及多语言环境下模型性能的衡量不足。通过引入2617个双语问答对（1412个开放式问题和1205个多项选择题），该数据集填补了现有基准在任务多样性和细粒度评估机制上的空白。特别设计的视频定位任务（Grounding）能够精确评估模型在时间维度上定位信息的能力，为研究动态多模态信息的深度融合提供了新的评估视角。

衍生相关工作

OmniEval的发布衍生了一系列相关研究工作，特别是在全模态模型评估领域。基于该数据集，研究者对包括Qwen2.5-Omni、Baichuan-Omni和MiniCPM-O等主流模型进行了系统评估，揭示了现有模型在真实世界理解中的不足。这些评估结果为模型优化提供了明确方向，例如在音频-视觉协同理解方面的改进。同时，数据集的细粒度任务分类（12个子任务类型）也为后续研究提供了新的能力评估维度，推动了多模态模型评估方法学的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集