OmniEval
收藏arXiv2025-06-26 更新2025-06-28 收录
下载链接:
https://omnieval.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
OmniEval是一个用于评估全模态模型的数据集,包括视觉、听觉和文本输入。它包含810个音频-视觉同步视频,285个中文视频和525个英文视频。数据集包含2617个问答对,包括1412个开放式问题和1205个多项选择题,分为3个主要任务类型和12个子任务类型。OmniEval的创建旨在提供一个平台,用于评估模型构建和理解所有模态上下文的能力。
OmniEval is a dataset for evaluating full-modal models, which includes visual, auditory and textual inputs. It contains 810 synchronized audio-visual videos, with 285 Chinese videos and 525 English videos. The dataset consists of 2617 question-answer pairs, including 1412 open-ended questions and 1205 multiple-choice questions, which are divided into 3 main task types and 12 subtask types. OmniEval is developed to provide a platform for evaluating the ability of models to construct and understand contextual information across all modalities.
提供机构:
华为诺亚方舟实验室
创建时间:
2025-06-26
搜集汇总
数据集介绍

构建方式
OmniEval数据集的构建采用了多阶段系统化流程,确保数据质量和多样性。研究团队从FineVideo、Youku-mplug等基准数据集及Bilibili等网络平台采集810个音视频同步的多语言视频(285个中文/525个英文),通过Qwen2.5-VL-70B模型生成视频描述文本,并采用火山引擎大模型进行中英文语音识别转录。经过语音密度阈值筛选后,利用大语言模型分阶段生成1412道开放式问题和1205道选择题,最终由人工专家团队从问题清晰度、多模态关联性等五个维度进行质量校验。特别设计了需要时间定位的Grounding任务,通过自适应帧采样算法确保时序评估的精确性。
特点
该数据集具有三大核心特征:多模态协同性要求模型同时处理视频动态、音频事件及字幕文本的深度耦合;场景多样性覆盖教育、娱乐等12类现实场景,视频平均时长211秒;任务体系包含感知、理解、推理3大类12个子任务,其中342道Grounding问题采用时间点定位(moment-based)和时间段定位(time span-based)双评估机制。双语支持体系下,1104道中文问题和1513道英文问题均配备人工校验的参考答案,为模型的多语言多模态理解提供细粒度评估基准。
使用方法
使用OmniEval时需区分不同题型采用特定评估协议:多选题直接比对模型输出选项,开放式问题借助大语言模型评估语义相似度。针对Grounding任务,时间点类问题采用基于视频帧率的动态容错阈值(公式1),时间段类问题则计算预测区间与真实区间的IoU值(阈值τ=0.5)。计数类问题需精确匹配数值,其他开放题采用0-1分制评分。评估时建议同步输入视频帧、音频波形及文本字幕,通过消融实验可分析各模态贡献度。官方代码库提供标准化评估接口,支持Qwen2.5-Omni等主流全模态模型的性能比对。
背景与挑战
背景概述
OmniEval是由华为诺亚方舟实验室和中国科学技术大学的研究团队于2025年推出的全模态评估基准,旨在解决当前多模态大语言模型(MLLMs)在视觉、听觉和文本输入协同理解方面的评估空白。该数据集包含810个音视频同步片段(285个中文和525个英文视频)及2617个问答对,通过12个子任务类型系统评估模型的全模态协同能力。其创新性体现在强调音视频强耦合任务设计、细粒度时间定位(Grounding)评估以及双语支持,为智能助手、机器人交互等现实场景提供了更接近人类认知的评估框架。
当前挑战
OmniEval面临的核心挑战体现在两方面:领域问题上,现有模型对动态视觉事件与声音事件的时空关联理解不足,且在开放性问题中展现的跨模态推理能力较弱(如Gemini 2.5在推理类开放问题正确率仅60.2%);构建过程中,需克服多模态数据对齐的复杂性,包括音视频同步精度控制、跨语言问答对的质量验证,以及通过大模型生成与人工校验结合的流程确保2617个问答对的语义准确性。特别在时间定位任务中,需设计自适应评估策略解决视频帧采样率与时间戳标注的匹配难题。
常用场景
经典使用场景
OmniEval作为多模态评估基准,其经典使用场景集中在全面评估模型对视觉、听觉和文本信息的协同理解能力。通过设计强调音频与视频强耦合的任务,该数据集要求模型有效利用所有模态的协作感知来回答问题。例如,在视频定位任务中,模型需要整合动态视觉事件和声音事件,同时结合相关文本(如字幕或对话)进行精确回答。这种评估方式超越了仅对单模态理解能力的简单相加,为研究社区提供了一个全面衡量模型多模态理解能力的平台。
解决学术问题
OmniEval解决了当前多模态评估中的关键学术问题,包括缺乏对动态视觉事件与声音事件深度耦合的评估,以及多语言环境下模型性能的衡量不足。通过引入2617个双语问答对(1412个开放式问题和1205个多项选择题),该数据集填补了现有基准在任务多样性和细粒度评估机制上的空白。特别设计的视频定位任务(Grounding)能够精确评估模型在时间维度上定位信息的能力,为研究动态多模态信息的深度融合提供了新的评估视角。
衍生相关工作
OmniEval的发布衍生了一系列相关研究工作,特别是在全模态模型评估领域。基于该数据集,研究者对包括Qwen2.5-Omni、Baichuan-Omni和MiniCPM-O等主流模型进行了系统评估,揭示了现有模型在真实世界理解中的不足。这些评估结果为模型优化提供了明确方向,例如在音频-视觉协同理解方面的改进。同时,数据集的细粒度任务分类(12个子任务类型)也为后续研究提供了新的能力评估维度,推动了多模态模型评估方法学的进步。
以上内容由遇见数据集搜集并总结生成



