MMOU

Name: MMOU
Creator: NVIDIA
Published: 2026-03-16 09:48:40
License: 暂无描述

Hugging Face2026-03-16 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/nvidia/MMOU

下载链接

链接失效反馈

官方服务：

资源简介：

MMOU（Massive Multi-Task Omni Understanding and Reasoning Benchmark）是一个用于评估多模态模型在长且复杂的真实世界视频中联合理解与推理能力的基准数据集。该数据集的核心挑战在于要求模型在长时间跨度内进行紧密耦合的音频-视觉理解，而非单一模态的孤立识别。 MMOU包含15,000个问答对，源自9,038个网络收集的视频，平均视频时长为711.6秒，覆盖10个主要领域（如学术讲座、动画、日常生活等）和36个子类别。每个问题标注了13种推理技能中的一种或多种，平均每个问题需要同时运用约3种技能。数据集的构建过程包括专家问题编写、时间戳标注、多选题转换（生成9个干扰项）和质量控制。评估方法包括多选题评估（10个选项）和开放式评估，采用微平均准确率作为主要指标。初步评估显示，人类表现（84.3%）远超当前最强模型（如Gemini 2.5 Pro的64.2%），凸显了该基准的挑战性。数据集特别强调跨模态推理和长视频理解能力，旨在推动多模态模型在真实场景中的应用。

提供机构：

NVIDIA

创建时间：

2026-03-07

5,000+

优质数据集

54 个

任务类型

进入经典数据集