MINERVA
收藏arXiv2025-05-02 更新2025-05-03 收录
下载链接:
https://github.com/googledeepmind/neptune?tab=readme-ov-file#minerva
下载链接
链接失效反馈官方服务:
资源简介:
MINERVA是一个用于现代多模态模型的新型视频推理数据集。每个问题都附带5个答案选项以及详细的、手工制作的推理轨迹。数据集是多模态的,视频领域和长度多样化,包含复杂的多步问题。广泛的基准测试表明,我们的数据集对前沿开源和专有模型提出了挑战。我们进行了细粒度的错误分析,以确定各种模型中的常见失败模式,并创建了一个推理错误的分类法。我们使用这个分类法来探索人类和LLM-asa-judge方法对视频推理轨迹的评分,并发现失败模式主要与时间定位相关,其次是视觉感知错误。数据集、问题、答案候选和推理轨迹将在https://github.com/googledeepmind/neptune?tab=readme-ov-file#minerva公开提供。
MINERVA is a novel video reasoning dataset tailored for modern multimodal models. Each question is accompanied by 5 answer options and detailed, handcrafted reasoning traces. The dataset is multimodal, with diverse video domains and lengths, and includes complex multi-step questions. Extensive benchmark evaluations demonstrate that our dataset poses significant challenges to state-of-the-art open-source and proprietary models. We conducted fine-grained error analysis to identify common failure patterns across various models, and developed a taxonomy of reasoning errors. Using this taxonomy, we explored both human and LLM-as-a-judge methods for scoring video reasoning traces, and found that failure modes are primarily associated with temporal localization, followed by visual perception errors. The dataset, questions, answer candidates, and reasoning traces will be publicly available at https://github.com/googledeepmind/neptune?tab=readme-ov-file#minerva.
提供机构:
Google DeepMind, 哥伦比亚大学
创建时间:
2025-05-02
搜集汇总
数据集介绍

构建方式
MINERVA数据集的构建采用了严格的多阶段人工标注流程。首先从YouTube精选适合复杂推理的视频素材,涵盖短片、体育、教育等多元领域。随后由专业标注员针对每个视频设计需要多步骤推理的问题,并手工编写包含时间戳和关键动作的详细推理轨迹。所有标注内容经过同行评审和资深审核,最后通过对抗性过滤减少文本偏见,确保问题必须结合视觉信息才能解答。
特点
该数据集的核心特征在于其复杂的多模态推理要求。每个问题均需结合时间定位、视觉感知和逻辑推理等多重技能,平均每个推理轨迹包含92个单词和4个时间戳。视频时长从2分钟到100分钟不等,覆盖31.9%的短片和26.1%的体育内容。特别设计的干扰选项使随机猜测准确率仅为20%,而人类表现可达92.5%,为模型评估提供了充分挑战空间。
使用方法
使用MINERVA时需要同时处理视频帧和自动语音识别(ASR)文本。建议采用均匀采样帧序列(如256帧)与时间对齐的ASR文本作为多模态输入。评估时可选择直接回答或分步推理模式,后者配合专用评分标准(感知准确性、时间定位等四项指标)能显著提升性能。数据集的推理轨迹可作为参考标准,用于分析模型在时序理解或视觉感知等维度的缺陷。
背景与挑战
背景概述
MINERVA是由Google DeepMind与哥伦比亚大学的研究团队于2025年推出的复杂视频推理评估数据集,旨在解决当前多模态大语言模型在视频理解领域的关键瓶颈。该数据集包含1,515个手工标注的问题,覆盖体育、烹饪、短片、STEM讲座等多样化领域,视频时长从2分钟到1.5小时不等。其核心创新在于为每个问题提供详细的推理轨迹标注,包括时间戳、关键动作描述和逻辑推理步骤,弥补了传统视频基准仅评估最终答案的缺陷。该数据集推动了对模型是否真正融合感知与时间信息进行推理的验证,而非依赖语言偏见或随机猜测。
当前挑战
MINERVA面临双重挑战:在领域问题层面,需解决视频问答中多模态时序推理的复杂性,包括时间定位、跨模态信息整合及多步骤逻辑推理等核心难题;在构建层面,手工标注长视频的精确推理轨迹面临极高成本,需平衡问题复杂度与标注可行性。具体挑战包括:1) 设计需同时调用计数、时空推理等多项技能的复合型问题;2) 确保视觉信息不可被语音转录替代的低偏置数据构建;3) 建立涵盖感知准确性、时序定位等维度的细粒度错误分类体系,为模型诊断提供新范式。
常用场景
经典使用场景
MINERVA数据集在复杂视频推理任务中展现出卓越的应用价值,尤其在需要多模态感知与时间推理的场景中表现突出。例如,在体育赛事分析中,模型需结合视觉信息(如球员动作、球的位置变化)与时间戳数据(如传球时间点)来回答"某次得分前球权转换次数"这类问题。数据集通过提供手工标注的详细推理轨迹(包含时间戳、关键动作描述和逻辑步骤),使得模型能够逐步验证其推理过程是否符合真实视频内容。这种设计特别适用于需要同时处理视觉、听觉和时间序列信息的任务,如烹饪教程中的步骤时长估算或科学讲座中的公式推导。
解决学术问题
该数据集有效解决了视频理解领域长期存在的"黑箱推理"问题。传统视频QA基准仅评估最终答案正确性,无法区分模型是通过合理推理还是偶然猜测得出结果。MINERVA通过提供带时间标注的推理轨迹,使研究者能够分析模型在时间定位(如错误识别事件发生时段)、视觉感知(如误判物体属性)、逻辑推理(如数学计算错误)等维度的具体缺陷。这种细粒度评估为改进多模态模型的推理能力提供了明确方向,尤其对解决长视频中事件因果链理解、跨模态信息对齐等核心挑战具有重要意义。
衍生相关工作
该数据集已催生多项视频推理评估方法的创新研究。基于MINERVA的推理轨迹标注,研究者开发了MINERVA评分标准(MiRA),包含感知正确性、时间定位等四大维度,为VideoCoT等半自动标注方法提供了质量基准。Gemini 2.5 Pro等模型通过在MINERVA上的测试,验证了"思维链"提示对提升长视频理解效果的有效性。相关工作还发现,模型在时间定位错误(占比37%)和视觉感知错误(占比29%)上的表现显著弱于逻辑推理,这一发现推动了时序建模与跨模态对齐技术的针对性改进。
以上内容由遇见数据集搜集并总结生成



