MMR-V

Name: MMR-V
Creator: 中国科学院自动化研究所
Published: 2025-06-05 00:33:41
License: 暂无描述

arXiv2025-06-05 更新2025-06-06 收录

下载链接：

https://mmr-v.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MMR-V数据集是由中国科学院自动化研究所等单位创建的多模态视频深度推理基准。该数据集包含317个视频和1257个任务，涵盖了动画、电影、哲学、电视、生活和艺术六大类别。数据集的特点是要求模型进行长距离多帧推理，不仅要感知问题帧，还要分析远离问题帧的证据帧。任务包括显式推理和隐式推理两种类型，旨在评估模型在视频理解、情感识别、因果推理、序列结构推理、反直觉推理、跨模态迁移推理和视频类型与意图推理等方面的能力。数据集的创建遵循多帧、深度推理和现实性三个原则，视频来源广泛，任务设计严谨，旨在推动多模态推理能力的研究。

The MMR-V dataset is a multimodal video deep reasoning benchmark developed by the Institute of Automation, Chinese Academy of Sciences and other institutions. It consists of 317 videos and 1257 tasks, covering six major categories: animation, film, philosophy, television, life, and art. The dataset is characterized by requiring models to perform long-distance multi-frame reasoning, which demands not only perceiving the question frame but also analyzing evidence frames distant from it. The tasks include two types: explicit reasoning and implicit reasoning, aiming to evaluate models' capabilities in video understanding, emotion recognition, causal reasoning, sequential structure reasoning, counter-intuitive reasoning, cross-modal transfer reasoning, and video type and intention reasoning, among others. The dataset is constructed following three principles: multi-frame, deep reasoning, and realism. With widely sourced videos and rigorously designed tasks, it aims to promote research on multimodal reasoning capabilities.

提供机构：

中国科学院自动化研究所

创建时间：

2025-06-05

原始信息汇总

MMR-V数据集概述

数据集名称

MMR-V

数据集简介

Can Your MLLMs "Think with Video"? A Benchmark for Multimodal Deep Reasoning in Videos

相关链接

Learn More

搜集汇总

数据集介绍

构建方式

MMR-V数据集的构建遵循三项核心原则：长距离多帧推理（P1）、深度推理需求（P2）和现实场景对齐（P3）。研究团队从YouTube手工筛选317个创意性视频，覆盖动画、电影、哲学等六大类别，确保内容需跨多帧分析且蕴含深层主题。每个任务的构建采用人工标注与模型辅助结合的混合策略：先由人类专家编写问题与正确答案，再通过GPT-4o生成干扰项，并采用三种干扰项标注策略提升选项迷惑性。所有任务均经过五名本科以上评审人员基于检查清单的严格验证，最终形成包含1,257个多选题的基准测试集。

特点

该数据集具有四大鲜明特征：1）长距离多帧推理特性，要求模型分析平均跨越12个非连续视频帧的证据；2）超越感知的深度推理，61%任务需解读隐喻、符号等隐含信息；3）高可靠性保障，所有标注均参考视频创作者原意和热门评论共识；4）精心设计的混淆性，通过模型生成与人工编写的混合干扰项策略，使当前最佳模型准确率仅为52.5%。特别地，数据集包含显性推理（如魔术解构）和隐性推理（如情感识别）两大类别，覆盖33个细分子任务。

使用方法

使用MMR-V需遵循标准化评估流程：对于支持多模态输入的模型，建议同时加载视频帧与音频信息以提升性能。评估时采用零样本（zero-shot）和思维链（CoT）两种设置，输入帧数根据模型能力标准化为8/16/32帧。研究者需特别注意模型在长距离帧分析中的表现，建议通过错误分析工具对六类典型错误（如视觉推理缺失、隐性误解等）进行量化。数据集官网提供标注平台接口和任务分类树，支持细粒度性能分析。对于显性推理任务，建议重点关注CIR和SSR类别的表现；隐性推理任务则建议分析MU和ER类别的跨模态理解能力。

背景与挑战

背景概述

MMR-V（Multimodal Deep Reasoning in Videos）是由中国科学院自动化研究所等机构的研究团队于2025年提出的视频多模态深度推理基准数据集。该数据集旨在评估多模态大语言模型（MLLMs）在长距离、多帧视频中进行深度推理的能力。MMR-V包含317个视频和1,257个任务，涵盖了动画、电影、生活、艺术、电视和哲学六大类别。其核心研究问题是解决现有视频理解基准主要关注感知任务而忽略深度推理能力的不足，特别是在需要跨多帧进行证据定位和隐含信息推理的场景中。MMR-V的提出为视频理解领域提供了新的研究方向，对推动多模态推理能力的发展具有重要意义。

当前挑战

MMR-V面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，MMR-V致力于解决视频深度推理中的三个关键挑战：1）长距离多帧推理，要求模型能够定位和分析与问题帧相距较远的证据帧；2）超越感知的推理，问题不能仅通过直接感知回答，而需要推理隐含信息；3）可靠性，所有任务都经过人工标注，并与真实世界的用户理解保持一致。在构建过程中，研究团队遇到了视频选择、任务设计和质量保证等方面的挑战，特别是需要确保每个任务都满足长距离推理、深度推理和真实性的原则，同时还要设计具有迷惑性的干扰选项以提高任务的难度和质量。

常用场景

经典使用场景

MMR-V数据集专为评估多模态大语言模型（MLLMs）在视频深度推理任务中的表现而设计。其经典使用场景包括需要模型进行长距离、多帧证据定位和隐含信息推理的复杂视频理解任务。例如，在动画短片分析中，模型需结合分散在视频各帧的隐喻符号（如反复出现的棕色外套象征家庭保护者）和叙事结构，推断导演意图或社会议题。该场景通过317个涵盖艺术、哲学等六大类别的视频和1257个多选任务，系统检验模型整合视觉线索与常识推理的能力。

解决学术问题

MMR-V解决了当前视频理解基准中三个关键学术问题：首先，突破传统感知型任务局限，要求模型从非相邻帧中挖掘证据（如魔术解密需分析首尾帧的关联）；其次，引入隐含推理任务（如情绪识别、隐喻理解），推动模型超越表层视觉匹配，学习人类潜意识的联想机制；最后，通过人工标注的干扰项策略和跨模态验证，有效抑制模型通过文本线索或局部帧匹配的捷径学习。其实验揭示现有模型在视频推理中平均准确率仅52.5%，显著低于人类86%的表现，为多模态推理的认知建模提供了量化基准。

衍生相关工作

MMR-V催生了多个视频推理领域的延伸研究：其隐含/显式推理分类体系启发Gemini团队开发了双通道推理增强模块；长程注意力机制研究（如VideoLT-Net）直接引用该数据集的帧间隔统计作为模型设计依据；在评测方法层面，衍生出基于CoT视觉成分分析的V-CoTR评分标准。数据集构建中的干扰项生成策略被MVBench等后续基准采用，而任务类型分类体系已成为VideoMME等测评的通用范式。开源模型InternVL3通过MMR-V验证了混合LoRA在视频推理中的有效性，推动了一系列轻量化多模态架构的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集