MME-COF

Name: MME-COF
Creator: 香港中文大学, 清华大学, 北京大学, 东北大学
Published: 2025-10-31 01:59:55
License: 暂无描述

arXiv2025-10-31 更新2025-11-01 收录

下载链接：

https://video-cof.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

MME-COF是一个紧凑的基准数据集，用于评估视频模型的Chain-of-Frame (CoF)推理能力。它涵盖了12个推理维度，包括空间、几何、物理、时间和身体逻辑等。数据集由来自不同基准的推理任务组成，并通过精心设计的视频提示进行评估。该数据集旨在标准化视频模型的推理评估，并揭示当前视频模型在推理方面的优势和局限性。

MME-COF is a compact benchmark dataset designed to evaluate the Chain-of-Frame (CoF) reasoning capabilities of video models. It covers 12 reasoning dimensions, including spatial, geometric, physical, temporal, bodily logic, and other relevant categories. The dataset comprises reasoning tasks sourced from various benchmarks and is evaluated via meticulously designed video prompts. This dataset aims to standardize the evaluation of reasoning performance for video models, while revealing the current strengths and limitations of existing video models in terms of reasoning abilities.

提供机构：

香港中文大学, 清华大学, 北京大学, 东北大学

创建时间：

2025-10-31

原始信息汇总

MME-COF 数据集概述

数据集基本信息

数据集名称: MME-COF
研究主题: 视频模型作为零样本推理器的实证研究
研究对象: Veo-3视频模型
评估维度: 12个推理维度

评估维度分析

空间推理能力

短时空间一致性: 表现良好
复杂空间理解: 能力不足
长时因果推理: 存在局限

几何推理能力

2D几何推理: 具备初步能力但缺乏一致性
3D几何推理: 基础变换表现良好，复杂几何易出错
旋转推理: 仅能处理小角度平面旋转

物理推理能力

短期动态: 视觉上合理
物理约束: 无法保持定量约束（能量、动量）
因果顺序: 系统性失败

专业领域推理

医学推理: 处理能力有限
GUI推理: 仅具备有限交互意识
结构化视觉理解: 具备初步能力

其他推理能力

物体计数: 具备基础能力但缺乏空间控制
视觉追踪: 简单场景表现良好
具身推理: 仅限于基础物体识别

基准特征

评估标准: 提供标准化分类和评估协议
评估重点: 超越表面视觉保真度的类别化评估
评估方式: 与链式帧推理对齐

总体结论

当前视频模型在短时空间一致性、细粒度定位和局部一致动态方面表现出潜力，但在长时因果推理、严格几何约束和抽象逻辑方面仍存在局限，尚不能作为独立的零样本推理器，但可作为专用推理模型的补充视觉引擎。

搜集汇总

数据集介绍

构建方式

MME-COF基准通过系统化任务分类与专家驱动的数据筛选流程构建而成，涵盖视觉细节推理、时空轨迹追踪、三维几何变换等12个核心维度。研究团队从V∗Bench、MVoT等权威视觉推理数据集中抽取典型案例，并遵循静态视角、稳定构图、显式运动约束等六项提示设计原则，确保评估任务在零样本设置下能精准触发视频模型的链式帧推理行为。每个任务由五位领域专家进行双重审核，最终形成包含59个标准化测试条目的紧凑型评估体系。

使用方法

使用MME-COF时需遵循零样本评估协议，将标准化文本提示输入视频生成模型（如Veo-3、Sora-2等），生成1280×720分辨率、8秒时长的视频序列。评估采用Gemini-2.5-Pro作为自动验证器，从指令对齐度、时序连贯性、视觉稳定性等五个维度进行0-4分制量化评分。研究者可基于跨模型雷达图对比分析不同架构在特定推理维度的表现，或通过失败案例的定性分析揭示模型从表面模式学习到深层逻辑推理的转化边界。

背景与挑战

背景概述

MME-COF数据集由香港中文大学、IMIXR与MMLab等机构的研究团队于2025年创建，旨在系统评估视频生成模型在零样本场景下的链式帧推理能力。该数据集聚焦于探索视频模型是否能够通过时序生成过程实现多维度视觉推理，涵盖空间几何、物理因果、具身交互等12个核心认知维度。其构建基于对领先视频模型Veo-3的实证分析，通过提炼现有推理基准与自主设计任务，形成了紧凑而全面的评估体系，为视频模型从内容生成向认知推理的演进提供了关键研究基础。

当前挑战

MME-COF致力于解决视频模型在复杂视觉推理任务中的零样本泛化能力评估问题，其核心挑战在于如何量化模型对长时序因果逻辑、抽象几何约束及专业领域知识的理解深度。在构建过程中，需克服多模态指令对齐的精确性难题，确保文本提示能无歧义地转化为视觉推理目标，同时需维持评估场景的静态特性以避免无关运动干扰。此外，数据标注需通过专家交叉验证与仲裁机制保证质量，而模型生成结果的不稳定性与安全过滤机制亦增加了评估标准化的复杂性。

常用场景

经典使用场景

在视频生成模型的研究领域，MME-COF数据集作为首个专门评估视频模型零样本推理能力的基准，主要应用于系统分析视频模型在12个推理维度上的表现。该数据集通过精心设计的提示词和标准化评估流程，为研究者提供了深入探究视频模型在空间、几何、物理、时间等复杂推理任务中潜力的实验平台，成为评估视频模型是否具备链式帧推理能力的重要工具。

解决学术问题

MME-COF数据集有效解决了视频生成模型推理能力量化评估的学术难题。通过构建涵盖视觉细节、三维几何、物理规律等12个维度的系统化评估体系，该数据集揭示了当前视频模型在短时域空间一致性和细粒度定位方面的优势，同时暴露了其在长时域因果推理和抽象逻辑理解上的局限性。这一评估框架为理解视频模型从模式学习到原理推理的转变提供了实证基础，推动了生成式视频模型向更智能的视觉推理引擎发展。

实际应用

在实际应用层面，MME-COF数据集为视频生成模型的产业落地提供了重要参考。基于该数据集的评估结果，开发者能够准确识别视频模型在医疗影像分析、图形界面交互、物理仿真等专业场景中的适用边界。数据集揭示的模型在简单空间布局理解和基础几何变换方面的潜力，为开发辅助设计、教育演示等应用提供了技术支撑，而其暴露的复杂推理缺陷则警示了在自动驾驶、精密工程等高风险领域的应用限制。

数据集最近研究