MIND

Name: MIND
Creator: 中南大学; 新加坡国立大学; 香港科技大学（广州）; 南洋理工大学
Published: 2026-02-12 02:42:39
License: 暂无描述

arXiv2026-02-12 更新2026-02-13 收录

下载链接：

https://csu-jpg.github.io/MIND.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MIND是由中南大学等机构联合创建的首个开放域闭环重访基准数据集，旨在系统评估世界模型的核心能力。该数据集包含250条1080p/24FPS的高清视频，涵盖景观、科幻、风格化等8大类场景，其中200条视频共享统一动作空间，50条针对不同动作空间设计。数据通过Unreal Engine 5引擎渲染，并招募志愿者进行脚本化动作捕捉，包含帧级对齐的动作日志、角色位置等标注信息。该数据集的创新之处在于首次支持双视角评估，通过设计可变动作增量(Δp/Δr)来测试模型的动作泛化能力，主要应用于自动驾驶、具身智能等领域，解决世界模型中长期记忆一致性和跨动作空间泛化等关键挑战。

MIND is the first open-domain closed-loop revisit benchmark dataset jointly developed by Central South University and other institutions, aiming to systematically evaluate the core capabilities of world models. This dataset includes 250 high-definition videos at 1080p/24FPS, covering 8 categories of scenes such as landscapes, sci-fi, stylized styles and others. Among them, 200 videos share a unified action space, while the remaining 50 are designed for distinct action spaces. The data is rendered via Unreal Engine 5, and scripted motion capture was conducted with recruited volunteers. It contains annotated information including frame-aligned motion logs and character positions. The key innovation of this dataset is that it is the first to support dual-perspective evaluation. It tests the action generalization ability of models by designing variable action increments (Δp/Δr). It is primarily applied in fields like autonomous driving and embodied intelligence, addressing critical challenges in world models such as long-term memory consistency and cross-action-space generalization.

提供机构：

中南大学; 新加坡国立大学; 香港科技大学（广州）; 南洋理工大学

创建时间：

2026-02-08

原始信息汇总

MIND数据集概述

数据集基本信息

数据集名称：MIND (Benchmarking Memory Consistency and Action Control in World Models)
核心定位：首个用于评估世界模型中记忆一致性和动作控制能力的开放域闭环重访基准
创建方式：使用Unreal Engine 5构建和收集

数据内容与规格

视频总量：250个高质量视频
视频规格：1080p分辨率，24 FPS
视角分布：
- 第一人称视角视频：100个剪辑
- 第三人称视角视频：100个剪辑
- 共享动作空间：上述200个剪辑
- 可变动作空间：25 + 25个剪辑（覆盖不同动作空间）
场景覆盖：8个多样化场景
动作空间设计：多样且均衡，包括不同角色移动速度和相机旋转角度

评估框架与核心能力

评估能力一：记忆一致性（捕捉时间稳定性和跨视角上下文连贯性）
评估能力二：动作控制
额外评估维度：跨动作空间的泛化能力（在共享场景下评估动作泛化能力）

基准与挑战

提供的基线模型：MIND-World（一种新颖的交互式Video-to-World基线）
识别的主要挑战：
1. 开放域泛化
2. 动作空间泛化
3. 精确动作控制
4. 长上下文记忆
5. 生成场景一致性
6. 第三人称视角建模

引用信息

bibtex @misc{ye2026mind, title={MIND: Benchmarking Memory Consistency and Action Control in World Models}, author={Yixuan Ye and Xuanyu Lu and Yuxin Jiang and Yuchao Gu and Rui Zhao and Qiwei Liang and Jiachun Pan and Fengda Zhang and Weijia Wu and Alex Jinpeng Wang}, year={2026}, eprint={2602.08025}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.08025}, }

搜集汇总

数据集介绍

构建方式

在构建世界模型评估基准的背景下，MIND数据集通过一套系统化的数据生成流程构建而成。该流程基于虚幻引擎5渲染平台，精心设计了涵盖自然景观、城市风貌、科幻场景等八大类别的开放域环境。研究团队招募多名志愿者在虚拟环境中执行脚本化与自由形式的交互动作，最终采集了250段1080p分辨率、24帧率的高质量视频。这些视频在帧级别上严格对齐了动作指令、角色位置与摄像机姿态，其中200段视频共享统一动作空间，另外50段则专门用于评估模型在不同动作参数下的泛化能力，从而为世界模型的核心能力评估提供了可控且高质量的真实数据基础。

特点

作为首个面向开放域的闭环重访基准，MIND数据集展现出多维度融合的显著特点。其核心在于同时支持第一人称与第三人称双视角评估，这为全面检验世界模型的视角一致性提供了独特条件。数据集内含精心设计的多样化动作空间，通过调整角色移动速度与摄像机旋转角度等参数，能够系统评估模型的动作泛化性能。此外，数据集构建了长达千帧级别的长时上下文记忆片段，并设计了对称运动路径等评估机制，旨在深入量化模型在长时记忆一致性、场景生成稳定性以及动作控制精确性等方面的综合表现。

使用方法

在具体应用层面，MIND数据集为世界模型的系统性评估提供了一套高效框架。研究者可利用其提供的帧对齐视频与动作序列，通过长上下文记忆一致性指标，衡量模型在给定历史观察后预测未来帧并保持场景连贯性的能力。生成的场景一致性评估则借助对称路径实验，检验模型在往返运动中输出结果的稳定性。对于动作控制精度的评估，可通过计算生成视频与真实动作轨迹之间的位姿误差来实现。同时，通过使用数据集中预设的不同动作空间组合，能够直接测试模型在未见动作参数下的零样本泛化能力，从而全面诊断模型在记忆、控制与泛化等核心维度的性能。

背景与挑战

背景概述

在视频生成技术迅猛发展的背景下，世界模型作为理解、记忆与预测动态视觉环境的核心工具，正逐步推动自动驾驶、具身智能与交互式游戏等领域的进步。然而，该领域长期缺乏一个系统性的基准来评估模型在开放域环境中的核心能力。为此，由中南大学、新加坡国立大学等机构的研究团队于2026年共同提出了MIND基准，这是首个支持第一人称与第三人称双视角的开放域闭环重访基准，旨在系统评估世界模型的记忆一致性与动作控制能力。该数据集包含250段1080p高清视频，覆盖八类多样化场景，通过精心设计的动作空间与记忆重访策略，为世界模型的长期一致性、动作泛化等关键性能提供了统一的评估框架，对推动交互式、时序一致的世界模型发展具有重要影响力。

当前挑战

MIND基准致力于解决世界模型在记忆一致性与动作控制两大核心问题上的评估挑战。在领域问题层面，模型需克服长期记忆保持的困难，即在长时序上下文中维持场景布局、物体身份与属性的连贯性；同时，模型还需实现精确的动作控制与强大的动作空间泛化能力，以准确执行指令并适应未见的运动范围。在构建过程中，研究团队面临了高质量开放域数据采集的复杂性，需在虚幻引擎5中协调多志愿者录制帧级对齐的双视角视频；此外，设计涵盖不同移动速度与相机旋转角度的多样化动作空间，并确保评估框架能有效量化记忆一致性、时序连贯性与泛化性能，亦是数据集构建中的关键挑战。

常用场景

经典使用场景

在动态视觉环境建模领域，MIND数据集为评估世界模型的核心能力提供了标准化基准。其最经典的使用场景在于系统性地评测模型在开放域环境中的记忆一致性与动作控制能力。通过提供包含第一人称与第三人称视角、帧级动作对齐的高质量视频序列，研究者能够利用其闭环重访设计，精确衡量模型在长时序跨度下维持场景空间布局、物体身份及属性一致性的表现，同时检验模型根据给定控制指令生成连贯视觉内容的能力。该数据集覆盖了景观、科幻、都市、工业等八大场景类别，确保了评估的全面性与泛化性。

解决学术问题

MIND数据集有效解决了世界模型研究中的若干关键学术问题。长期以来，该领域缺乏能够统一评估记忆一致性与动作控制能力的开放域基准，现有工作多侧重于生成视频的视觉质量或物理合理性，而忽视了模型在长时交互中维持上下文连贯的核心需求。MIND通过设计高效的评测框架，首次将记忆一致性（即模型在跨越视角和时间后保持场景语义稳定的能力）与动作控制（即模型精确执行并泛化动作指令的能力）纳入系统化评估，从而为量化模型的时序稳定性、场景理解深度以及动作空间泛化能力提供了可靠依据，推动了世界模型从静态生成向动态、可控、交互式模拟的范式转变。

衍生相关工作

围绕MIND数据集，已衍生出一系列重要的相关研究工作。作为配套基线模型，MIND-World展示了如何通过动作嵌入与记忆缓存机制实现实时、交互式的视频到世界生成，为后续研究提供了可复现的参考框架。在评测方法上，该数据集启发了对长上下文记忆一致性、生成场景对称性、动作精度等多维度指标的精细化定义与计算。同时，MIND揭示的挑战——如长时记忆保持困难、跨动作空间泛化不足、第三人称视角下角色与背景关系建模不准确等——直接推动了后续研究对记忆压缩机制、显式3D场景表示、解耦动作动力学等方向的探索，例如Infinite-World、SPMem等工作均在尝试解决MIND所凸显的模型局限性，持续推动世界模型技术的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集