MIND

github2026-02-10 更新2026-02-11 收录

下载链接：

https://github.com/CSU-JPG/MIND

下载链接

链接失效反馈

官方服务：

资源简介：

MIND是第一个用于评估世界模型中记忆一致性和动作控制的开放域闭环重访基准数据集。它包含250个1080p和24 FPS的高质量视频，包括100个（第一人称）+100个（第三人称）视频片段，共享一个动作空间，以及25+25个片段，涵盖八个不同场景的不同动作空间。

MIND is the first open-domain closed-loop revisit benchmark dataset for evaluating memory consistency and action control in world models. It contains 250 high-quality videos with 1080p resolution and 24 FPS, including 100 first-person and 100 third-person video clips that share a unified action space, plus another 25+25 clips covering distinct action spaces across eight different scenarios.

创建时间：

2026-02-05

原始信息汇总

MIND 数据集概述

数据集基本信息

数据集名称：MIND (Benchmarking Memory Consistency and Action Control in World Models)
核心定位：首个用于评估世界模型中记忆一致性与动作控制能力的开放域闭环重访基准。
发布日期：2026年2月9日。
数据集地址：https://huggingface.co/datasets/CSU-JPG/MIND
论文地址：https://arxiv.org/abs/2602.08025
代码仓库：https://github.com/CSU-JPG/MIND
项目主页：https://csu-jpg.github.io/MIND.github.io/

数据集内容与规模

视频总量：250个高质量视频。
视频规格：1080p分辨率，24 FPS帧率。
视角构成：
- 第一人称视角视频：100个。
- 第三人称视角视频：100个。
- 共享动作空间下的视频：200个（第一人称100个 + 第三人称100个）。
- 跨不同动作空间的视频：50个（第一人称25个 + 第三人称25个）。
场景覆盖：涵盖8个不同的开放域场景。
生成工具：使用Unreal Engine 5构建和收集。

核心评估能力

数据集旨在评估世界模型的两项核心能力：

记忆一致性：衡量模型在时间上的稳定性和跨视角的上下文连贯性。
动作控制：评估模型在给定动作序列下的可控生成能力。
动作泛化：通过设计不同的角色移动速度和相机旋转角度等多样化动作空间，评估模型在共享场景下跨不同动作空间的泛化能力。

数据集结构

目录结构

MIND-Data/ ├── 1st_data/ # 第一人称数据 │ ├── test/ │ │ ├── action_space_test/ # 动作空间测试集 │ │ └── mem_test/ # 记忆测试集 │ └── train/ # 训练集 └── 3rd_data/ # 第三人称数据 ├── test/ │ ├── action_space_test/ │ └── mem_test/ └── train/

关键文件说明

video.mp4：视频文件。
action.json：包含每帧动作标签、角色/相机位姿与旋转信息的标注文件。
- mark_time：划分记忆上下文与预期预测的起始帧索引。
- total_time：视频总帧数。
- caption：视频的文本描述。
- data：按帧记录的动作、位置和旋转信息。
images.txt（仅测试集）：图像列表文件。

评估框架与指标

数据集提供高效的评估框架，支持多GPU并行处理。

主要评估指标

长期上下文记忆指标：计算预测帧与真实帧之间的差异。
- 均方误差
- 学习感知图像块相似度
- 结构相似性指数
- 峰值信噪比
视觉质量指标：
- 成像质量
- 美学质量
动作精度指标：通过ViPE姿态估计和轨迹对齐计算相对位姿误差。
- 整体统计
- 纯平移动作统计
- 纯旋转动作统计
- 组合动作统计
- 特定动作（如前进、右看）统计
DINO特征均方误差指标：基于DINOv3特征计算。
通用场景一致性指标：用于镜像测试，评估预测与镜像预测之间的一致性。

评估输出

评估结果输出为结构化的JSON文件（Result.json），包含上述所有指标的详细计算结果。

基线模型

MIND-World：为促进在MIND上的性能基准测试而引入的新型交互式视频到世界基线模型。
规模：1.3B参数。

引用信息

bibtex @misc{ye2026mind, title={MIND: Benchmarking Memory Consistency and Action Control in World Models}, author={Yixuan Ye and Xuanyu Lu and Yuxin Jiang and Yuchao Gu and Rui Zhao and Qiwei Liang and Jiachun Pan and Fengda Zhang and Weijia Wu and Alex Jinpeng Wang}, year={2026}, eprint={2602.08025}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.08025}, }

搜集汇总

数据集介绍

构建方式

在构建世界模型基准的背景下，MIND数据集采用虚幻引擎5进行高质量视频生成，确保了视觉内容的逼真性与多样性。该数据集包含250段1080p分辨率、24帧率的视频，涵盖第一人称与第三人称视角，并设计了共享与多样化动作空间。通过精心策划的八种场景类别，数据集在保持开放域特性的同时，实现了动作空间与场景分布的均衡配置，为评估模型的长时记忆一致性与动作控制能力提供了结构化基础。

特点

MIND数据集的核心特征在于其首次提出了开放域闭环重访基准，专注于评估世界模型中的记忆一致性与动作控制能力。数据集不仅提供了高分辨率的视频序列，还包含了详尽的动作标注与空间坐标信息，支持多视角与多动作空间的泛化测试。其独特的评估框架能够量化模型在时间稳定性、上下文连贯性以及跨动作空间泛化等方面的表现，为深入理解世界模型的内部机制提供了多维度的分析工具。

使用方法

使用MIND数据集时，研究人员需按照指定的目录结构组织测试视频，并利用提供的多GPU并行处理脚本进行高效评估。数据集支持多种度量指标的计算，包括长上下文记忆误差、视觉质量评分以及动作准确性分析。通过配置相应的环境参数与模型路径，用户可生成详细的JSON格式结果报告，从而系统性地比较不同世界模型在记忆保持与动作泛化等关键任务上的性能差异。

背景与挑战

背景概述

在人工智能领域，世界模型旨在理解和预测动态视觉环境，然而长期以来缺乏一个统一的基准来评估其核心能力。为填补这一空白，研究团队于2026年推出了MIND数据集，这是首个面向开放域、支持闭环重访的基准，专门用于评估世界模型中的记忆一致性与动作控制能力。该数据集由CSU-JPG等机构的研究人员构建，包含250段1080p分辨率的高质量视频，涵盖第一人称与第三人称视角，并设计了多样化的动作空间。MIND的提出，为系统衡量世界模型在时序稳定性、上下文连贯性以及跨视角泛化等方面的性能提供了重要工具，推动了交互式视频生成与推理研究的发展。

当前挑战

MIND数据集致力于解决世界模型在记忆一致性与动作控制方面的核心挑战。在领域问题层面，模型需在长序列视频中维持时空连贯性，确保动态环境中的实体属性与关系在时间推移中保持一致，同时还需在多样化的动作指令下生成符合物理规律的视觉内容，这对模型的推理与泛化能力提出了极高要求。在构建过程中，挑战主要体现在高质量多视角视频数据的采集与标注上，需利用Unreal Engine 5等工具生成高保真且覆盖八种不同场景的开放域视频，并精确记录每一帧对应的动作参数与空间坐标，以确保评估框架的严谨性与可复现性。

常用场景

经典使用场景

在动态视觉环境建模领域，MIND数据集作为首个开放域闭环重访基准，其经典使用场景聚焦于评估世界模型在记忆一致性与动作控制方面的核心能力。该数据集通过精心设计的250段高分辨率视频，涵盖第一人称与第三人称视角，并引入多样化的动作空间，为研究者提供了系统性的评测框架。模型在此基准上进行训练与测试，能够深入探究其在长期时序稳定性、跨视角上下文连贯性以及动作泛化性等方面的表现，从而推动世界模型在复杂开放环境中的理解与预测能力发展。

实际应用

在实际应用层面，MIND数据集为自动驾驶、机器人导航以及虚拟现实等领域的仿真系统开发提供了重要支撑。通过利用该数据集训练的世界模型，系统能够在高度动态的开放环境中实现精准的环境理解与动作规划，提升其在复杂场景下的决策鲁棒性。例如，在自动驾驶仿真中，模型可基于历史视觉信息预测交通参与者的行为，从而优化路径规划与安全控制策略，推动智能系统在真实世界中的可靠部署。

衍生相关工作

围绕MIND数据集，已衍生出一系列经典研究工作，其中最具代表性的是MIND-World这一交互式视频到世界基线模型。该模型作为首个专为该基准设计的基线，通过整合视觉预测与动作控制模块，为后续研究提供了可比较的基准性能。此外，基于该数据集评测框架的扩展研究，如多模态记忆增强方法与跨域动作泛化技术，进一步推动了世界模型在开放域环境中的能力边界探索，形成了持续演进的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集