MIND
收藏MIND 数据集概述
数据集基本信息
- 数据集名称:MIND (Benchmarking Memory Consistency and Action Control in World Models)
- 核心定位:首个用于评估世界模型中记忆一致性与动作控制能力的开放域闭环重访基准。
- 发布日期:2026年2月9日。
- 数据集地址:https://huggingface.co/datasets/CSU-JPG/MIND
- 论文地址:https://arxiv.org/abs/2602.08025
- 代码仓库:https://github.com/CSU-JPG/MIND
- 项目主页:https://csu-jpg.github.io/MIND.github.io/
数据集内容与规模
- 视频总量:250个高质量视频。
- 视频规格:1080p分辨率,24 FPS帧率。
- 视角构成:
- 第一人称视角视频:100个。
- 第三人称视角视频:100个。
- 共享动作空间下的视频:200个(第一人称100个 + 第三人称100个)。
- 跨不同动作空间的视频:50个(第一人称25个 + 第三人称25个)。
- 场景覆盖:涵盖8个不同的开放域场景。
- 生成工具:使用Unreal Engine 5构建和收集。
核心评估能力
数据集旨在评估世界模型的两项核心能力:
- 记忆一致性:衡量模型在时间上的稳定性和跨视角的上下文连贯性。
- 动作控制:评估模型在给定动作序列下的可控生成能力。
- 动作泛化:通过设计不同的角色移动速度和相机旋转角度等多样化动作空间,评估模型在共享场景下跨不同动作空间的泛化能力。
数据集结构
目录结构
MIND-Data/ ├── 1st_data/ # 第一人称数据 │ ├── test/ │ │ ├── action_space_test/ # 动作空间测试集 │ │ └── mem_test/ # 记忆测试集 │ └── train/ # 训练集 └── 3rd_data/ # 第三人称数据 ├── test/ │ ├── action_space_test/ │ └── mem_test/ └── train/
关键文件说明
video.mp4:视频文件。action.json:包含每帧动作标签、角色/相机位姿与旋转信息的标注文件。mark_time:划分记忆上下文与预期预测的起始帧索引。total_time:视频总帧数。caption:视频的文本描述。data:按帧记录的动作、位置和旋转信息。
images.txt(仅测试集):图像列表文件。
评估框架与指标
数据集提供高效的评估框架,支持多GPU并行处理。
主要评估指标
- 长期上下文记忆指标:计算预测帧与真实帧之间的差异。
- 均方误差
- 学习感知图像块相似度
- 结构相似性指数
- 峰值信噪比
- 视觉质量指标:
- 成像质量
- 美学质量
- 动作精度指标:通过ViPE姿态估计和轨迹对齐计算相对位姿误差。
- 整体统计
- 纯平移动作统计
- 纯旋转动作统计
- 组合动作统计
- 特定动作(如前进、右看)统计
- DINO特征均方误差指标:基于DINOv3特征计算。
- 通用场景一致性指标:用于镜像测试,评估预测与镜像预测之间的一致性。
评估输出
评估结果输出为结构化的JSON文件(Result.json),包含上述所有指标的详细计算结果。
基线模型
- MIND-World:为促进在MIND上的性能基准测试而引入的新型交互式视频到世界基线模型。
- 规模:1.3B参数。
引用信息
bibtex @misc{ye2026mind, title={MIND: Benchmarking Memory Consistency and Action Control in World Models}, author={Yixuan Ye and Xuanyu Lu and Yuxin Jiang and Yuchao Gu and Rui Zhao and Qiwei Liang and Jiachun Pan and Fengda Zhang and Weijia Wu and Alex Jinpeng Wang}, year={2026}, eprint={2602.08025}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.08025}, }




