MIND

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/CSU-JPG/MIND

下载链接

链接失效反馈

官方服务：

资源简介：

MIND 是首个用于评估世界模型中记忆一致性和动作控制能力的开放域闭环基准数据集。该数据集包含250个1080p分辨率、24帧率的高质量视频，涵盖100个第一人称视角和100个第三人称视角的视频片段（共享动作空间），以及25+25个跨不同动作空间的视频片段（覆盖8种多样场景）。数据集设计用于测量两个核心能力：记忆一致性（跨视角的时间稳定性和上下文连贯性）和动作控制（在不同动作空间下的泛化能力）。数据组织形式包括1st_data（第一人称）和3rd_data（第三人称）两大类别，每个类别下包含test和train子集，其中test子集进一步分为action_space_test和mem_test。每个视频样本都配有详细的action.json元数据文件，包含帧级动作标注、角色位置/朝向、相机参数等信息。数据集采用Unreal Engine 5构建，支持多GPU并行评估，提供包括长期记忆指标（LCM）、视觉质量指标和动作准确率指标在内的完整评估框架。

创建时间：

2026-02-05

搜集汇总

数据集介绍

构建方式

在动态视觉环境理解领域，世界模型需具备记忆一致性与动作控制的核心能力，而现有评测基准尚存空白。MIND数据集采用虚幻引擎5精心构建，涵盖八个多样化开放场景，生成250段1080p分辨率、24帧率的高质量视频。其构建过程严格区分第一人称与第三人称视角，并设计了共享动作空间与可变动作空间两种模式，通过程序化生成确保视频序列在时空维度上的对齐与标注精度。每个视频片段均配备详尽的动作序列数据与空间坐标标注，为模型训练与评估提供了结构化的多维信息基础。

特点

该数据集作为首个开放域闭环重访基准，其核心特征体现在多维度评测框架的设计上。数据集不仅包含平衡分布的第一人称与第三人称视角视频，更创新性地引入了镜像测试与动作空间泛化测试任务，用以系统评估模型的长时记忆一致性、跨视角场景连贯性以及动作指令的泛化能力。视频内容覆盖城市、自然、室内等多种复杂环境，动作空间则精细定义了角色移动速度与摄像机旋转角度等变量，从而构建了一个能够全面检验世界模型在动态环境中进行认知、记忆与预测能力的立体化评测体系。

使用方法

为有效利用该数据集进行模型评测，研究者需遵循其提供的结构化评估流程。首先，需按照指定目录结构组织待测模型生成的视频数据，区分不同测试类型与视角。随后，通过官方提供的多GPU并行处理脚本，调用综合评估指标进行计算，这些指标涵盖长时上下文记忆、视觉质量、动作准确性及场景一致性等多个维度。评估过程将输出详细的JSON格式结果文件，其中包含逐帧的误差分析与各类动作的统计精度，使得研究者能够定量分析模型在记忆保持、动作执行与跨视角预测等方面的具体表现，进而推动世界模型技术的迭代与优化。

背景与挑战

背景概述

在人工智能领域，世界模型旨在理解和预测动态视觉环境，然而长期以来缺乏一个统一的基准来评估其核心能力。为填补这一空白，由CSU-JPG团队于2026年推出的MIND数据集应运而生，成为首个面向开放域、支持闭环重访的基准测试平台，专门用于评估世界模型中的记忆一致性与动作控制能力。该数据集包含250段高质量视频，涵盖第一人称与第三人称视角，并设计了多样化的动作空间与场景类别，其核心研究问题聚焦于如何量化模型在复杂交互环境中的长期记忆保持与跨视角动作泛化性能，对推动具身智能与交互式视频生成领域的发展具有深远影响。

当前挑战

MIND数据集致力于解决世界模型在动态视觉环境理解中的两大核心挑战：一是评估模型在长序列视频中维持记忆一致性的能力，即确保时间维度上的信息连贯与视角切换时的上下文对齐；二是测试模型在不同动作空间下的泛化与控制能力，例如适应多变的移动速度与摄像机旋转角度。在构建过程中，挑战主要体现在如何通过虚幻引擎5高效生成高保真、多视角的开放域视频数据，并设计出能够精确量化记忆一致性、视觉质量与动作准确性的综合评价框架，同时确保数据在场景分布与动作空间上的多样性与平衡性。

常用场景

经典使用场景

在动态视觉环境建模领域，MIND数据集作为首个开放域闭环重访基准，其经典使用场景聚焦于评估世界模型在记忆一致性与动作控制方面的核心能力。该数据集通过精心设计的250段高分辨率视频，涵盖第一人称与第三人称视角，并构建了共享与多样化动作空间，为研究者提供了系统化测试平台。模型在此基准上进行训练与推理，能够深入探究其在长时序记忆保持、跨视角上下文连贯性以及动作泛化等方面的表现，从而推动世界模型在复杂开放环境中的理解与预测能力发展。

解决学术问题

MIND数据集有效解决了世界模型研究中长期缺乏统一评估标准的学术难题。传统方法往往侧重于单一能力评测，而该基准通过整合记忆一致性与动作控制两大维度，为衡量模型在动态视觉环境中的综合性能提供了严谨框架。其意义在于揭示了当前模型在维持长期记忆一致性和跨动作空间泛化方面的关键挑战，促进了学术界对世界模型内在机制的深入理解，并为后续研究指明了改进方向，对推动具身智能与通用视觉推理领域的发展产生了深远影响。

衍生相关工作

围绕MIND数据集，学术界已衍生出一系列经典研究工作，其中最具代表性的是其配套基线模型MIND-World。该模型作为一种新颖的交互式视频到世界基线，为后续性能比较提供了坚实基础。此外，基于该基准的评测框架启发了众多针对记忆一致性优化、跨视角生成以及动作空间泛化的创新方法，这些工作不仅深化了对世界模型能力的探索，也推动了相关评测指标与训练范式的演进，为构建更强大的通用视觉模型奠定了理论基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集