MIND

arXiv2025-09-30 收录

下载链接：

https://msnews.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个真实世界的新闻文章数据集，被广泛应用于个性化新闻推荐的研究中。其主要任务是实现个性化新闻推荐。

This dataset is a real-world news article dataset that has been widely employed in research pertaining to personalized news recommendation. The core task of this dataset is to facilitate personalized news recommendation.

搜集汇总

数据集介绍

构建方式

MIND数据集基于Unreal Engine 5构建，通过招募多名志愿者在超过40个开放域环境中执行脚本化和自由式动作，采集了250段1080p分辨率、24帧每秒的高质量视频。数据涵盖第一人称与第三人称视角各100段共享动作空间的视频，以及各25段不同动作空间的视频，并配有帧级对齐的动作日志、角色与相机位置及图像标签，确保了数据的可控性与多样性。

特点

MIND作为首个开放域闭环回访基准，聚焦于世界模型的两大核心能力：记忆一致性与动作控制。其视频覆盖自然、科幻、都市等8大场景类别，动作空间支持平移与旋转的灵活泛化，并设计了对称运动路径用于评估场景生成一致性。该数据集通过长上下文记忆与跨动作空间泛化测试，揭示了当前模型在维持时序稳定性和上下文连贯性上的关键挑战。

使用方法

MIND适用于评估世界模型在记忆一致性与动作控制上的表现。使用时，模型接收一段记忆视频序列及后续动作指令，需预测未来帧并与真实帧对比，通过均方误差量化长上下文记忆能力。动作准确性通过ViPE恢复相机轨迹并与Sim(3)对齐后计算相对位姿误差；动作空间泛化则通过在不同运动增量设置下的帧间MSE评估。此外，视觉质量结合LAION美学评分与MUSIQ感知保真度进行综合评价。

背景与挑战

背景概述

世界模型旨在理解、记忆并预测动态视觉环境，其核心能力包括长时间记忆一致性与精准动作控制。然而，现有基准多聚焦于视觉质量或物理真实性，缺乏对这两项基本能力的统一评估。为此，来自中南大学、新加坡国立大学等机构的研究团队于2025年提出了MIND数据集，这是首个面向开放域、闭环重访场景的世界模型基准，支持从第一人称和第三人称双视角评估。MIND包含250段1080p/24FPS的高质量视频，覆盖八大场景类别，并设计了统一的评估框架以量化记忆一致性与动作控制能力。该数据集填补了开放域世界模型标准化评估的空白，为交互式、时序连贯的世界模型研究奠定了坚实基础。

当前挑战

MIND揭示了当前世界模型面临的若干严峻挑战。首先，在长时间记忆一致性方面，现有模型难以在数百帧的生成过程中保持场景布局与物体身份的稳定，重访同一位置时容易出现内容漂移。其次，动作空间泛化能力不足，模型在训练时特定的移动速度与旋转角度下表现尚可，一旦动作尺度发生改变，其预测精度显著下降。第三，精确动作控制存在瓶颈，视觉提示与动作动力学之间的耦合导致模型难以独立执行指令。此外，从第三人称视角生成时，模型常无法正确处理前景角色与背景的交互关系，角色穿透物体等现象频发。这些挑战共同制约着世界模型向可靠、可交互的通用模拟器迈进。

常用场景

经典使用场景

在开放域世界模型的评估中，MIND数据集被广泛用于衡量模型在长时间跨度和多视角下的记忆一致性与动作控制能力。研究者通常通过该数据集提供的250段1080p/24FPS高质量视频，结合第一人称与第三人称视角，设计闭环回访实验，测试模型在复杂场景中是否能够维持物体身份、空间布局和场景属性的时间稳定性。其经典使用方式包括基于对称运动路径的生成场景一致性检验，以及通过不同动作空间配置评估模型的泛化性能，从而全面刻画世界模型在动态环境中的行为表现。

实际应用

在实际应用中，MIND数据集支撑了自动驾驶、具身智能和交互式游戏环境等领域的模型开发与验证。通过评估世界模型在虚拟场景中执行连续动作指令的精度与稳定性，该数据集帮助开发者优化决策系统的时空一致性，例如确保自动驾驶车辆在回访同一路口时感知结果不变。此外，MIND的多视角设计使其可用于训练机器人平台在复杂工业或室内环境中的导航与操作能力，通过模拟不同摄像机旋转角度和移动速度，提升模型在真实部署中的鲁棒性与泛化水平。

衍生相关工作

MIND数据集催生了一系列衍生工作，其中最具代表性的是MIND-World基线模型，它通过参数化动作注入机制实现了高效的视频到世界（Video-to-World）训练与推理。此外，受MIND中记忆一致性挑战的启发，研究者提出了基于层次化无位姿记忆压缩的Infinite-World模型，以及通过几何锚定长期空间记忆的SPMem框架。这些工作借鉴了MIND的闭环回访评估思想，分别从长时记忆保持、跨动作空间泛化和实时交互等角度深化了世界模型的设计，共同推动了开放域、高保真交互式视频生成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集