solaris-eval-datasets
收藏Hugging Face2026-02-21 更新2026-02-22 收录
下载链接:
https://huggingface.co/datasets/nyu-visionx/solaris-eval-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过SolarisEngine收集的评估数据集,用于评估Minecraft的Solaris多人世界模型。数据集包含多个文件夹,每个文件夹对应不同的评估场景,如玩家视线转移、旋转、建筑结构、移动等。具体文件夹包括:`bothLookAwayEval`(记忆评估:两名玩家视线转移并返回)、`oneLooksAwayEval`(基础评估:一名玩家视线转移并返回)、`rotationEval`(移动评估:一名玩家旋转视角)、`structureEval`(建筑评估:一名玩家建造结构)、`translationEval`(移动评估:一名玩家前后左右移动)、`turnToLookEval`(一致性评估:两名玩家看向同一方向)、`turnToLookOppositeEval`(一致性评估:两名玩家看向相反方向)。这些数据集旨在评估模型在不同场景下的表现,适用于多玩家交互、世界模型一致性、记忆和基础能力等任务。
创建时间:
2026-02-20
搜集汇总
数据集介绍
构建方式
在计算机视觉与多智能体交互领域,Solaris Eval Datasets的构建依托于SolarisEngine平台,专门为评估《我的世界》环境中的多人世界模型而设计。该数据集通过记录两名玩家在游戏中的互动行为,以720p分辨率和20帧每秒的规格采集视频与对应动作序列,确保了数据的高保真度与时序一致性。数据采集过程涵盖了多种典型交互场景,如玩家视线转移、旋转移动及结构建造等,从而系统性地构建出用于模型评估的多样化测试集。
特点
该数据集的核心特点在于其针对多智能体条件化视频模型的评估需求,提供了结构化的多维测试场景。每个子数据集对应特定的评估维度,例如记忆能力、基础感知、运动预测及一致性检验等,使得模型性能能够被细致量化。数据以高分辨率视频与精确动作空间相结合的形式呈现,不仅支持对世界模型动态推理能力的考察,也为跨模型基准测试提供了标准化基础。
使用方法
研究人员可通过Solaris项目提供的开源工具链加载并使用该数据集,具体流程包括数据下载、预处理及评估脚本的执行。数据集适用于各类多智能体条件化视频模型的性能评测,用户可依据不同子集对应的任务维度,如记忆、基础、运动或一致性等,设计相应的推理实验。通过对比模型预测视频与真实记录的差异,能够系统评估世界模型在复杂交互环境中的泛化能力与鲁棒性。
背景与挑战
背景概述
Solaris Eval Datasets 由 Solaris 研究团队于2025年发布,旨在评估其构建的多人世界模型在《我的世界》环境中的性能。该数据集作为多智能体动作条件视频生成领域的重要基准,由 Georgy Savva 等研究人员主导开发,核心研究问题聚焦于如何通过视频预测来模拟复杂多智能体交互下的动态世界状态。其发布推动了具身智能与生成式世界模型在开放环境中的研究进展,为评估模型在记忆、基础、运动、构建和一致性等方面的能力提供了标准化测试平台。
当前挑战
该数据集旨在解决多智能体动作条件视频预测的挑战,具体包括模型需在玩家视线转移、旋转、移动和建筑等多样化交互场景中,准确生成高保真且时空一致的未来视频帧。在构建过程中,研究人员面临从《我的世界》环境中同步采集高分辨率(720p)视频与多智能体动作数据的复杂性,确保数据在时间对齐和动作空间标注上的精确性,同时设计涵盖记忆、基础、运动、构建和一致性等维度的评估任务,以全面检验世界模型的泛化与推理能力。
常用场景
经典使用场景
在视频世界模型的研究领域,Solaris Eval Datasets 为评估多智能体动作条件视频模型提供了标准化基准。该数据集通过捕捉《我的世界》游戏中两名玩家的高分辨率视频与动作序列,经典应用于测试模型在复杂动态环境下的预测与生成能力。研究者利用其涵盖的七个子集,如‘Memory’和‘Building’,系统评估模型在记忆、接地、运动、构建和一致性等方面的性能,推动视频生成与理解技术的边界。
解决学术问题
该数据集有效解决了多智能体交互环境中视频预测与生成的若干核心学术问题。通过提供结构化的评估场景,它帮助研究者量化模型在长期记忆、空间推理、动作条件视频合成等方面的表现。其意义在于建立了可复现的评估框架,促进了视频世界模型领域的标准化比较,为理解智能体在开放世界中的行为与交互提供了实证基础,加速了从理论到应用的转化进程。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作。例如,原始 Solaris 项目本身构建了首个《我的世界》多人视频世界模型,为后续多智能体视频生成研究树立了标杆。其他工作则借鉴其评估框架,扩展至更广泛的开放世界游戏或物理仿真环境,探索模型的可扩展性与泛化能力。这些研究共同深化了对动作条件视频建模的理解,并催生了新的模型架构与训练范式。
以上内容由遇见数据集搜集并总结生成



