MansionWorld
收藏Hugging Face2026-03-14 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/superbigsaw/MansionWorld
下载链接
链接失效反馈官方服务:
资源简介:
MansionWorld 是一个面向具身智能的建筑级多楼层三维环境数据集,基于语言驱动的 MANSION 框架生成,旨在支持跨楼层导航与长时序任务的研究。该数据集构建了包含住宅、办公楼及公共设施在内的多类型三维建筑场景,每栋建筑具有 2–10 层结构,并通过楼梯、电梯等实现真实的垂直连通关系,从而模拟复杂的室内空间拓扑。数据集提供结构化的场景布局(如 JSON 格式平面结构)与对应的视觉表示(如平面图与可交互环境),并结合语义信息与任务描述,用于刻画智能体在多楼层环境中的感知、决策与执行过程。MansionWorld 包含上千个可交互建筑与上万个功能空间,适用于跨楼层导航、目标搜索、任务规划、多步操作及空间推理等任务研究。该数据集特别适合具身智能、机器人导航、3D 场景理解与强化学习等方向,可用于训练视觉-语言-行动(VLA)模型、具身大模型及长时序决策模型,推动智能体从“房间级”向“建筑级”复杂环境能力的提升。
MansionWorld is a building-level, multi-floor 3D environment dataset tailored for embodied intelligence, generated using the language-driven MANSION framework. It is designed to support research on cross-floor navigation and long-horizon tasks. This dataset constructs diverse 3D architectural scenes covering residential buildings, office buildings and public facilities. Each building features a 2–10 floor structure, with realistic vertical connectivity implemented via stairs, elevators and other means, thereby simulating complex indoor spatial topologies. The dataset provides structured scene layouts (e.g., JSON-formatted planar structural data) and corresponding visual representations (e.g., floor plans and interactive environments), paired with semantic information and task descriptions to characterize the perception, decision-making and execution processes of AI agents in multi-floor environments. MansionWorld includes thousands of interactive buildings and tens of thousands of functional spaces, making it applicable to research on tasks such as cross-floor navigation, target search, task planning, multi-step operation and spatial reasoning. This dataset is particularly well-suited for research directions including embodied intelligence, robotic navigation, 3D scene understanding and reinforcement learning, and can be used to train vision-language-action (VLA) models, embodied large language models (LLMs) and long-horizon decision-making models, advancing the improvement of intelligent agents' capabilities from "room-level" to "building-level" complex environments.
提供机构:
superbigsaw
创建时间:
2026-03-14
搜集汇总
数据集介绍

构建方式
在具身智能研究领域,构建能够支持长时程、多楼层任务的高质量仿真环境至关重要。MansionWorld数据集依托AI2-THOR仿真平台,通过系统化的程序化生成方法,构建了包含1000栋多楼层建筑的庞大场景集合。其构建过程遵循严谨的命名与结构规范,每栋建筑均以特定模板为基础,衍生出不同楼层数量与面积变体,并辅以详细的楼层配置JSON文件与平面图可视化,确保了场景结构的一致性与可解析性。
特点
该数据集的核心特征在于其前所未有的规模与多样性。它囊括了总计超过一万个房间,分布于一千栋具有二至十层不等的交互式建筑中,为智能体探索与任务执行提供了广阔的空间。建筑类型经过精心设计,涵盖了住宅、办公与公共空间三大类别,并以50%、30%与20%的比例分布,这种构成模拟了现实世界的室内环境分布,为训练与评估智能体在多样化场景中的泛化能力奠定了坚实基础。
使用方法
为便于研究使用,数据集以压缩包形式提供,包含主场景文件与补充资源包。用户下载并解压后,可按照清晰的目录结构访问各建筑的楼层配置与平面图。数据集的使用深度集成于其专属的Mansion API,研究人员需参考项目文档以正确加载场景并调用相关接口。通过关联的代码库与详细文档,用户可以高效地将此数据集应用于多楼层导航、长时程任务规划等前沿具身人工智能研究课题中。
背景与挑战
背景概述
在具身人工智能领域,构建能够理解和交互复杂三维环境的智能体是核心研究目标。MansionWorld数据集于2026年由Lirong Che等研究人员提出,旨在为长时程任务提供大规模、多楼层的室内场景模拟环境。该数据集基于AI2-THOR仿真平台构建,包含1000栋具有2至10层不等的交互式建筑,总计超过一万个房间,涵盖住宅、办公及公共建筑等多种类型。其创建推动了语言指令到三维场景生成、机器人导航与规划等方向的研究,为开发在真实世界多层结构中执行任务的智能体提供了关键基准。
当前挑战
MansionWorld致力于解决具身智能在复杂、结构化室内环境中进行长时程任务所面临的挑战,例如跨楼层导航、对象检索与场景理解。这些任务要求智能体具备对多层空间布局的深刻认知与规划能力。在数据集构建过程中,主要挑战在于如何高效生成大量多样且物理合理的多楼层三维场景,并确保场景中对象、房间及楼层之间的交互逻辑与连通性符合真实世界规律,同时保持数据集在规模与多样性之间的平衡。
常用场景
经典使用场景
在具身智能研究领域,MansionWorld数据集为多楼层室内场景的导航与交互任务提供了经典仿真环境。该数据集包含1000栋具有2至10层的交互式建筑,涵盖住宅、办公室及公共空间等多种类型,总计超过10000个房间。研究者通常利用其在AI2-THOR仿真平台中构建的丰富三维场景,训练智能体执行跨楼层的长时程任务,例如基于自然语言指令的物体寻找、房间探索以及复杂路径规划。这种大规模、结构化的多楼层环境有效模拟了现实世界的建筑复杂性,为算法验证与性能评估奠定了坚实基础。
解决学术问题
MansionWorld主要致力于解决具身人工智能中长时程任务与跨楼层场景理解的学术挑战。传统数据集往往局限于单层平面环境,难以支撑智能体在垂直空间中的连续决策与状态跟踪。该数据集通过提供大规模、多样化的多楼层建筑结构,使研究者能够深入探索智能体在多层环境中的导航策略、空间记忆建模以及跨楼层任务规划等核心问题。其意义在于推动了三维场景理解与具身决策研究的边界,为开发能够适应真实世界复杂建筑的智能系统提供了关键数据支撑。
衍生相关工作
围绕MansionWorld数据集,已衍生出一系列聚焦于多楼层具身任务的前沿研究工作。这些工作主要集中于语言引导的三维场景生成、长时程分层规划算法以及跨楼层视觉语言导航等方向。例如,相关研究利用该数据集的建筑模板与变体机制,探索从自然语言描述到复杂多层三维场景的自动生成技术。同时,许多工作以该数据集为基准,提出了新颖的强化学习与模仿学习框架,以提升智能体在垂直空间中的探索效率与任务完成率。这些衍生研究共同推动了具身智能在结构化复杂环境中的能力进步。
以上内容由遇见数据集搜集并总结生成



