SAGE-10k

Name: SAGE-10k
Creator: 英伟达; 伊利诺伊大学厄巴纳-香槟分校; 康奈尔大学; 斯坦福大学
Published: 2026-02-11 02:59:55
License: 暂无描述

arXiv2026-02-11 更新2026-02-12 收录

下载链接：

https://project_page_here

下载链接

链接失效反馈

官方服务：

资源简介：

SAGE-10k是由英伟达牵头，联合多所高校开发的仿真就绪3D场景数据集，专为具身智能体训练设计。该数据集包含10,000个通过代理框架生成的多样化室内场景，涵盖卧室、厨房等环境，每个场景均经过物理稳定性验证和语义合理性审核，支持开放词汇提示下的动态生成。数据通过多级增强技术（对象配置、类别和布局）实现规模化构建，并集成Isaac Sim物理引擎进行碰撞检测。其核心应用是解决机器人策略学习中真实数据获取成本高、安全性差的问题，为移动操作、抓取放置等任务提供可扩展的仿真训练环境。

SAGE-10k is a simulation-ready 3D scene dataset led by NVIDIA and co-developed in partnership with multiple universities, specifically tailored for embodied AI agent training. It contains 10,000 diverse indoor scenes generated via agent frameworks, covering typical indoor environments such as bedrooms and kitchens. Each scene has been validated for physical stability and reviewed for semantic rationality, and supports dynamic generation under open-vocabulary prompts. The dataset is scaled up through multi-level enhancement techniques including object configuration, category definition and layout arrangement, and integrates the Isaac Sim physics engine for collision detection. Its core application is to address the challenges of high acquisition cost and poor safety in real-world data collection for robot policy learning, providing scalable simulation training environments for tasks such as mobile manipulation, grasping and placement.

提供机构：

英伟达; 伊利诺伊大学厄巴纳-香槟分校; 康奈尔大学; 斯坦福大学

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在具身智能领域，仿真数据的生成需兼顾物理有效性与语义可控性。SAGE-10k数据集的构建采用了基于智能体（Agent）的框架，通过模型上下文协议（MCP）动态协调多个生成器与评估模块。系统首先根据用户提供的开放式文本描述，初始化场景布局并生成基础三维房间结构；随后利用文本到三维模型生成技术合成物体，并通过视觉与物理评估器进行迭代优化。视觉评估器负责检查语义合理性与空间协调性，物理评估器则借助Isaac Sim仿真器验证物体的重力稳定性与碰撞避免，形成闭环自我修正机制，确保生成场景兼具高真实感与物理有效性。

特点

该数据集的核心特点在于其高度的仿真就绪性与可扩展性。所有场景均经过严格的物理验证，物体附有质量、材质等物理属性，可直接部署于现代机器人仿真器中用于策略训练。数据集涵盖50种房间类型与多样风格，包含56.5万个独立生成的三维物体，展现出丰富的语义与几何多样性。通过多层次增强策略——包括物体配置、类别与场景布局的变异——在保持任务语义一致的前提下，显著扩展了场景的覆盖范围，为具身智能策略的泛化能力提供了坚实基础。

使用方法

SAGE-10k数据集主要用于支持具身人工智能的大规模仿真训练与评估。研究人员可直接将数据集导入Isaac Sim等仿真环境，用于机器人操作与移动操作任务的策略学习。数据集已预生成大量场景，并可通过提供的增强管道进一步扩展。针对具体任务（如拾放、移动操作），用户可基于数据集自动合成机器人动作演示数据，结合运动规划与模仿学习框架（如Diffusion Policy）训练策略。实验表明，利用该数据训练的策略在未见过的物体与布局上展现出良好的泛化性能，并随场景与演示数据规模的增加呈现清晰的性能提升趋势。

背景与挑战

背景概述

SAGE-10k数据集由NVIDIA联合伊利诺伊大学厄巴纳-香槟分校、康奈尔大学及斯坦福大学的研究团队于2026年提出，旨在应对具身智能领域对大规模、高保真三维仿真环境的迫切需求。该数据集的核心研究问题在于如何通过智能体驱动的框架，将开放词汇的用户指令自动转化为物理有效、仿真就绪的三维室内场景，以支持机器人策略的规模化训练。其创新性体现在融合了布局生成、视觉与物理批评模块的自主推理流程，显著提升了生成场景的多样性与物理稳定性，为仿真驱动的具身智能研究提供了关键数据基础，推动了该领域从有限规则生成向开放语义生成的范式转变。

当前挑战

SAGE-10k数据集致力于解决具身智能中仿真环境生成的领域挑战，即如何高效创建兼具视觉真实感、物理合理性和任务相关性的三维场景，以替代昂贵且不安全的真实世界数据收集。构建过程中的主要挑战包括：其一，在开放词汇条件下确保生成场景的语义一致性与布局合理性，避免物体错位或缺失；其二，实现严格的物理验证，通过仿真器在环检测消除碰撞与不稳定现象，保证场景可直接部署于现代机器人仿真平台；其三，在规模化生成中维持场景多样性，同时通过多层次增强技术保持任务语义不变，以支持策略的泛化能力。

常用场景

经典使用场景

在具身智能领域，大规模、高质量仿真环境的构建是机器人策略训练的关键瓶颈。SAGE-10k数据集通过智能体驱动的生成框架，为移动操作和拾取放置等典型任务提供了丰富的三维场景。该数据集最经典的使用场景在于为机器人策略学习提供可扩展的仿真训练环境，研究者能够基于其生成的多样化卧室、厨房等室内场景，训练机器人完成如从床头柜拿起杯子放置到书桌等复杂操作任务。

衍生相关工作

围绕SAGE-10k数据集，衍生出了一系列重要的研究工作。其智能体驱动的生成框架启发了后续如SceneWeaver等场景合成系统的设计，强调了工具编排与自我改进的重要性。在仿真环境构建领域，该数据集为ProcTHOR、Holodeck等系统提供了新的数据生成范式，促进了物理验证与开放词汇生成的结合。此外，基于该数据集训练的Diffusion Policy等模仿学习策略，展示了仿真数据规模化对策略泛化能力的提升，为后续RoboCasa、BEHAVIOR-1K等大规模仿真基准的构建提供了方法论参考。

数据集最近研究