InternScenes

Name: InternScenes
Creator: 上海人工智能实验室
Published: 2025-09-13 22:25:17
License: 暂无描述

arXiv2025-09-13 更新2025-09-17 收录

下载链接：

https://github.com/Shanghai-AI-Laboratory/InternScenes

下载链接

链接失效反馈

官方服务：

资源简介：

InternScenes是一个包含约40,000个室内场景的大规模可模拟数据集，这些场景具有多样化的布局和真实感。该数据集整合了来自三个不同来源的场景数据：真实世界的扫描场景、程序生成的场景和设计师创作的场景。数据集包含1.96M个3D对象，涵盖了15种常见的场景类型和288个对象类别。InternScenes的特点是场景多样性和真实布局，每个区域平均包含41.5个对象，包括大量小物品，从而形成了复杂且真实的布局。该数据集通过创建真实场景的模拟副本、增强交互性、并通过物理模拟解决对象碰撞问题，确保了可模拟性。InternScenes已被用于两个基准应用：场景布局生成和点目标视觉导航，为具身AI的训练和模型训练提供了重要资源。

InternScenes is a large-scale physically simulable dataset containing approximately 40,000 indoor scenes with diverse layouts and high realism. This dataset integrates scene data from three distinct sources: real-world scanned scenes, procedurally generated scenes, and designer-created scenes. The dataset comprises 1.96 million 3D objects, spanning 15 common scene types and 288 object categories. Distinguished by its diverse scenes and realistic layouts, each scene on average contains 41.5 objects, with a substantial number of small items included, thereby forming complex and authentic layouts. This dataset ensures its simulability by generating simulated replicas of real-world scenes, enhancing interactivity, and resolving object collision issues via physical simulation. InternScenes has been utilized in two benchmark applications: scene layout generation and point-goal visual navigation, serving as a critical resource for embodied AI training and model development.

提供机构：

上海人工智能实验室

创建时间：

2025-09-13

搜集汇总

数据集介绍

构建方式

在具身智能领域，大规模可模拟三维场景数据集对算法训练至关重要。InternScenes通过融合真实扫描场景、程序生成场景和设计师创建场景三大数据源，构建了约4万个多样化室内场景。其数据处理流程包括为真实扫描场景创建实景仿真副本，通过物理仿真解决物体碰撞问题，并引入交互对象增强场景交互性，最终形成包含196万个三维对象、覆盖288个物体类别的高质量数据集。

特点

该数据集的核心特征体现在其复杂性与真实性上。每个功能区域平均包含41.5个物体，特别保留了大量小型物品，形成高度密集的物体布局。数据集涵盖15种常见场景类型，包含80万CAD模型资源，其中20%为具有交互功能的物体。通过物理优化处理，所有场景均具备完全可模拟特性，为具身智能研究提供了前所未有的真实环境。

使用方法

数据集支持多种三维视觉与具身智能任务的应用。在场景布局生成任务中，提供完整版和简化版两个版本，用于评估算法在复杂布局下的生成能力。在视觉导航任务中，可通过IsaacSim等物理仿真平台构建点目标导航基准，测试智能体在复杂环境中的运动规划能力。数据集采用标准化的区域-实例层级结构，提供物体类别、空间坐标、边界框尺寸及欧拉角等完整注释信息，支持端到端的场景重建与算法训练。

背景与挑战

背景概述

Embodied AI领域的快速发展亟需大规模、可模拟且具有真实布局的3D场景数据集作为支撑。InternScenes由上海人工智能实验室于2025年提出，整合了真实扫描场景、程序生成场景和设计师创建场景三大数据源，包含约4万场景、196万对象和288个类别，平均每个区域容纳41.5个对象。该数据集通过物理仿真优化解决了对象碰撞问题，并保留了大量小物件以增强布局真实性，为场景生成和视觉导航等任务提供了前所未有的数据基础。

当前挑战

在解决复杂室内场景生成问题时，现有方法难以处理高密度小物件的空间分布与物理合理性，导致生成场景中出现物体漂浮或穿透现象。数据集构建过程中面临三大挑战：真实扫描数据存在几何不完整性与模拟兼容性问题；程序生成场景需平衡无限生成能力与多样性缺失的矛盾；设计师创建场景需通过人工标注解决层次结构混乱与语义模糊性。此外，物理仿真优化需处理不同尺度对象的碰撞检测与空间约束。

常用场景

经典使用场景

在具身智能与三维场景生成研究中，InternScenes数据集凭借其大规模、高真实度的室内布局特性，成为场景布局生成任务的基准测试平台。该数据集通过融合真实扫描、程序生成和设计师创作三类场景源，构建了包含约4万场景、196万对象的大规模资源，支持生成模型在复杂环境下的训练与评估，尤其擅长模拟包含大量小物体的高密度布局，为生成式模型提供了前所未有的挑战性环境。

解决学术问题

InternScenes有效解决了现有三维场景数据在规模、多样性和物理合理性方面的局限。其通过真实到仿真的转换流程保留了小物体细节，平均每个区域包含41.5个对象，显著提升了场景布局的复杂度和真实性。该数据集为具身智能中的视觉导航、物理交互等研究提供了高质量仿真环境，同时推动了生成模型在复杂场景合成中的范式创新，填补了高密度物体布局生成领域的空白。

衍生相关工作

基于InternScenes的布局复杂性，研究者开发了多项创新工作。在场景生成领域，PhyScene等物理引导的生成方法通过该数据集验证了其在复杂布局中的优越性；在导航任务中，NavDP等扩散策略模型利用其多样场景提升了泛化能力。此外，数据集驱动的真实到仿真转换流程为SceneScript、Infinigen等程序生成方法提供了优化方向，推动了多源数据融合技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集