IL3D

Name: IL3D
Creator: 中国科学技术大学 & 松颖科技
Published: 2025-10-14 11:02:33
License: 暂无描述

arXiv2025-10-14 更新2025-10-16 收录

下载链接：

http://il3d-project.org/

下载链接

链接失效反馈

官方服务：

资源简介：

IL3D是一个大规模室内布局数据集，专门为大型语言模型驱动的3D场景生成而设计，旨在解决室内布局设计中高质量训练数据的迫切需求。该数据集包含27,816个室内布局，涵盖18种常见的房间类型，以及29,215个高保真3D物体资产库。IL3D还富含实例级别的自然语言注释，以支持视觉-语言任务的鲁棒多模态学习。数据集的构建基于USD格式，使用USDZ格式的3D物体资产和USDA格式的房间布局。这种格式的显著特点是文本可读性，即大型语言模型可以直接从3D场景模型中读取场景中物体的信息。此外，IL3D提供了实例级别的自然语言描述，并支持多种数据格式，包括语义点云、3D边界框、多视图RGB图像、深度图、法线图和语义掩码，确保与各种下游视觉任务的兼容性。

IL3D is a large-scale indoor layout dataset specifically developed for large language model (LLM)-enabled 3D scene generation, aiming to address the critical demand for high-quality training data in indoor layout design. This dataset comprises 27,816 indoor layouts spanning 18 common room categories, alongside a library of 29,215 high-fidelity 3D object assets. IL3D also features rich instance-level natural language annotations to support robust multimodal learning for vision-language tasks. The dataset is constructed based on the USD format, using USDZ-formatted 3D object assets and USDA-formatted room layouts. A prominent characteristic of this format is its text readability, allowing large language models to directly read object information within the 3D scene from the scene model. Furthermore, IL3D provides instance-level natural language descriptions and supports multiple data formats including semantic point clouds, 3D bounding boxes, multi-view RGB images, depth maps, normal maps and semantic masks, ensuring compatibility with various downstream visual tasks.

提供机构：

中国科学技术大学 & 松颖科技

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

IL3D数据集通过整合3D-FRONT和HSSD两大现有数据集资源，并采用HOLODECK方法补充缺失场景类型，构建了包含27,816个室内布局和29,215个高保真3D对象资产的大规模集合。该数据集采用通用场景描述格式，以USDZ格式存储3D对象资产，USDA格式记录房间布局，这种文本可读性设计使得大语言模型能够直接解析场景中的对象信息。为确保数据质量，研究团队对原始数据进行了人工清洗，剔除了尺寸异常或布局不合理的样本，并通过Qwen3-VL模型为每个3D对象资产添加了多层次的自然语言标注。

特点

IL3D数据集最显著的特征在于其覆盖18种常见房间类型的广泛多样性，从卧室、客厅到厨房等空间一应俱全。数据集提供了实例级的自然语言描述，包括对象的具体类型、外观特征、材质构成和空间关系等细粒度信息。在数据格式支持方面，IL3D具备灵活的多模态导出能力，可生成点云、3D边界框、多视角图像、深度图、法线图和语义掩码等多种数据形态。这种全面的数据表征使其能够无缝适配各类视觉任务，为3D场景理解和生成提供了丰富的语义信息支撑。

使用方法

研究者在应用IL3D数据集时，可采用监督微调策略来提升大语言模型在室内场景生成任务中的性能。具体操作包括基于实例级标注构建3D资产向量数据库，实现文本描述到对应资产的精准检索。在场景生成过程中，模型首先从目标场景的文本描述中提取所需对象的详细信息，然后通过向量相似度匹配获取相应的3D资产，最后进行场景布局的推理与生成。数据集支持的两阶段生成流程——资产检索与布局生成，使得研究者能够系统评估自然语言标注对模型空间推理能力的影响，为3D场景生成算法的开发提供了标准化的实验框架。

背景与挑战

背景概述

随着具身智能与虚拟现实技术的快速发展，三维室内场景生成成为连接环境感知与空间设计的关键领域。2025年，中国科学技术大学与松应科技联合发布IL3D数据集，旨在解决大语言模型在室内布局生成中面临的高质量多模态数据稀缺问题。该数据集包含27,816个室内布局与29,215个高精度三维物体资产，覆盖18种常见房间类型，通过实例级自然语言标注与多模态数据导出能力，为三维场景理解、机器人导航等任务提供了标准化数据基础。其创新性融合USD格式的文本可读性与多层次语义标注，显著推动了生成式模型与具身智能研究的协同发展。

当前挑战

在三维室内场景生成领域，核心挑战在于如何实现语义一致性与物理合理性的平衡。现有方法常因物体边界溢出、空间重叠等问题导致生成场景失真，而多模态数据缺失进一步限制了模型对复杂空间关系的理解。IL3D在构建过程中需克服三大难题：一是如何整合异构数据源并保证布局的功能逻辑，例如厨房中厨具的合理排布与卧室家具的功能分区；二是标注体系的精细化设计，需在实例级描述中兼顾物体材质、空间关系与功能属性；三是多格式数据适配性优化，需确保点云、深度图等模态与视觉任务的无缝对接。这些挑战直接关联到生成场景的实用性与扩展性。

常用场景

经典使用场景

在三维室内场景生成领域，IL3D数据集凭借其大规模布局数据与实例级语言标注，成为大语言模型驱动的空间生成任务的核心训练资源。该数据集通过融合27,816个室内布局与29,215个高精度三维资产，构建了覆盖18种房间类型的多样化场景库，为模型理解空间语义关系提供了坚实基础。其多模态数据导出能力支持点云、边界框等多维表征，显著提升了生成布局的物理合理性与功能连贯性。

解决学术问题

IL3D有效解决了三维场景生成中对象重叠、边界溢出等物理合理性问题，通过引入自然语言标注与层次化场景结构，增强了模型对空间功能逻辑的建模能力。该数据集填补了现有资源在场景多样性、标注粒度与多任务适配性方面的空白，为三维感知与生成任务的协同优化提供了数据支撑。实验表明，基于IL3D的监督微调可显著提升大语言模型的泛化性能，推动 embodied intelligence 与虚拟现实等领域的算法进步。

衍生相关工作

以IL3D为基础衍生的经典工作包括LayoutGPT的提示生成框架与HOLODECK的语言引导环境构建系统，这些研究通过引入层次化场景图与多智能体协作机制，进一步优化了生成布局的语义一致性。IDesign利用该数据集的实例标注实现了用户交互式设计，而OptiScene通过两阶段微调策略提升了复杂空间的功能性。这些成果共同推动了语言驱动三维生成技术向实用化迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集