3D-Front
收藏arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://directlayout.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
3D-Front数据集是由上海人工智能实验室、香港大学和香港中文大学共同创建的,包含约6500个室内场景的2D顶视图布局,用于训练和评估3D室内场景合成模型。数据集从ATISS数据集中筛选而来,并通过GPT-4o模型生成CoT注释,以帮助模型理解和组织空间信息,提高空间推理能力。3D-Front数据集的创建旨在解决现有3D室内布局数据集规模、多样性和真实感不足的问题,以促进3D室内场景合成的进一步研究。
The 3D-Front Dataset was jointly created by Shanghai AI Laboratory, The University of Hong Kong, and The Chinese University of Hong Kong. It contains approximately 6,500 2D top-view layouts of indoor scenes, which are used for training and evaluating 3D indoor scene synthesis models. This dataset is screened from the ATISS dataset, and CoT annotations are generated using the GPT-4o model to assist models in understanding and organizing spatial information and enhancing their spatial reasoning capabilities. The creation of the 3D-Front Dataset aims to address the shortcomings of existing 3D indoor layout datasets in terms of scale, diversity and realism, so as to advance further research on 3D indoor scene synthesis.
提供机构:
上海人工智能实验室, 香港大学, 香港中文大学
创建时间:
2025-06-06
原始信息汇总
Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning
作者信息
- Xingjian Ran (上海人工智能实验室, 香港大学)
- Yixuan Li (香港中文大学)
- Linning Xu (香港中文大学)
- Mulin Yu (上海人工智能实验室)
- Bo Dai (香港大学)
生成样本示例
粗粒度提示
- 计算机教室:配备独立电脑桌、人体工学椅、投影屏幕、桌子、打印机和网络集线器
- 走廊:包含鞋架、衣帽钩、镜子、长凳、伞架、桌子和地毯
- 厨房:配备冰箱、炉灶、水槽、台面、餐桌、多个橱柜和几个吧凳
中粒度提示
- 家庭影院:大屏幕靠墙放置,两侧有扬声器,前方圆形咖啡桌摆放爆米花和薯片,后方沙发周围布置豆袋椅
- 车库:中央停放汽车,后墙有储物架,钉板下放置工作台和工具箱,附近摆放自行车和割草机
- 教室:前方教师桌面向学生桌椅排列,前墙安装白板,天花板悬挂投影仪,侧面放置高书架
细粒度提示
- 游戏室:中央放置桌上足球台,两侧布置游戏椅,墙边木制支架上放置大电视,电视左侧有银色迷你冰箱,另一面墙的书架装满桌游,墙上展示两张海报
- 酒窖:两面墙放置木质酒架存放酒瓶,另一面墙堆叠橡木桶和木箱,中央放置品酒桌配单椅,桌上摆放两个酒杯和开瓶器,桶上方墙面安装温度计,天花板有两个圆形灯具
- 工作台:左前方放置笔记本电脑,右侧有彩色铅笔玻璃杯,中央后方摆放蓝色花瓶插花,花瓶前放置黑框眼镜,左侧有白色咖啡杯,桌前配置木椅
方法概述
-
训练阶段:
- BEV布局生成器基于3D-Front数据集微调,采用GPT-4o生成的CoT注释指导
- 通过DPO优化,利用空间评估器(VLM)和定量评估器(推理LLM)产生的CoT-Grounded生成布局奖励
-
推理阶段:
- 文本提示输入BEV布局生成器产生2D布局
- 3D布局生成器将2D布局提升为3D
- 通过迭代资产-布局对齐机制,使用空间和定量评估器提供反馈,确保布局与对象生成器产生的3D资产一致性
核心贡献
- 直接生成数值3D布局,无需中间表示和约束优化
- 三阶段生成流程:BEV布局生成→3D空间提升→物体放置细化
- 基于3D-Front数据集采用CoT激活实现显式空间推理
- 设计CoT-Grounded生成布局奖励增强泛化能力和空间规划
- 推理阶段通过上下文学习解决资产-布局失配问题
搜集汇总
数据集介绍

构建方式
3D-Front数据集通过精心设计的流程构建,主要包含从3D-Front数据集中筛选的约6,500个场景,并利用GPT-4o生成链式思维(CoT)标注。这些标注通过监督微调(SFT)和直接偏好优化(DPO)方法,结合CoT-Grounded Generative Layout Reward,增强了模型的空间推理能力。数据集的构建还涉及多样化的室内场景描述生成,包括粗粒度、中粒度和细粒度三个层次,以确保覆盖广泛的场景类型和空间关系。
使用方法
使用3D-Front数据集时,首先通过BEV Layout Generator将文本输入转换为2D俯视布局,随后利用3D Layout Generator将其提升为3D布局并分配对象描述文本。生成的布局通过Iterative Asset-Layout Alignment进行迭代优化,利用空间和语义反馈调整对象尺寸、位置和方向。最终生成的3D场景可通过现有高保真3D对象生成模型完成资产合成,适用于虚拟现实、游戏和设计等多种应用场景。
背景与挑战
背景概述
3D-Front数据集由上海人工智能实验室和香港大学等机构的研究团队于2021年提出,旨在为三维室内场景合成提供高质量的布局与语义标注。该数据集包含大量带家具的三维房间模型,每个模型均配有精确的几何布局和语义信息,为计算机视觉领域的场景理解与生成任务奠定了重要基础。3D-Front通过融合真实世界的室内设计逻辑,显著提升了生成场景的物理合理性和语义连贯性,对虚拟现实、增强现实以及具身智能等应用产生了深远影响。
当前挑战
3D-Front数据集面临的核心挑战包括两方面:在领域问题层面,现有方法难以同时保证生成场景的开放词汇能力和细粒度用户指令对齐,常出现物体位置错乱或尺寸不合理等问题;在构建过程层面,数据集的规模与多样性受限导致模型易过拟合,且真实场景中物体间的复杂功能与美学关系难以通过预定义规则完全刻画。此外,资产与布局的几何一致性校验需要复杂的迭代优化机制,这对计算效率和实时交互提出了严峻考验。
常用场景
经典使用场景
3D-Front数据集在3D室内场景合成领域具有广泛的应用,特别是在基于文本描述的布局生成任务中。该数据集通过提供大量带标注的3D室内场景,支持从文本到3D场景的端到端生成。经典使用场景包括虚拟现实环境构建、游戏场景设计以及室内布局规划等。研究者可以利用该数据集训练模型,生成符合物理规律和语义一致性的室内场景,从而满足不同应用需求。
解决学术问题
3D-Front数据集解决了室内场景合成中的多个关键学术问题,包括物理合理性、语义对齐和多样性生成。通过提供丰富的场景标注数据,该数据集帮助研究者克服了传统方法在开放词汇和细粒度用户指令对齐方面的局限性。其意义在于推动了基于大语言模型的空间推理技术发展,为3D场景生成提供了新的研究范式。
实际应用
在实际应用中,3D-Front数据集被广泛用于智能家居设计、虚拟现实内容生成和建筑可视化等领域。例如,设计师可以通过输入自然语言描述快速生成符合要求的室内布局方案,大幅提升工作效率。此外,该数据集还支持教育领域的虚拟场景构建,为教学提供沉浸式体验环境。
数据集最近研究
最新研究方向
3D-Front数据集在室内场景合成领域的最新研究方向聚焦于通过空间推理实现直接数值布局生成。该研究突破了传统基于预定义约束的优化方法,采用大型语言模型(LLMs)的通用空间推理能力,将布局生成分解为鸟瞰图生成、三维空间提升和物体放置优化三个阶段。通过引入思维链(CoT)激活机制和基于CoT的生成式布局奖励,显著提升了模型在有限数据下的泛化能力和空间规划准确性。这一方向与当前数字内容创作和具身智能领域对高保真、语义一致三维场景的需求高度契合,为虚拟现实、游戏设计和室内规划等应用提供了更灵活、可控的解决方案。
相关研究论文
- 1Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning上海人工智能实验室, 香港大学, 香港中文大学 · 2025年
以上内容由遇见数据集搜集并总结生成



