jp-cypress/Procedural-City-Multimodal-Dataset-V2
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/jp-cypress/Procedural-City-Multimodal-Dataset-V2
下载链接
链接失效反馈官方服务:
资源简介:
这是合成城市多模态数据集的第二版,包含100种全新的城市建筑模型,每个模型从8个方向渲染,并有10种不同的艺术风格(从现实蓝图到风格化动漫)。数据集共包含8,000个独特场景,总计40,000个文件(RGB图像+4种地图)。每个样本提供5种模态的数据:高质量风格化渲染的RGB图像、高精度16位深度图、几何表面向量法线图、无光照/阴影的纯纹理颜色反照率图以及用于对象分割的语义掩码图。所有数据均为100%合成,通过Blender的Python API生成,确保无噪声且数学上完美的AI训练真实数据。
This is the second major release of the Synthetic Urban Multimodal Dataset, featuring 100 completely new urban architectures, each rendered from 8 cardinal directions with 10 distinct artistic styles (ranging from realistic blueprints to stylized anime). The dataset provides 8,000 unique scenes, totaling 40,000 files (RGB + 4 Maps). Each sample includes 5 modalities: high-quality stylized RGB rendering, high-precision 16-bit-like depth maps, geometric surface normal maps, pure texture albedo images without lighting/shadows, and semantic mask images for object segmentation. All data is 100% synthetic, generated via Blenders Python API, ensuring noise-free and mathematically perfect ground truth for AI training.
提供机构:
jp-cypress
搜集汇总
数据集介绍

构建方式
该数据集依托名为“Constructive Furnace”的自研Blender-Python管线,完全通过程序化生成技术构建。它精选了100座全新城市建筑模型,每座模型在8个基本方位和10种艺术风格(从写实蓝图到动漫风)下进行渲染,最终产出8,000个独特场景。每个场景都严格对齐RGB图像、深度图、法线图、反照率图和语义掩膜图这五种模态,避免了人工绘制或版权素材的干扰,确保了数学意义上的完美真值。
特点
数据集共包含40,000个高精度PNG文件(分辨率512x512),所有场景均来自全新的程序化种子,与第一版无重叠。其最大的特点在于多模态的精确对齐和一致性,使得深度、法线、材质与语义信息在每张图像中天然匹配。此外,数据覆盖了多样的建筑风格与艺术滤镜,为控制条件生成、多模态理解等任务提供了丰富且干净的训练素材。
使用方法
用户可以直接通过Hugging Face的`datasets`库加载此数据集,它被划分为包含7,999个样本的训练集和1个样本的测试集。数据以JSON Lines格式组织元信息,每一条记录都包含了文件名、文本描述以及五种模态文件的路径。该格式天然适配ControlNet、LoRA以及视觉-语言模型的微调场景,用户可根据`metadata`中的样式、角度等字段灵活筛选子集,实现有针对性的模型训练或评估。
背景与挑战
背景概述
在城市规划与人工智能交叉领域,大规模、高质量的多模态数据是推动可控生成模型发展的关键基石。Procedural-City-Multimodal-Dataset-V2 由一项持续观测AI生成数据生态的项目团队于近期创建,核心研究问题在于如何通过全程序化合成,构建兼具多样性与物理一致性的城市景观数据集。该数据集采用自定义的“Constructive Furnace”Blender-Python流程,生成了100种全新城市建筑与8000个独特场景,涵盖RGB、深度、法线、反照率及语义掩码五种模态,总计40000张高精度图像。其发布为ControlNet、LoRA及视觉语言模型的训练提供了可靠且可复用的数据基础,在推动合成数据标准化与可扩展性方面具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于,真实城市图像受限于隐私、版权与光照条件,难以获取多模态对齐的标注数据,制约了可控图像生成与场景理解的性能。同时,构建过程中面临巨大技术挑战:如何通过程序化生成实现100种风格多样的建筑架构,并确保每种架构在8个视角与10种艺术风格下保持一致的几何与语义对齐;如何在无人工干预下,维持深度、法线、反照率及掩码的五模态严格配准,避免像素级偏差;此外,还需平衡数据规模(40000张)与渲染效率,以及确保合成场景的分布多样性,以有效泛化至下游任务。
常用场景
经典使用场景
在计算机视觉与图形学交叉领域,该数据集因其精心设计的五模态对齐特性,成为多模态条件生成模型训练的基石。研究者常将其用作ControlNet、LoRA等可控图像生成架构的微调数据源,通过深度图、法线图、反照率图和语义掩码的联合监督,实现从风格化城市渲染到几何精确重建的端到端学习。该数据集的程序化生成方式确保了每一样本均具备无损的数学真值,为研究光照不变性、视角鲁棒性以及跨风格迁移等经典问题提供了高度可控的实验平台。
实际应用
在智慧城市与数字孪生领域,该数据集支撑着从概念设计到仿真验证的完整工作流。游戏和影视行业借助其风格化的城市资产,可快速生成用于环境概念图或光照预览的多模态素材。同时,它被集成到自动化城市规划工具中,通过训练模型从手绘线稿生成对应三维建筑的标准化深度图或法线图,极大缩短了从二维草图到三维建模的迭代周期,也改善了建筑可视化与增强现实导航系统的训练数据稀缺问题。
衍生相关工作
该数据集催生了多项关于程序化生成策略与多模态一致性评价的后续研究。其中经典工作包括基于其数据构建的城市风格迁移框架,该框架利用五模态对齐特性实现了跨视角的几何与纹理解耦。另一项代表性成果提出了一种新型条件扩散模型,通过融合法线与深度先验显著提升了复杂城市场景下的光照一致性。此外,围绕该数据集涌现了一批评估合成数据域随机性的基准测试,为程序化数据管线的优化提供了量化指标参考。
以上内容由遇见数据集搜集并总结生成



