Procedural-City-Multimodal-Dataset

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/jp-cypress/Procedural-City-Multimodal-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic Urban Multimodal Dataset (v0.1) 是一个包含8,000张高质量合成图像的数据集，这些图像通过程序化生成的城市模型制作而成，专为训练和评估如ControlNet和LoRA等AI模型设计。数据集使用自定义的Blender-Python自动化流程生成，提供了100种独特的城市建筑，每种建筑从8个方向以10种不同的艺术风格渲染。每张图像的分辨率为512x512，包含多种模态数据：RGB图像、深度图、法线图、反照率图像和分割掩码图像。数据集总共有40,000个文件，适用于空间和结构控制的ControlNet训练、特定建筑或艺术风格的LoRA微调，以及计算机视觉和合成数据生成的研究。数据集采用Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可，禁止商业用途。

Synthetic Urban Multimodal Dataset (v0.1) is a dataset containing 8,000 high-quality synthetic images generated through procedurally generated urban models, specifically designed for training and evaluating AI models such as ControlNet and LoRA. The dataset is generated using a custom Blender-Python automated pipeline, offering 100 unique urban buildings, each rendered from 8 directions in 10 different artistic styles. Each image has a resolution of 512x512 and includes multiple modalities: RGB images, depth maps, normal maps, albedo images, and segmentation mask images. The dataset comprises a total of 40,000 files, suitable for ControlNet training for spatial and structural control, LoRA fine-tuning for specific buildings or artistic styles, and research in computer vision and synthetic data generation. The dataset is licensed under Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), prohibiting commercial use.

创建时间：

2026-04-11

原始信息汇总

数据集概述：Synthetic Urban Multimodal Dataset (v0.1)

基本信息

数据集名称：Synthetic Urban Multimodal Dataset (v0.1)
许可证：Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)，禁止商业用途。
任务类别：图像到图像（image-to-image）、文本到图像（text-to-image）
标签：合成数据、Blender、城市规划、ControlNet、多模态
数据规模：10,000 到 100,000 样本之间
数据集来源：https://huggingface.co/datasets/jp-cypress/Procedural-City-Multimodal-Dataset

数据集内容

总样本数：8,000 张高质量合成图像（跨模态共 40,000 个文件）
图像分辨率：512x512 像素
生成方式：使用自定义 Blender-Python 自动化管线程序化生成
数据多样性：100 种独特的城市建筑，每种建筑从 8 个方向渲染，并应用 10 种不同的艺术风格

每个样本包含的模态

rgb_images：风格化城市渲染图像
depth_maps：高精度深度信息图
normal_maps：表面法向量图
albedo_images：纯纹理色彩图（无光照）
mask_images：用于分割的二值/Alpha 掩膜图

数据组织结构

采用标准 Hugging Face 元数据格式
每个条目在 metadata.jsonl 文件中，将 RGB 图像与其对应的多模态映射图和描述文本关联

预期用途

训练 ControlNet 模型，实现空间和结构控制
微调 LoRA 模型，适应特定建筑或艺术风格
计算机视觉与合成数据生成领域的研究

作者与技术背景

开发者：ひのき (jp-cypress)
技术报告（日文）：https://zenn.dev/jp_cypress
数据集通过 Blender API 和 Python 程序化生成，技术细节见 Zenn 上的技术报告

搜集汇总

数据集介绍

构建方式

该数据集由8,000张高质量合成图像构成，所有资产均通过定制的Blender-Python自动化管线程序化生成。具体而言，研究团队构建了100种独特的城市建筑模型，每种模型从8个不同方向进行渲染，并叠加10种不同的艺术风格，从而形成多样化的视觉样本。每个样本包含五种模态数据：RGB图像、高精度深度图、表面法向量图、无光照的纯纹理色彩图以及用于分割的二值掩膜图，共计40,000个文件。

特点

数据集最显著的特点在于其多模态与程序化合成的深度融合。它不仅提供了丰富的空间几何信息（如深度图和法线图），还通过艺术风格渲染增强了视觉多样性，为空间控制和结构引导任务提供了理想训练素材。此外，数据集遵循标准Hugging Face元数据格式，所有样本在`metadata.jsonl`中统一索引，便于高效加载与预处理，且采用CC BY-NC 4.0许可，支持非商业研究用途。

使用方法

该数据集专为控制网络（ControlNet）和低秩适应（LoRA）模型的训练与微调设计。在计算机视觉研究中，RGB图像及其配套的多模态映射可用于训练ControlNet以实现精细的空间与结构控制，而丰富的风格变化则适用于LoRA的特定艺术风格适配。用户可通过加载`metadata.jsonl`文件，按需提取任意模态组合，并配合标准深度学习框架（如PyTorch）构建数据加载器，以进行图像生成、语义分割或深度估计等任务的模型训练与评估。

背景与挑战

背景概述

随着生成式人工智能在计算机视觉领域的迅猛发展，特别是文本到图像与图像到图像任务中控制生成结构与语义的需求日益凸显，合成数据集因其高度可控性和多样性成为研究热点。Procedural-City-Multimodal-Dataset 由日本开发者ひのき (jp-cypress) 于近期创建，旨在为城市景观的多模态生成任务提供高质量的合成数据。该数据集基于 Blender-Python 自动化管线，程序化生成了 100 种独特的城市建筑，每种建筑从 8 个方向并以 10 种艺术风格渲染，共计 8,000 张 512×512 的高清图像。其核心研究问题在于为 ControlNet 与 LoRA 等模型提供空间与结构控制的训练基础，推动合成数据在城市规划、建筑风格迁移及多模态对齐研究中的应用。该数据集的发布填补了面向城市环境的精细多模态合成数据空白，有望促进可控生成模型在复杂城市场景中的泛化能力。

当前挑战

该数据集面临的挑战主要来自领域问题与构建过程两方面。在领域问题层面，当前生成模型（如 ControlNet）在真实城市图像上的结构控制精度仍受限于训练数据的规模与多样性，而现有真实数据集往往缺乏多模态标注（如深度图、法线图、遮罩图），导致模型难以学习几何与语义的联合约束。该数据集需验证合成数据能否有效迁移至真实场景，并解决域适应与风格泛化的瓶颈。在构建过程中，挑战体现在程序化生成管线的自动化稳定性与质量控制上：需确保 100 种建筑在几何复杂度、纹理多样性及渲染风格上达到平衡，同时避免 Blender 渲染过程中因光照、阴影不一致引发的模态间对齐误差。此外，8,000 张图像的多模态文件（共计 40,000 个文件）的管理与元数据标注也要求高效的批处理流程，以防止数据泄露或标注错误影响训练效果。

常用场景

经典使用场景

该数据集最经典的使用场景聚焦于多模态条件图像生成任务，尤其在ControlNet和LoRA等生成式模型的训练与评估中扮演关键角色。通过提供来自100个独特城市建筑的8,000张高保真合成图像，并涵盖RGB、深度图、法线图、反照率图及遮罩图五种模态，研究者能够精细地建立图像内容与空间结构、几何特征之间的映射关系。这种多模态对齐特性使其成为探索条件扩散模型在可控生成中表现能力的理想基准，尤其在需要同时捕捉外观风格与三维几何信息的城市景观生成任务中展现出独特价值。

衍生相关工作

围绕该数据集衍生的相关工作主要集中于条件扩散模型的控制性改进与多模态生成范式的拓展。基于其提供的精细深度与法线条件，研究者可进一步探索ControlNet中不同控制条件的组合效应，或设计新型的结构引导模块以提升生成图像的几何保真度。同时，该数据集为LoRA等轻量级微调方法在特定城市风格（如历史建筑、现代都市）上的适应能力提供了验证平台，并催生出如程序化城市布局生成、多视角一致性图像合成等前沿研究方向，推动合成数据在自动驾驶与机器人仿真场景中的可迁移性研究。

数据集最近研究