five

RoBus|城市设计数据集|自动驾驶数据集

收藏
arXiv2024-07-11 更新2024-07-11 收录
城市设计
自动驾驶
下载链接:
https://github.com/tourlics/RoBus_Dataset
下载链接
链接失效反馈
资源简介:
RoBus数据集是由浙江大学开发的,专注于可控道路网络和建筑布局生成的多模态数据集。该数据集包含72,400个配对样本,覆盖全球约80,000平方公里,格式包括图像、图形和文本。数据集的创建过程涉及从OpenStreetMap收集原始数据,并通过预处理和生成管道进行处理。RoBus数据集主要应用于城市设计、多媒体游戏和自动驾驶模拟等领域,旨在解决自动化3D城市生成中的数据驱动方法的挑战。
提供机构:
浙江大学
创建时间:
2024-07-11
原始信息汇总

RoBus_Dataset

简介

RoBus数据集是一个多模态数据集,专门用于可控的道路网络和建筑布局生成。该数据集是城市生成领域中首个也是最大的开源数据集。数据集包含图像、图形和文本格式,共有72,400对样本,覆盖全球约80,000平方公里。

数据集特点

  • 多模态数据:包含图像、图形和文本。
  • 大规模样本:72,400对样本。
  • 广泛覆盖:覆盖全球约80,000平方公里。

数据集应用

  • 城市设计:用于自动化城市设计,增强实际应用中的实用性。
  • 多媒体游戏:支持多媒体游戏中的城市生成。
  • 自动驾驶模拟:用于自动驾驶模拟中的道路网络和建筑布局生成。

数据集生成流程

数据集的生成流程包括对现有道路网络和建筑布局生成方法的统计分析和有效性验证,并设计了新的基准方法,考虑了道路方向和建筑密度等城市特征。

数据样本可视化

数据样本的可视化可以通过以下命令实现: shell python read_tiff.py

AI搜集汇总
数据集介绍
main_image_url
构建方式
RoBus数据集通过多模态数据构建,涵盖图像、图形和文本三种形式,旨在支持可控的城市道路网络和建筑布局生成。数据集的构建过程包括从OpenStreetMap中提取原始数据,并通过复杂的预处理步骤(如栅格化、细化道路网络、补充建筑高度信息等)进行清洗和增强。图像部分包含6个通道,分别表示主要道路、次要道路、水体、绿地、建筑高度和密度。图形部分包括简化的道路网络图和带有高度的矢量化建筑布局。文本部分则包含描述城市特征的统计值和标签。整个数据集覆盖了全球约80,000平方公里的区域,确保了数据的多样性和广泛性。
特点
RoBus数据集的主要特点在于其多模态性、多样性和可扩展性。首先,数据集整合了图像、图形和文本三种模态,提供了对城市布局的全面描述。其次,数据集覆盖了全球多个地区的城市布局,确保了数据的广泛多样性。此外,RoBus数据集支持多种与3D城市生成相关的任务,如几何约束生成、图形生成和文本到图像生成等。最后,数据集的构建考虑了城市特征,如道路方向和建筑密度,增强了其在实际应用中的实用性。
使用方法
RoBus数据集可用于多种3D城市生成任务,包括道路网络生成、建筑布局生成、文本到图像生成等。用户可以通过图像、图形和文本数据进行训练和测试,利用深度学习模型生成符合特定几何约束和城市特征的城市布局。例如,可以使用生成对抗网络(GAN)或变分自编码器(VAE)等模型,结合道路密度、方向等属性生成道路网络。此外,生成的结果可以直接应用于自动驾驶模拟器(如CARLA)或3D游戏引擎中,验证其在实际应用中的有效性和适用性。
背景与挑战
背景概述
自动化三维城市生成,特别是道路网络和建筑布局的生成,在城市设计、多媒体游戏和自动驾驶模拟等领域具有重要应用。近年来,生成式AI模型的快速发展促进了城市布局设计的进步。然而,高质量数据集和基准的缺乏阻碍了这些数据驱动方法在生成道路网络和建筑布局方面的进展。此外,现有研究很少考虑城市特征,这些特征通常通过图形分析来控制生成过程,但在实际应用中至关重要。为解决这些问题,浙江大学计算机科学与技术系的Tao Li等人于2024年推出了RoBus数据集,这是迄今为止首个也是最大的开放源代码城市生成数据集。RoBus数据集以图像、图形和文本的形式呈现,包含72,400对样本,覆盖全球约80,000平方公里的区域。该数据集通过统计分析验证了其在现有道路网络和建筑布局生成方法中的有效性,并设计了新的基线模型,将城市特征如道路方向和建筑密度引入生成过程,增强了自动化城市设计的实用性。
当前挑战
RoBus数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何通过数据驱动的方法生成多样且符合特定城市特征的道路网络和建筑布局;二是构建过程中遇到的挑战,包括缺乏高质量的开放数据集和基准,以及现有方法在生成过程中对城市特征的忽视。具体而言,现有方法在生成大规模城市布局时,往往依赖于有限的自我收集数据,缺乏足够的多样性和覆盖范围。此外,现有方法在生成过程中未能充分考虑城市特征,导致生成的道路网络和建筑布局在实际应用中效果不佳。RoBus数据集通过引入多模态数据和新的基线模型,试图解决这些挑战,但其在大规模应用中的性能和稳定性仍需进一步验证。
常用场景
经典使用场景
RoBus数据集的经典使用场景主要集中在城市设计、多媒体游戏和自动驾驶模拟等领域。该数据集通过提供多模态数据,包括图像、图形和文本,支持生成可控的道路网络和建筑布局。其多模态特性使得研究者能够在生成过程中引入城市特征,如道路方向和建筑密度,从而提升生成结果的实用性和多样性。
解决学术问题
RoBus数据集解决了现有数据驱动方法在生成道路网络和建筑布局时面临的高质量数据集匮乏的问题。通过提供大规模、多模态的数据,该数据集为研究者提供了丰富的训练资源,推动了生成式AI在城市设计领域的应用。此外,RoBus数据集还通过引入城市特征,解决了现有方法在生成过程中对城市特性考虑不足的问题,提升了生成结果的实用性和可控性。
衍生相关工作
RoBus数据集的发布催生了一系列相关研究工作,特别是在城市生成和建筑布局生成领域。基于该数据集,研究者提出了多种生成模型,如结合道路属性的生成方法和基于条件变分自编码器的建筑布局生成模型。此外,RoBus数据集还被用于验证和改进现有的生成式AI方法,推动了城市生成技术的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录