HighBuild-1M
收藏HighBuild-1M 数据集详情
数据集概述
HighBuild-1M 是一个面向单视角建筑物高度估计的多大陆高分辨率基准数据集。每个样本包含一张 1024×1024 的 RGB 遥感影像、一张空间对齐的 float32 建筑物高度掩码图,以及 COCO 格式的建筑物实例标注。
数据集规模
| 指标 | 数值 |
|---|---|
| 1024×1024 瓦片数 | 70,266 |
| 建筑物实例数 | 6,050,823 |
| 城市群组数 | 26 |
| 国家/地区数 | 12 |
| 大洲数 | 6 |
数据集覆盖 6 个大洲、12 个国家或地区、26 个城市群组,包含 70,266 对 1024×1024 瓦片和 6,050,823 个建筑物实例。
支持的任务
- 单视角建筑物高度估计:输入为 1024×1024 RGB 遥感影像,输出为空间对齐的 float32 建筑物高度图。
- 建筑物级高度评估:可在 COCO 格式的建筑物多边形内聚合预测高度图,计算建筑物级的 MAE/RMSE。
- 建筑物分割/实例级理解:使用 COCO 格式的建筑物多边形和边界框进行语义或实例级分析。
- 空间泛化基准测试:支持同城市、国内跨城市、跨国家三种评估协议。
数据集结构
原始未分片布局下,每个样本由三个匹配文件组成:
data/images/<大洲>_<国家>_<城市>/<瓦片ID>.jpgdata/masks/<大洲>_<国家>_<城市>/masks/<瓦片ID>.tiffdata/annotations/coco_json/<大洲>_<国家>_<城市>/<瓦片ID>.json
基准元数据文件包括:
benchmark_v1/manifest_tiles_1024.csvbenchmark_v1/manifest_patches_256.csvbenchmark_v1/city_coverage.csvbenchmark_v1/split_report.mdbenchmark_v1/splits/random_64_16_20/tiles_1024/{train,val,test}.txtbenchmark_v1/splits/random_64_16_20/patches_256/{train,val,test}.txt
托管版本使用 WebDataset TAR 分片格式,存放在 data/webdataset/train/*.tar、data/webdataset/validation/*.tar、data/webdataset/test/*.tar 路径。
包含的城市
| 文件夹 | 瓦片数 |
|---|---|
| Africa_SouthAfrica_CapeTown | 5,473 |
| Asia_Japan_Osaka | 1,554 |
| Europe_Denmark_Aarhus | 95 |
| Europe_Denmark_Copenhagen | 1,618 |
| Europe_Denmark_Odense | 90 |
| Europe_France_Lyon | 101 |
| Europe_France_Marseille | 159 |
| Europe_France_Paris | 6,294 |
| Europe_France_Strasbourg | 94 |
| Europe_France_Toulouse | 231 |
| Europe_Germany_Berlin | 10,355 |
| Europe_Germany_Frankfurt | 99 |
| Europe_Germany_Munich | 108 |
| Europe_Netherlands_Amsterdam | 1,836 |
| NorthAmerica_Canada_Toronto | 8,471 |
| NorthAmerica_Canada_Vancouver | 126 |
| NorthAmerica_USA_Chicago | 120 |
| NorthAmerica_USA_LosAngeles | 123 |
| NorthAmerica_USA_NewYork | 11,172 |
| NorthAmerica_USA_SanFrancisco | 87 |
| NorthAmerica_USA_Seattle | 78 |
| Oceania_Australia_Melbourne | 602 |
| Oceania_Australia_Sydney | 138 |
| SouthAmerica_Brazil_SaoPaulo | 12,191 |
数据划分(random_64_16_20)
| 划分 | 1024 瓦片数 | 256 分块数 | 比例 |
|---|---|---|---|
| 训练集 | 39,178 | 626,848 | 64% |
| 验证集 | 9,794 | 156,704 | 16% |
| 测试集 | 12,243 | 195,888 | 20% |
托管版本共 61,215 个 1024×1024 瓦片。所有 256×256 分块继承其父瓦片的划分,避免训练、验证、测试集之间的信息泄露。
数据字段
- image:JPEG 格式的 RGB 影像瓦片。
- mask:与影像瓦片对齐的 TIFF 栅格掩码,像素值编码建筑物高度目标。
- annotation:COCO 格式的 JSON 标注文件,记录瓦片内建筑物信息。
- manifest_tiles_1024.csv:每个完整影像-掩码-标注组合一行。
- manifest_patches_256.csv:每个从 1024 瓦片网格导出的 256×256 分块一行。
许可与归属
本数据集为多源地理空间数据集,影像和建筑物高度标签来源于具有不同许可和归属要求的公共或授权区域来源。详情请参考 LICENSES.md 文件。
预期用途
- 单图像建筑物高度估计基准测试
- 地理空间计算机视觉模型训练与评估
- 跨城市、跨国家、跨大洲泛化能力研究
- 城市形态与建成环境遥感研究
非预期用途
本数据集不应单独用于法律、安全关键、房地产、保险、税务、应急响应或基础设施决策,也不应用于推断个人或家庭敏感属性。
局限性
- 各大洲、国家和城市间的覆盖不均衡。
- 源影像日期与建筑物高度标签日期可能不完全匹配。
- 不同源区域的空间分辨率、采集条件、传感器特性和建筑物高度定义存在差异。
- 部分密集城区瓦片数量占主导。
- 当前的
random_64_16_20划分基于 1024 瓦片级别的随机划分,并非严格的地理留出划分。
引用
bibtex @misc{highbuild1m2026, title={HighBuild-1M: A Multi-Continental High-Resolution Benchmark Dataset for Single-View Building Height Estimation and Instance Segmentation}, author={Anonymous}, year={2026}, note={Submitted to NeurIPS 2026 Evaluations and Datasets Track} }




