five

hot-building-segmentation

收藏
Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/kshitijrajsharma/hot-building-segmentation
下载链接
链接失效反馈
官方服务:
资源简介:
HOT建筑分割数据集是一个用于从航空影像中提取建筑足迹的语义分割数据集,基于经过验证的人道主义OpenStreetMap团队(HOT)任务管理器项目构建,使用OpenAerialMap(OAM)影像。数据集包含256x256的航空影像瓦片(缩放级别19)与OpenStreetMap的建筑足迹标签配对,所有源项目均通过HOT任务管理器完全验证,确保来自专业人道主义制图者的高质量标签。 数据集适用于训练和评估深度学习模型,用于灾害映射背景下的建筑检测和分割任务,包括语义分割、实例分割和对象检测。数据格式包括GeoTIFF格式的影像瓦片、GeoJSON格式的建筑足迹多边形标签以及包含项目级信息的元数据文件。 数据集创建过程包括项目发现、质量过滤、瓦片生成、影像下载、标签下载和标签分割。标签来自OpenStreetMap的众包建筑足迹,经过HOT任务管理器活动的验证。数据集采用双许可模式:影像使用CC-BY 4.0许可,标签使用ODbL 1.0许可。 数据集包含61,238个瓦片对,来自50个项目,总计633,758个多边形。已知限制包括时间不匹配、地理偏差、标签完整性和影像质量差异。

The HOT Building Segmentation Dataset is a semantic segmentation dataset for extracting building footprints from aerial imagery. It is constructed based on validated humanitarian OpenStreetMap Team (HOT) Task Manager projects, using imagery from OpenAerialMap (OAM). The dataset consists of 256×256 aerial image tiles (zoom level 19) paired with OpenStreetMap building footprint labels. All source projects have been fully verified via the HOT Task Manager to ensure high-quality labels from professional humanitarian mappers. This dataset is suitable for training and evaluating deep learning models for building detection and segmentation tasks in the context of disaster mapping, including semantic segmentation, instance segmentation, and object detection. The data formats include GeoTIFF-formatted image tiles, GeoJSON-formatted building footprint polygon labels, and metadata files containing project-level information. The dataset creation process includes project discovery, quality filtering, tile generation, imagery download, label download, and label segmentation. The labels are sourced from crowdsourced building footprints on OpenStreetMap, which have been validated through HOT Task Manager activities. The dataset adopts a dual-license model: the imagery is licensed under CC-BY 4.0, and the labels are licensed under ODbL 1.0. The dataset contains 61,238 tile pairs from 50 projects, totaling 633,758 polygons. Known limitations include temporal mismatches, geographic bias, label incompleteness, and variations in image quality.
创建时间:
2026-03-23
原始信息汇总

HOT Building Segmentation Dataset 概述

数据集基本信息

  • 数据集名称:HOT Building Segmentation Dataset
  • 发布者:Humanitarian OpenStreetMap Team
  • 发布日期:2026年
  • 语言:英语(元数据与文档)
  • 许可证
    • 图像瓦片:CC-BY 4.0
    • 标签(建筑物轮廓):ODbL 1.0
    • 数据集工具:GPL-3.0-or-later
  • 数据规模:10K < n < 100K
  • 任务类别:图像分割
  • 任务ID:语义分割
  • 标签:建筑物、灾害制图、遥感、卫星图像、OpenStreetMap、OpenAerialMap、人道主义、HOT任务管理器、地理空间、分割

数据集描述与用途

  • 核心描述:一个用于从航空图像中提取建筑物轮廓的语义分割数据集。数据来源于经过验证的人道主义OpenStreetMap团队任务管理器项目,这些项目使用OpenAerialMap图像。
  • 数据摘要:该数据集将来自OpenAerialMap的256x256航空图像瓦片(缩放级别19)与来自OpenStreetMap的建筑物轮廓标签配对。所有源项目均通过HOT任务管理器得到完全验证,确保了来自人道主义专家制图员的高质量标签。
  • 目标用例:在灾害制图背景下,用于训练和评估建筑物检测与分割的深度学习模型。

支持的任务

  • 语义分割:像素级的建筑物与背景分类。
  • 实例分割:单个建筑物轮廓描绘(使用GeoJSON多边形标签)。
  • 物体检测:建筑物边界框检测(可从多边形标签派生)。

数据集结构

数据格式与字段

数据集以目录和Parquet文件形式组织。主要数据字段包括:

  • image:图像数据(数据类型:image)
  • mask:掩码数据(数据类型:image)
  • tile_id:瓦片ID(数据类型:string)
  • tile_x, tile_y, tile_z:瓦片坐标与缩放级别(数据类型:int32)
  • project_id:项目ID(数据类型:int32)
  • project_name:项目名称(数据类型:string)
  • country:国家(数据类型:string)
  • organisation:组织(数据类型:string)
  • imagery_url:图像源URL(数据类型:string)
  • num_buildings:建筑物数量(数据类型:int32)
  • label_geojson:标签GeoJSON(数据类型:large_string)
  • bbox_west, bbox_south, bbox_east, bbox_north:边界框坐标(数据类型:float64)

数据文件说明

  • 图像瓦片:格式为GeoTIFF,尺寸256x256像素,缩放级别19(赤道处约0.3米/像素),来源为OpenAerialMap无人机/航空图像。
  • 标签:格式为GeoJSON,包含建筑物轮廓多边形,来源为通过HOT原始数据API获取的OpenStreetMap建筑物数据,坐标系为EPSG:4326。
  • 元数据文件:包含项目级信息、感兴趣区域边界、项目摘要和项目区域地图。

数据划分

数据集未预先划分。建议用户根据自身需求创建训练/验证/测试集。推荐方法:按项目划分,以避免划分之间的空间自相关性。

数据集创建

源数据

  • 图像:来自OpenAerialMap,采用CC-BY或类似开放许可证。
  • 标签:来自OpenStreetMap建筑物轮廓,由人道主义制图员通过HOT任务管理器项目贡献,采用ODbL 1.0许可证。
  • 项目选择标准:使用OpenAerialMap图像、映射类型包含建筑物、验证完成度≥95%、在指定时间窗口内创建。

数据收集与标注过程

  1. 项目发现:查询HOT任务管理器API。
  2. 质量过滤:保留验证完成度≥95%的项目。
  3. 瓦片生成:在每个项目感兴趣区域内生成缩放级别19的256x256瓦片。
  4. 图像下载:从OpenAerialMap TMS端点获取航空图像瓦片。
  5. 标签下载:通过HOT原始数据API从OpenStreetMap获取建筑物轮廓。
  6. 标签分割:将建筑物多边形裁剪到单个瓦片边界。 标注为来自OpenStreetMap的众包建筑物轮廓,由人道主义制图员通过HOT任务管理器活动创建和验证。

使用注意事项

社会影响

该数据集支持人道主义应用,包括灾害响应、风险评估和发展规划。建筑物轮廓数据对于估算人口暴露程度、灾害损失评估和资源分配至关重要。

已知局限性

  • 时间不匹配:OSM数据反映当前建筑物轮廓,而OAM图像可能来自不同日期。
  • 地理偏差:项目地点集中在HOT运营的受灾地区和发展中地区。
  • 标签完整性:虽然经过验证,但OSM中可能遗漏或错误映射某些建筑物。
  • 图像质量:OAM图像在不同项目间的分辨率、云层覆盖和视角存在差异。

附加信息

数据集管理者

使用HOT的hot-oam-dataset工具构建。

引用信息

bibtex @misc{hot_building_segmentation_2026, title={HOT Building Segmentation Dataset}, author={Humanitarian OpenStreetMap Team}, year={2026}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/hotosm/building-segmentation}} }

数据贡献者

数据来源于OpenStreetMap贡献者、OpenAerialMap和HOT任务管理器志愿者社区。

生成统计

  • 数据集版本:1.0.0
  • 瓦片对数量:61,238
  • 总项目数:50
  • 包含特征的瓦片数:40,980
  • 不包含特征的瓦片数:20,258
  • 多边形总数:633,758
  • 生成时间:2026-04-03T11:27:38.120097+00:00
搜集汇总
数据集介绍
main_image_url
构建方式
在遥感影像分析领域,构建高质量的建筑分割数据集对于灾害响应与城市规划至关重要。HOT建筑分割数据集通过整合人道主义开放街道地图团队验证的项目,系统性地采集了开放航空地图的高分辨率航拍影像。数据构建过程始于从HOT任务管理器API中筛选出使用开放航空地图影像且建筑标注验证完成度超过95%的项目,随后在项目兴趣区域内生成缩放级别为19的256x256像素瓦片。利用geoml-toolkits工具,从开放航空地图终端下载对应影像瓦片,并通过HOT原始数据API获取开放街道地图中的建筑足迹多边形标签,最终将多边形标签裁剪至各瓦片边界,形成影像与掩码的精确配对。
特点
该数据集在建筑提取任务中展现出多维度优势。其影像瓦片均源自开放航空地图,具备地理参考信息,分辨率约为0.3米每像素,确保了空间精度。标签数据来源于经过严格验证的开放街道地图建筑足迹,由人道主义绘图志愿者标注并经专家审核,标注质量可靠。数据集涵盖全球50个项目,包含超过61,000个影像-掩码对及63万余个建筑多边形,地理分布聚焦于灾害影响与发展中区域,反映了实际人道主义应用场景。数据结构完整,除影像与掩码外,还提供瓦片坐标、项目元数据、地理边界及原始GeoJSON多边形标签,支持语义分割、实例分割与目标检测等多种计算机视觉任务。
使用方法
为有效利用该数据集进行模型训练与评估,建议遵循特定工作流程。用户可直接通过HuggingFace平台加载Parquet格式数据,其中已嵌入影像与掩码,便于快速访问。鉴于数据存在空间自相关性,划分训练集、验证集与测试集时,应按项目进行分割,以避免同一地理区域的样本出现在不同集合中。对于高级应用,可结合附带的GeoJSON多边形标签进行实例级分析,或利用边界框坐标衍生目标检测任务。在模型部署前,需注意影像与标签间可能存在的时间不匹配问题,并考虑数据的地理偏差,建议在目标区域进行额外的验证与微调。
背景与挑战
背景概述
在遥感影像分析与灾害应急响应领域,高精度建筑物分割对于人口估算、灾损评估及资源规划至关重要。HOT建筑物分割数据集由人道主义开放街道地图团队于2026年创建,整合了开放航空地图的航拍影像与开放街道地图中经志愿者验证的建筑物标注。该数据集旨在通过深度学习模型,提升在灾害背景下建筑物自动提取的准确性与效率,为人道主义行动提供可靠的地理空间数据支持。其构建基于任务管理器中验证完成度超过95%的项目,确保了标注质量,推动了遥感影像分割技术在应急测绘中的应用。
当前挑战
该数据集致力于解决灾害环境下建筑物语义分割的挑战,包括如何在复杂地貌、多变影像质量及不同建筑密度中实现精准像素级分类。构建过程中面临多重困难:影像与标注间存在时间不匹配,可能导致建筑物状态不一致;地理分布集中于灾害频发区,引入地域偏差;开放街道地图的标注虽经验证,仍可能存在遗漏或错误;开放航空地图的影像在分辨率、云覆盖及拍摄角度上差异显著,增加了模型泛化难度。这些因素共同构成了数据质量与模型鲁棒性的核心挑战。
常用场景
经典使用场景
在遥感影像分析与灾害测绘领域,该数据集为建筑物语义分割任务提供了标准化的训练与评估基准。其核心应用场景在于利用深度学习模型从高分辨率航空影像中自动提取建筑物轮廓,尤其适用于灾后快速制图。模型通过端到端学习,能够将256x256像素的影像瓦片精确分割为建筑物与背景两类像素,为后续的地理空间分析奠定数据基础。
解决学术问题
该数据集有效应对了地理空间人工智能研究中标注数据稀缺与质量不均的挑战。它通过整合经过人道主义开源地图团队验证的高质量标注,为建筑物检测算法提供了可靠的真实世界基准。其意义在于推动了基于深度学习的遥感影像解译技术发展,特别是在处理复杂城市形态与多样地理环境下的泛化能力研究,促进了计算机视觉与地理信息科学的交叉融合。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。在算法层面,催生了针对遥感影像特点的U-Net变体与注意力机制改进模型。在应用层面,基于其构建的自动化制图管道已被整合到开源灾害响应平台中。相关研究还探索了跨区域迁移学习、弱监督分割以及时序变化检测等方法,不断拓展着地理空间人工智能的技术边界与应用场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作